"참고서 바꿔 공부한 챗GPT, 정확도 37% 올라…문제는 데이터!"

커티스 G. 노스컷 클린랩 CEO 인터뷰
생성형AI에 대한 관심, 모델→데이터로 이동
산업계 채택 늘면서 자연스러운 변화
AI 안정성 '데이터 품질'에 달려
내년 화두는 sLLM·AI 윤리

등록 2023-11-16 오후 5:58:15

수정 2023-11-19 오후 1:51:38
가 가

[이데일리 임유경 기자]

[이데일리 문승용 기자]

“챗GPT의 기반이 된 거대언어모델(LLM)에 품질을 개선한 데이터 세트를 학습시켰더니 성능이 37%나 향상됐습니다. 모델의 구조나 매개변수(파라미터)를 바꾸지 않고 데이터 최적화만으로 얻은 결과입니다.”

커티스 G. 노스컷 클린랩 최고경영자(CEO)는 이데일리와의 서면 인터뷰에서 이같이 말하며, “바로 AI 모델 못지않게 데이터 품질에 주목해야 하는 이유”라고 강조했다.

지금까지 생성형AI에 대한 관심은 ‘모델’ 자체에 쏠려 있었다. 올해는 오픈AI, 구글, 메타, 아마존 등 빅테크들의 LLM 구축 경쟁이 최대 관전 포인트였다. 파라미터(매개변수) 크기가 AI 성능의 척도라는 인식도 강해, 오픈AI가 1조개 매개변수를 가진 GPT-4를 내놓자 아마존이 2조개 매개변수를 가진 올림푸스를 개발하겠다고 나서는 식의 경쟁이 이어졌다.

그런데, 앞으로는 초점이 데이터에 맞춰질 가능성이 높다는 게 노스컷 CEO의 전망이다. 우리나라에도 생성형AI 개발을 위한 데이터 가공기술 업체 셀렉트스타 등이 있다. 셀렉트스타는 네이버, SK텔레콤, KT, LG AI 연구원 등과 함께 국내 최초로 대형 언어 모델 신뢰성을 평가하는 벤치마크 데이터 구축 기업이다.

노스컷 CEO는 오는 21일 열리는 제10회 이데일리 IT컨버전스포럼(Edaily IT Convergence Forum: preparing for 2024·ECF)에서 김세엽 셀렉트스타 대표와 ‘데이터 중심(data-centric)AI’의 중요성과 전망에 대해 토론한다.

노스컷은 “산업계에서는 AI가 안정적으로 작동하는지에 더 많은 관심을 기울이고 있으며, 이 부분은 데이터의 영향을 많이 받는다”고 했다. 이어 “AI가 학문적 추구를 넘어 산업계에서 점점 보편화됨에 따라 초점이 데이터로 이동하는 것은 당연한 수순”이라고 강조했다.

오픈AI 모델에 데이터 큐레이션을 거친 데이터세트를 학습시킨 결과 정확보가 37% 높아졌다.(이미지=클린랩)

커티스 노스컷 클린랩 CEO

AI 채택 기업 늘며 ‘데이터 신뢰’ 문제 부상

클린랩은 실험을 통해 같은 모델도 데이터에 따라 성능이 크게 바뀔 수가 있다는 사실을 확인했다. 회사는 오픈AI의 AI 모델에 데이터만 달리해 성능 평가를 진행했다. 그 결과 클린랩 오픈소스 솔루션을 써 데이터 레이블을 자동 수정한 경우 정확도가 8% 향상됐고, 유료 솔루션 ‘클린랩 스튜디오’를 써 데이터 큐레이션까지 진행하자 정확도가 37%까지 향상된 것이다. 데이터 큐레이션은 레이블 수정을 포함해 사용할 데이터를 준비하고 유지하는 일련의 프로세스다. 노스컷 CEO는 “오픈AI도 공개적으로 생성형AI의 성능은 데이터 품질이 결정한다는 견해를 밝힌 바 있다”고 전했다.

AI에 기반한 의사결정 시스템을 도입하는 기업이 늘수록 ‘데이터 개선’에 대한 수요도 높아지는 추세다. 그는 “내부 운영을 개선하고, 채용 예산을 할당하고, 급여를 결정하고, 투자를 추진하는 등 핵심 업무 영역까지 AI 활용이 확대되고 있다”며 “기업이 신뢰할 수 없는 데이터로 학습된 모델에 의존할 경우 발생할 수 있는 위험이 상당히 커졌다”고 배경을 짚었다.

챗GPT가 인터넷상에 떠도는 잘못된 정보를 학습해 환각현상을 일으키는 것을 생각하면 이해가 쉽다. 기업이 아무리 매개변수가 많은 뛰어난 AI 모델을 도입해도, 잘못된 레이블이 잔뜩 붙은 데이터 세트로 학습했다면 엉뚱한 답을 내놓을 수밖에 없다. 그는 “AI 학습의 숨겨진 진실은 모델 품질이 데이터 품질을 뛰어넘지 못한다는 것”이라며 “데이터에 오류가 있는 경우 AI 성능에 치명타를 줄 수 있다”고 강조했다.

그는 데이터 개선을 통해 AI 시스템을 향상시킨 대표사례로 스페인 BBVA은행을 들었다. “세 번째로 큰 금융 기관인 BBVA는 클린랩을 사용해 데이터 정리에 들어가는 비용과 시간을 98% 절감했고, 정확도는 25% 이상 향상시켰다”고 했다.

데이터 큐레이션을 거쳐야 AI 기반 의사결정 시 위험은 낮추고 수익은 높일 수 있다는 점을 보여주는 개념도(이미지=클린랩)

데이터가 적으면 생성형AI 못쓴다? ‘NO’

데이터의 양이 모델의 성능을 완전히 결정하진 않는다고 게 그의 견해다. 그는 “물론 더 많은 데이터를 보유한 기업이 AI에서 우위를 점할 수 있지만, 제한된 데이터로도 매우 구체적인 작업을 해결하는 모델은 충분히 학습시킬 수 있다”고 했다.

따라서 클린랩 같은 자동화된 데이터 큐레이션 솔루션이 데이터가 많은 기업과 적은 기업 모두에 필요하다고 강조했다. 그는 “한정된 데이터 세트를 가진 기업은 제한된 데이터를 최대한 활용해 완벽한 데이터 세트를 얻을 수 있고, 수십억 개의 데이터를 보유한 대규모 기업은 그중 품질이 낮은 데이터를 걸러내고 처리하는 데 드는 시간과 비용을 아낄 수 있다”고 설명했다.

그는 생성형AI 활용 역량이 기업 경쟁력에도 큰 영향을 미칠 것이라고 했다. “기업이 마케팅, 판매, 고객 서비스에 생성형AI를 사용하지 않는다면 경쟁에서 뒤처질 수 있다”며 “미래에 대한 얘기가 아니라 이미 현재 진행형인 사실이다”고 했다. 시장조사 및 컨설팅 업체 가트너도 최근 보고서에서 현재 기업 관리자가 수행하는 일상적인 작업의 69%가 2024년까지 완전히 자동화될 것이며 일정 관리와 보고, 의사 결정 같은 작업에 LLM이 사용될 가능성이 높다고 예측한 바 있다.

내년 sLLM 활용 사례 쏟아질 것…AI윤리 문제 주목해야

노스컷 CEO는 내년 AI 산업을 이끌 주요 트렌드로 “소형언어모델(sLLM) 활용 증가”를 꼽았다. sLLM은 매개변수가 100억 단위 아래인 경량화된 모델이다. 그는 “창의적이고 설득력을 요하는 커뮤니케이션에는 여전히 큰 신경망을 가진 LLM이 유용하겠지만, 특정 업무에 특화된 AI는 sLLM을 미세조종(파인튜닝)해 활용하는 것이 더 효율적일 것”이라며 “오픈소스 기반 sLLM을 포함해 다양한 모델이 등장하고 이를 비즈니스에 활용하는 사례도 쏟아질 것으로 보인다”고 했다.

클린랩도 이 같은 기업용 AI 모델 경쟁에 뛰어들었다. ‘클린랩 신뢰할 수 있는 언어모델(TLM)’을 베타버전으로 공개한 것이다. 그는 “이 모델은 답변과 함께 ‘신뢰도 점수’를 제공해 LLM의 환각 문제를 해결했다”고 설명했다. 신뢰도는 클린랩의 기반 기술인 ‘신뢰 학습’을 통해 매긴다. 노스컷 CEO가 MIT 컴퓨터공학 박사 과정 때 개발한 알고리즘이다.

그는 내년부터 AI 윤리 및 규제 논의가 구체화될 것이라고도 내다봤다. 그는 “재판에서 생성형AI를 통해 찾은 거짓 판례를 근거로 제시했다 패소한 사례가 있는 것처럼 어떤 상황에선 생성형AI를 쓰지 못하게 막는 규제들이 더 구체화될 것”이라고 예상했다. 또 사회의 윤리적 요구를 충족하는 방식으로 AI의 진화가 이뤄져야 한다는 견해도 밝혔다. 그는 “시행 가능하고 신뢰할 수 있는 방식으로만 진화를 허용한다는 내용이 모든 AI의 ‘책임 및 윤리 요구 사항’에 포함돼야 할 것”이라고 강조했다.