챗GPT 시대, '데이터 눈알 붙이기'론 안 돼…정책 전환 시급

'20년부터 3년간 AI학습용 데이터구축에 1.2조 투입
하지만 사업화 활용율은 '21년 11월 기준 39% 불과
정부, 내일 국정현안관계 장관회의서 '초거대 AI 경쟁력 강화'논의
한국 자체 초거대 AI 포기할 순 없어..정부 지원 절실

등록 2023-04-05 오후 3:55:14

수정 2023-04-10 오전 11:46:43
가 가

[이데일리 김현아 기자]

[이데일리 김일환 기자]

지난해 11월 챗GPT가 상용화되면서 글로벌 인공지능(AI)경쟁이 숨 가쁜 가운데, 정부가 지난 3년간 진행한 ‘데이터댐’과 ‘AI허브’ 정책을 재검토해야 한다는 목소리가 크다.

정부는 2020년부터 3년간 인공지능 학습용 데이터 구축에만 1조 2427억 원을 쏟아붓는 등 ‘데이터댐’ 사업에 집중했고,이렇게 만들어진 데이터를 기업들이 쓸 수 있게 하는 ‘AI허브’ 사업도 하고 있다.

하지만, 초거대 언어모델(LLM·Large Language Model)로 만들어진 챗GPT가 세상에 나오면서, AI 개발을 위한 공공 인프라격인 ‘데이터댐’이나 ‘AI허브’가 무용지물이 될 수 있다는 우려가 제기된다. 마치 생선찌개를 끓이려고 마트에 갔는데, 횟감 생선만 진열대에 놓여 있는 셈이란 얘기다.

정부가 내일(6일) 국정현안관계장관회의에서 비공개로 논의하는 ‘초거대 AI 경쟁력 강화방안’에서 획기적인 정책 전환이 이뤄질지 관심이다.

‘데이터 눈 붙이기’에 머문 과거

챗GPT는 기계학습을 통해 모방하면서 기술을 습득하며, 인공신경망을 통해 딥러닝 기술을 구현한다. 기존 딥러닝과는 다른 트랜스포머 구조다. 트랜스포머 모델은 문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망이다.

인간이 함수를 직접 짜서 수식으로 만드는 머신러닝과 달리, 딥러닝은 AI 학습 데이터를 이용해 스스로 학습하고 답을 만든다. 이때 필요한 게 원천데이터에 값(라벨)을 붙이는 데이터 라벨링이다. 초기엔 사람이 일일이 데이터에 라벨링을 붙여야 해 ‘AI 눈알 붙이기’라고도 불렀다. ‘슈퍼브에이아이’, ‘마인즈랩’ 같은 라벨링 자동화 도구를 만든 기업도 등장했다.

정부가 ‘데이터댐’과 ‘AI허브’에 올인했던 이유도 일단 AI 개발에 필요한 데이터를 모으고 이를 기업들이 쉽게 쓰도록 하기 위해서였다.

AI허브 이용 사업화 비율, 39%에 불과

하지만, ‘AI허브’를 이용한 사업화 비율은 39%(2021년 11월 기준)에 불과하다. 당시 11만여 건의 누적 다운로드 가운데, 연구개발·테스트 비중 등 실제 사업화 준비 단계에 해당한 사례는 단 39%였다. 공급자중심의 비효율적 데이터 수집과 데이터 품질이 낮아서다.

IT 기업 관계자는 “사실 데이터의 양보다 품질이 더 중요하다”면서 “서비스 개발자들은 돈이 되면 어떻게든 쓴다. AI허브에 있는 데이터들의 구성이 매끄럽지 않은 게 문제”라고 지적했다.

배주호 한국외대 글로벌비즈니스&테크놀로지학부 교수는 “AI 학습용 데이터를 모으고 저장할 때 어떻게 활용할 것인가에 대한 고민 속에서 해야 하는데 그렇지 못했다”면서 “어떤 서비스를 만들지 그림이 그려지지 않은 상태에서 추진된데이터댐과 AI허브는 굉장히 소모적인 방향”이라고 했다.

초거대 AI 한 달 개발에 클라우드 비용만 1억…정부 지원 절실

정부 역시 이런 문제점을 인정하는 것으로 보인다. 이종호 과학기술정보통신부 장관이 하려 했던 ‘초거대 AI 경쟁력 강화방안’ 기자 브리핑을 이틀 전 취소하고, 대신 국정현안관계장관회의에 비공개 안건으로 올려 신중하게 살피기로 했다.

정책 변화에도 속도전이 필요하다. 챗GPT를 만든 오픈AI와 오픈AI에 지분을 투자한 마이크로소프트(MS)가 기술 공개를 끝내고 폐쇄적인 초격차 기술을 내세우며 글로벌 AI 생태계를 주도하기 시작했기 때문이다.

국내 기업들의 한국어 특화도 안전지대가 아니다. 지난달 14일(현지시간) 공개된 오픈AI의 ‘GPT-4’는 한국어 능력이 크게 향상됐다. GPT-4의 ‘테크니컬 리포트’를 보면, 각 언어별 평가 점수에서 한국어(77%)는 하위권이나, 이전 모델인 GPT-3.5의 영어 성능(70.1%)을 넘어섰다.

그런데 국내 기업이 초거대 AI 모델을 자체 개발하려면 데이터 학습에 쓰는 클라우드의 한 달 사용 비용만 1억 원 가까이 드는 것으로 전해진다.

김유원(51) 네이버클라우드 대표는 최근 이데일리와의 인터뷰에서 “옛날에는 어떤 서비스를 만들어 1000명에 제공하든, 1만 명에 제공하든 원가에 큰 차이가 없어 확장 가능성이 높았는데 AI 서비스는 그렇지 않다”며 “1000명한테 서비스하던 걸 2000명에게 하면 원가가 2배로 늘어난다. 서비스를 제공할 때도 고가의 GPU(그래픽처리장치)등을 쓰기 때문에 동시 접속자가 많은 서비스 등은 비용이 감당할 수 없을 정도로 올라간다”고 말했다.

배 교수는 “1년 전이라면 AI 정책 전환을 논의하자는 정도로 됐겠지만 이젠 긴장해야 한다”면서 “우리나라 자체의 초거대 AI 모델을 반드시 가져야 하는데, 그러려면 인프라가 굉장히 중요하다. 네이버든, 카카오든, SKT든, KT든 초거대 AI 모델을 만드는 기업에 정부가 정책적으로 지원해야 한다”고 힘줘 말했다.