16일 과학기술정보통신부가 내놓은 ‘초거대AI 경쟁력 확대 방안’을 보면, 분야별로 특화된 비라벨링 데이터를 보강하는 내용이 포함됐다. 과기정통부에 따르면 현재(작년 12월 기준)까지 구축된 AI 학습용 데이터는 691종이다.
|
올해 34종 비라벨링 데이터 구축
기존 AI 학습 데이터 구축 사업은 라벨링 데이터 위주였다. 데이터 라벨링은 여러 과일이 뒤섞인 사진 속에서 과일을 분류해 사과, 오렌지 등의 이름을 붙여주는 것이다. 이를 통해 AI가 과일을 보면 어떤 과일인지 구별할 수 있게 훈련할 수 있다. 이른바 정답을 미리 알려주고, AI를 학습하는 ‘지도 학습’이다.
최우석 과기정통부 인공지능확산팀장은 “그간 비라벨링 데이터 구축은 기업에 맡기고 돈이 많이 드는 라벨링 데이터 구축을 지원해왔으나, (초거대 AI로) 비라벨링 데이터가 많이 필요한 상황이 됐다”며 “비라벨링 데이터의 경우 영어 데이터셋에 비해 양질의 한국어 데이터도 거의 없는 상태”라고 설명했다.
이에 따라 과기정통부는 분야별로 특화된 비라벨링 데이터 200종을 구축하기로 했다. 책 15만권에 달하는 분량이다. 한국어 중심으로 데이터를 확보하되, 동남아·중동 등 비영어권 데이터도 단계적으로 확대한다. 올해는 476억원의 예산을 들여 한국어 21종 등 34종의 비라벨링 데이터가 구축된다. 이미지 데이터는 현재대로 라벨링 데이터를 구축하되, 초거대 AI가 사전 학습용 이미지 설명 텍스트를 추가하도록 과제별로 개편한다.
초거대 AI 협의회 운영
또 국산 AI 반도체 기반의 고성능·저전력 K-클라우드를 초거대 AI가 활용할 수 있도록 핵심 하드웨어, 소프트웨어도 개발한다. 과기정통부 측은 “국산 AI 반도체 기반의 서버 수백 개를 연결, 클라우드 컴퓨팅을 지원하는 HW·SW 개발·실증 사업 예비타당성 조사를 올해 신청할 것”이라고 했다.
중소 서비스형 소프트웨어(SaaS)이 AI 서비스를 개발할 수 있도록 초거대 AI 모델, 컴퓨팅 자원 등을 지원하는 사업도 진행된다. 올해 20억원을 투입해 4개 과제(과제당 5억원)를 시범 지원한 뒤 내년부터 확대를 추진한다. 초거대 AI 기반 SaaS를 개발한 기업에 대해선 글로벌 SaaS 마켓플레이스 진입 등도 지원한다.
과기정통부는 민간 차원의 투자, 신(新) 서비스 창출 등 디지털 기업의 협력 강화를 위한 ‘초거대 AI 협의회’도 운영할 계획이다. 초거대 AI 기업, 클라우드 기업, 중소 AI 개발사 등이 참여한다.