과기정통부, AI 학습용 데이터 역대 최대 규모로 개방

[이데일리 김정유 기자]

과학기술정보통신부와 한국지능정보사회진흥원(이하 지능정보원)은 지난해 ‘인공지능(AI) 학습용 데이터 구축사업’을 통해 구축한 학습용 데이터셋 310종을 오는 7월 말까지 ‘AI허브’를 통해 순차 개방한다고 30일 밝혔다.

이번 사업은 전문영역부터 일상생활까지 전 분야로 확산되고 있는 AI 기술개발과 지능화 서비스 확산을 선도하기 위한 국가 핵심 데이터 인프라 사업이다. AI 개발에 관심 있는 국민이라면 누구나 AI 허브를 통한 학습용 데이터를 활용할 수 있다.

과기정통부와 지능정보원은 2020년부터 매년 약 200종의 데이터를 구축해 왔다. 전년도 구축 데이터는 당해연도 품질검증 등을 거쳐 개방하는데, 지금까지 개방된 데이터는 한국어, 이미지·영상, 헬스케어 등 6대 분야 381종, 약 11억건에 이른다. 지난해 7월에는 190종의 데이터를 개방, ‘AI허브’ 연간 방문자 수가 최초 100만명을 돌파하기도 했다.

올해 개방하는 데이터는 310종으로 역대 최대다. 지난해 6대 분야에서 제조·로보틱스·교육·금융·스포츠 등 14대 분야로 확장했다. 이번에 310종 약 15억건의 데이터 개방을 완료하면 ‘AI허브’ 이용자들은 총 691종, 약 26억건의 데이터를 활용할 수 있게 된다.

특히 올해는 이용자들이 더 많은 데이터를 조금이라도 빨리 활용할 수 있도록 품질검증 등을 마친 데이터를 우선 개방한다. 이에 따라 초기 개방 시점은 지난해 보다 3개월 앞당겨진다. 매달 약 80여종을 개방해 오는 7월 말까지 총 310종의 개방을 완료할 계획이다.

이번 1차 개방에는 자연어 기반 질의·검색·생성 데이터, 고서(古書)한자·한글 등 광학인식(OCR) 데이터, 안전환경 조성을 위한 실내외 군중 특성 데이터, 소방대원 행동 모션 3차원(3D) 객체 데이터 등 자연어와 인공지능 비전 분야에서 광범위하게 활용될 수 있는 약 70종의 데이터가 포함됐다.

엄열 과기정통부 인공지능정책관은 “챗GPT 등 초거대 AI의 등장으로 AI 산업이 빠르게 발전하고 있다”며 “우리 기업들과 연구자들이 새로운 데이터 확보에 어려움을 겪지 않도록 기존 라벨링 데이터(지도학습용) 중심의 사업을 개편해 초거대 AI 학습에 필요한 대규모 비라벨링 데이터와 한 번에 여러가지 유형을 학습시킬 수 있는 다중임무형 라벨링 데이터 등 다양한 유형의 데이터를 지속 확보하겠다”고 밝혔다.