과학기술정보통신부와 한국지능정보사회진흥원(이하 지능정보원)은 지난해 ‘인공지능(AI) 학습용 데이터 구축사업’을 통해 구축한 학습용 데이터셋 310종을 오는 7월 말까지 ‘AI허브’를 통해 순차 개방한다고 30일 밝혔다.
이번 사업은 전문영역부터 일상생활까지 전 분야로 확산되고 있는 AI 기술개발과 지능화 서비스 확산을 선도하기 위한 국가 핵심 데이터 인프라 사업이다. AI 개발에 관심 있는 국민이라면 누구나 AI 허브를 통한 학습용 데이터를 활용할 수 있다.
올해 개방하는 데이터는 310종으로 역대 최대다. 지난해 6대 분야에서 제조·로보틱스·교육·금융·스포츠 등 14대 분야로 확장했다. 이번에 310종 약 15억건의 데이터 개방을 완료하면 ‘AI허브’ 이용자들은 총 691종, 약 26억건의 데이터를 활용할 수 있게 된다.
특히 올해는 이용자들이 더 많은 데이터를 조금이라도 빨리 활용할 수 있도록 품질검증 등을 마친 데이터를 우선 개방한다. 이에 따라 초기 개방 시점은 지난해 보다 3개월 앞당겨진다. 매달 약 80여종을 개방해 오는 7월 말까지 총 310종의 개방을 완료할 계획이다.
엄열 과기정통부 인공지능정책관은 “챗GPT 등 초거대 AI의 등장으로 AI 산업이 빠르게 발전하고 있다”며 “우리 기업들과 연구자들이 새로운 데이터 확보에 어려움을 겪지 않도록 기존 라벨링 데이터(지도학습용) 중심의 사업을 개편해 초거대 AI 학습에 필요한 대규모 비라벨링 데이터와 한 번에 여러가지 유형을 학습시킬 수 있는 다중임무형 라벨링 데이터 등 다양한 유형의 데이터를 지속 확보하겠다”고 밝혔다.