솔트룩스 관계자는 “누구나 인공지능의 중요성을 이야기하지만, 그 인공지능에 필수 불가결한 요소라 할 수 있는 데이터에 관해선 그 중요성을 인공지능만큼은 체감하지 못하는 경향이 있다”며 “현재 주요 국가 공공데이터세트 현황을 살펴보면 미국 25만2952건, 캐나다 8만1949건, 영국 5만1297건에 달한다. 이에 비해 한국은 2만9934건으로 미국의 1/9 수준”이라고 설명했다.
이어 “특히 언어 데이터인 말뭉치 어절 보유량을 살펴보면 문제는 더욱 심각해진다. 언어별 말뭉치 데이터는 영어 2000억 어절, 중국어 800억 어절 대비 한국어 2억 어절로 한국어가 영어의 1/1000에 그치는 등 해외 선도국보다 데이터 자산이 매우 취약한 상황”이라고 덧붙였다.
이경일 솔트룩스 대표는 “인공지능 산업 및 국어·언어학계에 필요한 구어 말뭉치 구축을 위해 유용성 검증과 품질 확보라는 두 마리 토끼를 잡아야 한다”며 “자체 보유한 인공지능 원천 기술력과 국내 최다 인공지능 서비스 개발 경험을 통해 최상의 프로세스로 반드시 성공적으로 사업을 수행하겠다”라고 의지를 밝혔다.