솔트룩스, 국립국어원 구어 말뭉치 구축 사업 수주

  • 등록 2019-08-12 오전 9:16:03

    수정 2019-08-12 오전 9:16:03

[이데일리 박지혜 기자] 인공지능·데이터과학 전문 기업 솔트룩스(대표 이경일)는 인공지능 산업 발전을 위한 대규모 고품질 우리말 자원 구축을 위한 국립국어원의 ‘구어 자료 수집 및 원시 말뭉치 구축 사업’을 수주했다고 12일 밝혔다.

솔트룩스 관계자는 “누구나 인공지능의 중요성을 이야기하지만, 그 인공지능에 필수 불가결한 요소라 할 수 있는 데이터에 관해선 그 중요성을 인공지능만큼은 체감하지 못하는 경향이 있다”며 “현재 주요 국가 공공데이터세트 현황을 살펴보면 미국 25만2952건, 캐나다 8만1949건, 영국 5만1297건에 달한다. 이에 비해 한국은 2만9934건으로 미국의 1/9 수준”이라고 설명했다.

이어 “특히 언어 데이터인 말뭉치 어절 보유량을 살펴보면 문제는 더욱 심각해진다. 언어별 말뭉치 데이터는 영어 2000억 어절, 중국어 800억 어절 대비 한국어 2억 어절로 한국어가 영어의 1/1000에 그치는 등 해외 선도국보다 데이터 자산이 매우 취약한 상황”이라고 덧붙였다.

관계자는 “이에 국립국어원은 TV, 라디오 등의 구어 원자료와 드라마, 연극 대본 등의 준구어 원자료를 수집해 말뭉치를 구축하고, 저작권 이용 계약까지 체결해 민간 활용 가치를 극대화하는 말뭉치 구축 사업을 계획했다”라고 밝혔다.

솔트룩스는 2018년 자체 말뭉치 구축 전문인력을 통해 품질순도 99.9%의 국립국어원 ‘국어 말뭉치 연구 및 구축 사업’을 수행한 바 있다. 그 외에도 한국전자통신연구원(ETRI) ‘음성 DB 구축’, 한국언론진흥재단 ‘뉴스 빅데이터 시스템 구축’ 등 20년 간 축적된 빅데이터 구축 경험과 4단계 품질관리 프로세스 등의 전문성을 인정받았다.

이경일 솔트룩스 대표는 “인공지능 산업 및 국어·언어학계에 필요한 구어 말뭉치 구축을 위해 유용성 검증과 품질 확보라는 두 마리 토끼를 잡아야 한다”며 “자체 보유한 인공지능 원천 기술력과 국내 최다 인공지능 서비스 개발 경험을 통해 최상의 프로세스로 반드시 성공적으로 사업을 수행하겠다”라고 의지를 밝혔다.

이데일리
추천 뉴스by Taboola

당신을 위한
맞춤 뉴스by Dable

소셜 댓글

많이 본 뉴스

바이오 투자 길라잡이 팜이데일리

왼쪽 오른쪽

스무살의 설레임 스냅타임

왼쪽 오른쪽

재미에 지식을 더하다 영상+

왼쪽 오른쪽

두근두근 핫포토

  • '완벽 몸매' 화사의 유혹
  • 바이든, 아기를 '왕~'
  • 벤틀리의 귀환
  • 방부제 미모
왼쪽 오른쪽

04517 서울시 중구 통일로 92 케이지타워 18F, 19F 이데일리

대표전화 02-3772-0114 I 이메일 webmaster@edaily.co.krI 사업자번호 107-81-75795

등록번호 서울 아 00090 I 등록일자 2005.10.25 I 회장 곽재선 I 발행·편집인 이익원 I 청소년보호책임자 고규대

ⓒ 이데일리. All rights reserved