'사투리'까지 알아듣는 AI 챗봇 나온다

솔트룩스·국립국어원, 사투리 포함 일상대화 빅데이터 구축
  • 등록 2020-05-19 오후 1:43:51

    수정 2020-05-19 오후 1:43:51

[이데일리 장영은 기자] 우리나라 말이지만 ‘이수과?’(있습니까?)가 무슨 뜻인지 아는 사람은 흔치 않다. 제주 방언(사투리)이어서다. 같은 한국어라도 지역색이 짙은 사투리는 단번에 알아듣기 힘들다. 앞으로는 인공지능(AI)이 이를 대신 해결해 줄 전망이다.

AI·빅데이터 전문 기업인 솔트룩스는 국립국어원과 사투리를 포함한 일상 대화를 빅데이터로 만드는 사업에 착수했다고 19일 밝혔다.

국립국어원은 ‘2020 일상대화 말뭉치 구축’ 사업으로 일상 대화 속 언어를 AI에 활용 가능한 데이터로 만든다는 계획이다. 이는 지난해부터 진행한 ‘국가 말뭉치 구축사업’의 일환으로 △구어 △일상 대화 △메신저 대화 △웹 △문어 등으로 나눈 사업 분야 중 일상 대화에 속한다.

이번 사업을 주관하는 솔트룩스는 약 2000명의 대화를 수집하고, 이를 고품질의 AI 데이터로 구축한다. 초기 단계에는 대화형 AI 분야 전문가들이 참여해 어떤 대화를 수집할 지 주제를 선정한다. 대화형 AI란 사람과 유사한 수준의 대화가 가능하며, 말뭉치 데이터가 주로 사용될 분야다. 대화를 수집할 때는 방송에서 쓰이는 표준어보다는 실제 지역색이 그대로 묻은 대화를 수집하는 데 비중을 둔다.

수집한 음성 대화는 데이터로 가공하기 위해 텍스트 형식으로 옮긴다. 이 과정에서는 국내 최고의 속기 전문기업 ‘소리자바’와 협력한다. 텍스트 자료는 인공지능 활용 가능한 데이터 파일로 가공돼 국립국어원이 요구한 메타 정보가 함께 심어질 예정이다.

솔트룩스는 말뭉치 데이터를 활용할 수 있는 음성인식 기능을 탑재한 모델을 제공한다. 사투리까지 알아듣는 AI 챗봇도 곧 만나볼 수 있을 것으로 기대된다.

국립국어원측은 이번 빅데이터 구축 사업과 관련, “말뭉치 데이터를 민간에 공유해 언어 인공지능 등 관련 산업 기반을 마련하는데 기여할 수 있을 것”이라고 기대했다.

이경일 솔트룩스 대표는 “현재 세계 대화형 AI 시장보다 국내 시장은 음성 및 전사 말뭉치가 부족하고, 기술 개발이나 서비스화가 더디게 발전하고 있다”라며 “이번 사업을 통해 대화형 AI 산업 활용을 위한 기반이 마련돼 다양한 AI 서비스와 데이터 생태계가 확보될 것으로 기대한다”라고 말했다.

이데일리
추천 뉴스by Taboola

당신을 위한
맞춤 뉴스by Dable

소셜 댓글

많이 본 뉴스

바이오 투자 길라잡이 팜이데일리

왼쪽 오른쪽

스무살의 설레임 스냅타임

왼쪽 오른쪽

재미에 지식을 더하다 영상+

왼쪽 오른쪽

두근두근 핫포토

  • 추위 속 핸드폰..'손 시려'
  • 김혜수, 방부제 美
  • 쀼~ 어머나!
  • 대왕고래 시추
왼쪽 오른쪽

04517 서울시 중구 통일로 92 케이지타워 18F, 19F 이데일리

대표전화 02-3772-0114 I 이메일 webmaster@edaily.co.krI 사업자번호 107-81-75795

등록번호 서울 아 00090 I 등록일자 2005.10.25 I 회장 곽재선 I 발행·편집인 이익원 I 청소년보호책임자 고규대

ⓒ 이데일리. All rights reserved