[이데일리 장영은 기자] 우리나라 말이지만 ‘이수과?’(있습니까?)가 무슨 뜻인지 아는 사람은 흔치 않다. 제주 방언(사투리)이어서다. 같은 한국어라도 지역색이 짙은 사투리는 단번에 알아듣기 힘들다. 앞으로는 인공지능(AI)이 이를 대신 해결해 줄 전망이다.
AI·빅데이터 전문 기업인 솔트룩스는 국립국어원과 사투리를 포함한 일상 대화를 빅데이터로 만드는 사업에 착수했다고 19일 밝혔다.
국립국어원은 ‘2020 일상대화 말뭉치 구축’ 사업으로 일상 대화 속 언어를 AI에 활용 가능한 데이터로 만든다는 계획이다. 이는 지난해부터 진행한 ‘국가 말뭉치 구축사업’의 일환으로 △구어 △일상 대화 △메신저 대화 △웹 △문어 등으로 나눈 사업 분야 중 일상 대화에 속한다.
이번 사업을 주관하는 솔트룩스는 약 2000명의 대화를 수집하고, 이를 고품질의 AI 데이터로 구축한다. 초기 단계에는 대화형 AI 분야 전문가들이 참여해 어떤 대화를 수집할 지 주제를 선정한다. 대화형 AI란 사람과 유사한 수준의 대화가 가능하며, 말뭉치 데이터가 주로 사용될 분야다. 대화를 수집할 때는 방송에서 쓰이는 표준어보다는 실제 지역색이 그대로 묻은 대화를 수집하는 데 비중을 둔다.
수집한 음성 대화는 데이터로 가공하기 위해 텍스트 형식으로 옮긴다. 이 과정에서는 국내 최고의 속기 전문기업 ‘소리자바’와 협력한다. 텍스트 자료는 인공지능 활용 가능한 데이터 파일로 가공돼 국립국어원이 요구한 메타 정보가 함께 심어질 예정이다.
솔트룩스는 말뭉치 데이터를 활용할 수 있는 음성인식 기능을 탑재한 모델을 제공한다. 사투리까지 알아듣는 AI 챗봇도 곧 만나볼 수 있을 것으로 기대된다.
국립국어원측은 이번 빅데이터 구축 사업과 관련, “말뭉치 데이터를 민간에 공유해 언어 인공지능 등 관련 산업 기반을 마련하는데 기여할 수 있을 것”이라고 기대했다.
이경일 솔트룩스 대표는 “현재 세계 대화형 AI 시장보다 국내 시장은 음성 및 전사 말뭉치가 부족하고, 기술 개발이나 서비스화가 더디게 발전하고 있다”라며 “이번 사업을 통해 대화형 AI 산업 활용을 위한 기반이 마련돼 다양한 AI 서비스와 데이터 생태계가 확보될 것으로 기대한다”라고 말했다.