네이버 AI 스피커의 진화.."연인 목소리로 말하고 내 목소리 알아듣고"

유명인은 물론 연인·가족 등 지인 음성합성 서비스
"합성음, 향후 정교해지면 워터마크 필수 적용해야"
연내 화자 인식 기능도 도입..개인화된 서비스 제공

등록 2018-07-04 오후 4:04:54

수정 2018-07-04 오후 4:04:54
가

[이데일리 김혜미 기자] 네이버(035420)가 연예인은 물론 가족이나 연인 등 지인들의 목소리로 말하는 AI(인공지능) 스피커 서비스를 내놓는다. 네이버는 이른 시일 내에 유명인의 음성합성 서비스부터 선보일 계획이다.

4일 네이버는 서울 강남구 역삼동 ‘D2 스타트업 팩토리’에서 기술 포럼을 열어 4시간 분량의 음성 샘플 만으로도 특정인의 목소리를 살려낼 수 있는 합성기를 최초로 만들어냈으며, 조만간 특정인의 목소리 서비스가 이뤄질 것이라고 밝혔다.

다만 가족 등 주변인들의 음성 합성 서비스 시기는 구체적으로 정해지지 않았다.

기본적으로 기계가 특정인의 목소리를 자연스럽게 흉내내기 위해서는 일정량의 음성 샘플이 필요하다. 보통은 100시간 이상의 분량이 필요한 것으로 알려져있으며 구글의 경우에도 최소 40시간 이상은 돼야 한다는 것이 업계 중론이다.

그러나 네이버는 고품질 음원을 지원하는 ‘웨이브넷’과 적은 양의 데이터베이스(DB) 만으로도 학습할 수 있는 ‘ITFTE’ 기술을 결합해 4시간 분량의 음성 샘플 만으로도 특정인의 목소리를 구현할 수 있게 됐다고 설명했다.

이 기술은 지난 6월28일 일본에서 열린 ‘라인 컨퍼런스 2018’에서 최초 공개됐다. 당시 발표자로 나선 마스다준 라인주식회사 CSMO(전략마케팅임원)은 직접 4시간 분량의 음성 샘플을 활용, 본인의 목소리로 스피커와 직접 대화를 주고 받는 과정을 시연하기도 했다.

마스다준 라인주식회사 CSMO가 지난달 말 라인 컨퍼런스 2018에서 직접 본인의 목소리 음성합성을 시연하는 모습. 네이버 제공

음성 샘플은 단순한 글보다는 내용이 풍부하고 다양한 글이 담긴 출판물을 읽는 편이 유사성을 높여준다. 네이버는 궁극적으로 누구나 자유롭게 녹음하고 원하는 곳에 사용할 수 있게 연구를 진행하고 있다.

김재민 네이버 클로바 보이스 리더는 “기존에 유명인들의 음성 녹음이 필요했던 부분이라든지 애니메이션 음성 더빙 등 활용할 수 있는 곳이 많다”고 말했다.

이는 지난 5월 초 구글이 공개한 ‘구글 듀플렉스’가 국내 기술로도 충분히 구현될 수 있음을 나타내는 것이다. 당시 구글은 AI가 사람을 대신해 음식점에 전화를 걸어 자연스럽게 예약하는 모습을 시연한 바 있다. 구글은 연내 AI 스피커인 구글 홈의 구글 어시스턴트에서 가수 존 레전드의 목소리로 답변해주는 기능을 선보이겠다고 언급하기도 했다.

네이버는 이르면 이달 중 실제 인물의 음성 서비스를 선보일 계획이지만 구글 듀플렉스와 동일한 서비스는 서두르지 않고 있다. 한익상 네이버 음성인식 기술 담당 리더는 “내부적으로 검토해보긴 했으나 서비스를 우선 순위에 두고 있지는 않다”고 말했다.

네이버는 음성 합성 기술 발달로 인해 발생할 수 있는 윤리적인 문제에 관해서는 ‘워터마크’로 해소할 수 있다고 설명했다. 합성음을 실행하기 전후 알림음으로 음악이나 메시지를 삽입하는 것이다. 구글 듀플렉스가 안내메시지를 사전에 실행하는 것과 같은 방식이다.

또는 코덱 형태로 음성파일에 부가정보를 삽입하는 방식의 워터마크도 가능하다.

김재민 리더는 “현재 만들고 있는 합성음은 사람이 구분할 수 없을 정도의 성능은 아니다”라면서도 “구분될 수 없을 정도로 정교해질 경우에는 반드시 합성음이라는 사실을 알려주는 형태가 돼야 할 것”이라고 말했다.

한편 네이버의 음성인식 및 음성합성 서비스인 ‘클로바 보이스’는 네이버 클로바 스피커와 네이버 뉴스, 파파고, 어학사전 등에 활용되고 있다. 지난 1월 네이버 오디오클립에서 선보인 유인나 오디오북은 배우 유인나의 음성 합성으로 제작돼 화제를 모았다.

네이버는 연내 AI가 목소리 만으로 사용자를 구별하는 ‘화자 인식’ 기능을 함께 도입해 더 정교한 맞춤형 서비스를 제공할 계획이다.