4일 네이버는 서울 강남구 역삼동 ‘D2 스타트업 팩토리’에서 기술 포럼을 열어 4시간 분량의 음성 샘플 만으로도 특정인의 목소리를 살려낼 수 있는 합성기를 최초로 만들어냈으며, 조만간 특정인의 목소리 서비스가 이뤄질 것이라고 밝혔다.
다만 가족 등 주변인들의 음성 합성 서비스 시기는 구체적으로 정해지지 않았다.
기본적으로 기계가 특정인의 목소리를 자연스럽게 흉내내기 위해서는 일정량의 음성 샘플이 필요하다. 보통은 100시간 이상의 분량이 필요한 것으로 알려져있으며 구글의 경우에도 최소 40시간 이상은 돼야 한다는 것이 업계 중론이다.
그러나 네이버는 고품질 음원을 지원하는 ‘웨이브넷’과 적은 양의 데이터베이스(DB) 만으로도 학습할 수 있는 ‘ITFTE’ 기술을 결합해 4시간 분량의 음성 샘플 만으로도 특정인의 목소리를 구현할 수 있게 됐다고 설명했다.
이 기술은 지난 6월28일 일본에서 열린 ‘라인 컨퍼런스 2018’에서 최초 공개됐다. 당시 발표자로 나선 마스다준 라인주식회사 CSMO(전략마케팅임원)은 직접 4시간 분량의 음성 샘플을 활용, 본인의 목소리로 스피커와 직접 대화를 주고 받는 과정을 시연하기도 했다.
|
김재민 네이버 클로바 보이스 리더는 “기존에 유명인들의 음성 녹음이 필요했던 부분이라든지 애니메이션 음성 더빙 등 활용할 수 있는 곳이 많다”고 말했다.
이는 지난 5월 초 구글이 공개한 ‘구글 듀플렉스’가 국내 기술로도 충분히 구현될 수 있음을 나타내는 것이다. 당시 구글은 AI가 사람을 대신해 음식점에 전화를 걸어 자연스럽게 예약하는 모습을 시연한 바 있다. 구글은 연내 AI 스피커인 구글 홈의 구글 어시스턴트에서 가수 존 레전드의 목소리로 답변해주는 기능을 선보이겠다고 언급하기도 했다.
네이버는 이르면 이달 중 실제 인물의 음성 서비스를 선보일 계획이지만 구글 듀플렉스와 동일한 서비스는 서두르지 않고 있다. 한익상 네이버 음성인식 기술 담당 리더는 “내부적으로 검토해보긴 했으나 서비스를 우선 순위에 두고 있지는 않다”고 말했다.
또는 코덱 형태로 음성파일에 부가정보를 삽입하는 방식의 워터마크도 가능하다.
김재민 리더는 “현재 만들고 있는 합성음은 사람이 구분할 수 없을 정도의 성능은 아니다”라면서도 “구분될 수 없을 정도로 정교해질 경우에는 반드시 합성음이라는 사실을 알려주는 형태가 돼야 할 것”이라고 말했다.
한편 네이버의 음성인식 및 음성합성 서비스인 ‘클로바 보이스’는 네이버 클로바 스피커와 네이버 뉴스, 파파고, 어학사전 등에 활용되고 있다. 지난 1월 네이버 오디오클립에서 선보인 유인나 오디오북은 배우 유인나의 음성 합성으로 제작돼 화제를 모았다.
네이버는 연내 AI가 목소리 만으로 사용자를 구별하는 ‘화자 인식’ 기능을 함께 도입해 더 정교한 맞춤형 서비스를 제공할 계획이다.
|