|
EMNLP(Empirical Methods in Natural Language Processing)는 자연어처리(NLP, Natural Language Processing) 분야 최고의 국제 학술대회로 꼽힌다. EMNLP에서는 AI 번역, 기계 독해, 번역 등 언어 데이터 기반의 인공지능 연구를 다룬다. 이달 6일~10일 사이 싱가포르에서 개최되는 ‘EMNLP 2023’에는 구글 딥마인드, 마이크로소프트 리서치 등 유수의 AI 기업이 참여했다.
쏘카 AI팀은 지난 7일 열린 MRL(Multilingual Representation Learning) 워크숍에 참가해 다양한 언어에서 활용할 수 있는 다국어 언어 처리 기술에 대한 연구 성과를 공유했다. 쏘카 AI팀은 ‘소규모 언어 데이터를 활용한 다국어 음성 파운데이션 모델 학습 방법(Adapt and Prune Strategy for Multilingual Speech Foundation Model on Low-resourced Languages)’을 제안, 수십억 개에서 수천억 개의 파라미터를 가진 거대모델에서 필요한 파라미터만 추출해 새로운 언어 혹은 도메인에서도 성능을 보장할 수 있는 사례에 대해 소개했다.
제안한 기법은 도메인에 관련된 지식(domain-specific knowledge)을 추가적으로 학습시키기 위해 LoRA(Low-Rank Adaption)을 이용한다. LoRA 기법을 통해 약 2% 만의 파라미터만으로 학습이 가능해 적은 양의 연산 자원에도 기존과 유사한 성능을 달성할 수 있음을 밝혔다.
한편, 쏘카 AI팀은 올해 EMNLP, ICLR 등 유명 국제 학회에서 약 7편의 연구논문을 발표했고, 연구 성과는 다양한 AI 제품에 적용되고 있다. 대표적으로 이번 연구 결과는 쏘카가 오는 2024년 선보일 AICC(AI-based Contact Center) 제품에도 적용, 음성 언어 파운데이션 모델 구축에 필요한 연산 자원을 절감하는데 큰 역할을 했다.