|
서울대 공대 컴퓨터공학부 김현우 박사 등이 함께 진행한 연구가 국제 최우수 자연어처리 학술대회 EMNLP 2023에서 논문상을 수상했다. 국내 대학 연구진이 EMNLP에서 수상을 한 것은 이번이 처음이다.
연구팀은 세계 최초로 150만 규모의 세계 최대 고품질 일상 대화 데이터셋인 SODA를 무료로 공개했는데, 기존 데이터셋과 비교해 무려 100배나 큰 규모다. 대화의 자연스러움과 일관성 등의 품질 역시 기존 데이터셋에 비해 2배 이상 뛰어난 것으로 나타났다.
이번 연구는 누구나 간편하게 세계 최대 규모의 고품질 대화 데이터셋을 구축할 수 있는 방법론을 제시했다는 점에서 의의가 있다. 앞으로 다양한 대화 연구에 기반 자료로 쓰일 수 있을 것으로 기대된다.
서울대학교 공과대학(학장 홍유석)은 컴퓨터공학부 김현우 박사와 김건희 교수가 미국 시애틀 앨런 인공지능 연구소(Allen Institute for AI; AI2) 및 워싱턴 대학교(University of Washington)의 최예진 교수 등과 함께 진행한 연구가 국제 최우수 자연어처리 학술대회 EMNLP 2023에서 Outstanding Paper Award를 수상했다고 밝혔다.
어떤 논문인데?
이에 대안으로 그동안 크라우드 소싱을 통해 대화 데이터셋을 제작해왔지만 비용이 많이 들고, 만들 수 있는 데이터셋 크기도 작은 문제점이 있다. 그 결과, 기존 대화 관련 연구들은 모두 소수의 작은 데이터셋 위에서 이루어져 범용성에 큰 제약이 있었다.
수상 논문인 “사회 상식 맥락화 기법을 통한 백만 단위의 대화 증류(SODA: Million-scale Dialogue Distillation with Social Commonsense Contextualization)”는 이를 해결하기 위해 거대 언어모델(large language model; LLM)과 기호 기반 상식 그래프(symbolic commonsense knowledge graph)를 함께 사용하여 데이터셋을 효율적으로 자동 구축하는 방법론인 CO_3 증류 프레임웍(distillation framework)을 제시했다.
몇 분 작업을 6초 내외로
기존에 크라우드 소싱을 활용 시 대화 하나 당 길게는 몇 분이 걸리던 작업을 6초 내외로 단축시킨다. 연구팀은 이를 통해 세계 최초로 150만 규모의 세계 최대 고품질 일상 대화 데이터셋인 SODA를 무료로 공개하였는데, 이는 기존 데이터셋 대비 100배 큰 규모다.
이밖에도 대화의 자연스러움, 일관성, 구체성 등 품질 또한 기존 크라우드 소싱 기반 대화 데이터셋에 비해 2배 이상 뛰어난 것으로 나타났다.
이번 연구는 대화 데이터셋 부족 문제를 해결하고, 누구나 간편하게 세계 최대 규모의 고품질 대화 데이터셋을 구축할 수 있는 방법론을 제시했다는 데에 의의가 있다.
이 방법론으로 탄생한 데이터셋 SODA는 다양한 대화 연구에 기반 자료로 쓰일 수 있을 것으로 기대되며, 해당 코드와 SODA 데이터셋, COSMO 모델은 모두 오픈소스로 공개돼 있다.
해당 논문은 김현우 박사가 서울대 박사과정 중 미국 시애틀의 앨런 인공지능 연구소(Allen Institute for AI; AI2)에서 인턴을 수행하며 워싱턴 대학교 (University of Washington), 카네기멜론 대학교 (Carnegie Mellon University), 서던 캘리포니아 대학교 (University of Southern California), 그리고 피츠버그 대학교 (University of Pittsburgh)가 함께하는 국제 공동협력 연구를 이끈 결과다.
김현우 박사는 졸업 후 AI2에서 박사후 연구원으로 취업하여 후속 연구를 이어가는 중이다. 김현우 박사와 김건희 교수는 정보통신기획평가원(IITP)의 연구비를 지원받았다.