김병학 카나나알파 성과리더는 이날 경기도 용인 카카오AI캠퍼스에서 열린 ‘이프카카오2024’ 컨퍼런스에 참석해 △언어모델 △멀티모달 언어모델 △비주얼 생성 모델 △음성모델 등 총 4가지 부문의 생성형AI 모델을 공개했다.
|
◇ 카카오 AI모델들, ‘카나나’로 통일
김 성과리더는 “앞으로 카카오의 AI모델과 서비스는 모두 ‘카나나’라는 통합 브랜드로서 일관된 경험과 새로운 가치를 제공하게 될 것”이라며 “기존에 공개된 코지피티(KoGPT), 칼로, 허니비와 같은 카카오AI모델에서 고도화된 기술을 더 적용한 카나나 모델 패밀리를 새롭게 개발했다”고 밝혔다. 이어 “카나나 모델은 사람처럼 보고 듣고 말하는 모델을 목표로 개발됐다”며 “사용자의 일상을 옆에서 도와주는 카카오 서비스에 적용하려고 한다”고 덧붙였다.
우선 언어모델은 용량에 따라 △카나나 나노(초경량 언어모델) △카나나 에센스(중소형 언어모델) △카나나 플래그(고성능 초거대 언어모델)로 나뉘어진다.
김 성과리더는 “카나나 모델의 핵심은 라마 등 글로벌 선두주자 모델들과 비슷한 성능을 보이는 고성능 모델인데다 한국어 처리는 압도적인 성능을 보이고 있어 국내 시장 뿐 아니라 글로벌 시장에서도 경쟁력을 가진다고 생각한다”고 밝혔다. 또 “카나나는 저작권과 개인정보 이슈를 해결한 데이터만 학습해 학습 과정에서의 투명성을 확보했고 이를 기반으로 지속적으로 발전할 수 있는 견고한 기반을 마련했다”며 “모델 개발 단계에서부터 서비스 목적에 맞게 학습 과정을 최적화했기 때문에 처리 시간, 운영 비용을 효율화했다”고 설명했다.
김 성과리더는 언어모델 중 카나나 에센스에 대해 “글로벌 성능을 가진 유사한 사이즈와 비교해 모델 성능을 평가했는데 평균적으로 유사하거나 더 월등했다”며 “특히 한국어 성능에 대해선 다른 모델 대비 월등하다. 라마 3.1보다 더 좋은 성능을 갖고 있다”고 밝혔다. 또 검색 기반 생성모델(RAG)과 펑션콜(Function call, 함수호출) 부문에선 GPT4.o 대비로는 92%의 성능을 보유하고 있고 요약에선 GPT4.o보다 더 뛰어난 106%의 성능을 보였다.
◇ ‘키네마’ 모델 통해 ‘비디오 생성’ 쉽게
김 성과리더는 통합 멀티모달 언어모델(카나나-o)을 공개하며 음성을 입력할 경우 음성으로 답변하는 기술을 사례로 보여줬다. 그는 “카나나-o모델은 영어에선 글로벌 모델과 비교해 근소한 차이로 우위를 보였고 한국어에선 압도적인 성능을 보였다”고 설명했다. 이어 “카나나-o모델은 이미지, 오디오 뿐 아니라 영상 데이터를 이해하고 이미지와 영상을 생성할 수 있는 통합 멀티모델 언어모델 구조로 진화할 예정”이라고 덧붙였다.
비디오 생성모델인 키네마 모델에 대해선 “텍스트 입력부터 이미지, 개인 프로필 사진까지 다양한 입력을 처리하는 형태로 개발하고 있다”며 “이때 입력된 이미지를 바탕으로 영상을 생성하는 것을 넘어 마우스 조작만으로 카메라와 캐릭터 움직임을 쉽게 제어할 수 있도록 해 풍부하고 다채로운 비디오 콘텐츠를 제작할 수 있을 것”이라고 밝혔다.
김 성과리더는 “카카오는 글로벌 대표 모델들과 동등한 수준의 AI모델 성능을 보유하게 됐지만 더 중요한 것은 기술의 가치가 서비스로 연결돼 사용자 문제를 직접 해결해주고 실질적인 가치를 제공할 수 있는 실용적인 서비스를 구현해야 된다”고 밝혔다. 이어 “AI시장에서 카카오는 글로벌 경쟁력을 확보한 ‘카나나 모델’을 바탕으로 카카오AI 서비스 적용 뿐 아니라 내부적으로 직원들의 생산성을 높이기 위한 AI 네이티브 컴퍼니(AI Native Company, AI를 핵심 기술로 삼아 모든 비즈니스 활동과 운영을 수행하는 회사)를 만들어가는 기반을 확대하겠다”고 덧붙였다.