|
|
이미지와 텍스트가 결합된 ‘허니비’
정 내정자는 “허니비는 이미지와 텍스트가 결합된 것”이라며 “예를 들면 오늘 사진을 아까 찍었는데 왼쪽에서 세번째 기업이 어떤 기업인가요?라고 물으면 거기에 답변해 줄 수 있다. 그래서 좀 더 서비스의 확장성이 기대된다”고 말했다.
실제로 위의 사진처럼 개와 고양이 사진을 올리고 ‘두 동물의 대화를 써줘’라고 하면 ‘허니비’는 이미지와 텍스트가 혼합된 콘텐츠에 관한 질문을 이해하고 답변해 준다.
‘고양이가 눈 속에 누워 있는 강아지 등 위에 올라 있다. 둘이 대화한다면 다음과 같은 대화를 할 지 모른다. 고양이가 “덩치 큰 친구야. 태워줘서 고마워”라고 하면 강아지가 “천만에, 내 친구. 네가 내 등에 있어 좋아”라고 답’하는 식이다.
카카오 멀티모달 언어모델이 처음은 아냐
이미지와 텍스트를 모두 입력할 수 있기에 이미지에 담긴 장면을 묘사하거나 이미지와 텍스트가 혼합된 콘텐츠에 관한 질문을 이해하고 답변할 수 있는 능력을 가지게 된 것이다.
그런데 카카오브레인이 개발한 ‘허니비’에는 사촌격인 기술이 있다. 바로 지난해 11월 공개한 ‘카라-CXR(흉부 엑스레이 이미지 넣으면 판독문 생성)’와 관련된 기술이다.
김재인 카카오브레인 부사장은 “허니비는 사실 카라와 기술 기반이 유사한데, 카라가 흉부 엑스레이에 국한된 것이라면, 허니비는 다양하게 일상생활에서 쓸 수 있도록 개발했다”고 전했다.
‘허니비’가 오픈소스인 이유
깃허브는 소프트웨어 개발 프로젝트를 위한 소스코드 관리서비스를 제공하는 일종의 원격 저장소로, 오픈소스를 위한 무상 서비스도 제공한다.
왜 ‘허니비’의 소스코드를 공개했을까. 카카오브레인은 “현재 멀티모달 언어모델에 대한 연구는 공개된 모델의 수가 적고, 학습 방법 역시 자세히 공개되지 않아 개발이 어려운 상황”이라며 “멀티모달 언어모델의 발전에 기여하고자 자체 개발한 ‘허니비’의 소스코드를 공개하기로 결정했다”고 밝혔다.
하지만 ‘허니비’를 상업용으로는 쓸 수 없다. 김 부사장은 “허니비는 오픈소스여서 연구목적으로 사용하는 사람들에게 연구용으로 사용할 수 있도록 라이센스를 정의해놨다”면서 “상업용으로는 가져다 쓰는 건 안된다”고 했다.
카카오 버티컬 AI 서비스에 적용될 듯
카카오의 어떤 서비스에 ‘허니비’를 도입할지는 정해지지 않았다. 다만, 허니비가 기존 텍스트 중심의 LLM보다 확장성이 큰 만큼 여러 서비스에 적용할 가능성도 있다.
정신아 내정자는 이날 “AI 서비스의 단가를 좀더 낮추는 관점에서는 버티칼 모델을 개발 중”이라고 했는데, 카카오가 내놓을 특화영역 서비스에 이미지를 텍스트로 바꿔주는 ‘허니비’가 기여할 것으로 보인다.