KAIST, 시각 성능 높인 대형언어모델 공개

상업 모델 시각 성능 넘는 공개형 대형 언어모델 개발
  • 등록 2024-06-20 오전 8:51:30

    수정 2024-06-20 오전 8:51:30

[이데일리 강민구 기자] 한국과학기술원(KAIST)은 노용만 전기전자공학부 교수 연구팀이 오픈AI의 GPT-4V 등 초대형 언어모델의 시각 성능을 넘는 공개형 멀티모달 대형 언어모델을 개발해 출시했다고 20일 밝혔다.

노용만 KAIST 전기전자공학부 교수.(사진=KAIST)
멀티모달 대형 언어모델은 글자뿐만 아니라 이미지 데이터 유형까지 처리할 수 있는 초대형 언어모델을 뜻한다. 인간 뇌에 있는 신경망의 개수와 유사한 수준의 초대형모델들이 만들어지고 있지만 학계에서는 개발하기 어려웠다.

노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 개발했다.

연구팀이 개발한 첫 번째 기술인 ‘콜라보(CoLLaVO)’는 현존 공개형 멀티모달 대형언어모델이 비공개형 모델의 성능에 비해 낮은 이유를 이미지 이해 능력이 떨어진다는 것에서 찾았다.

콜라보 멀티모달 대형언어모델 성능.(자료=KAIST)
해당 능력을 보완해 시각·언어 업무 성능을 높이기 위해 이미지 내 정보를 배경과 물체 단위로 나누고 각 배경과 물체에 대한 정보를 멀티모달 대형언어모델에 입력으로 넣어주는 새로운 방법인 ‘크레용 프롬프트(Crayon Prompt)’라는 시각적 프롬프트를 활용했다.

시각적 지시 조정 단계에서 학습한 정보를 잃어버리지 않기 위해 연구팀은 물체 수준 이미지 이해 능력과 시각·언어 업무 처리 능력을 서로 다른 측정지표로 학습해 서로 간 정보를 잃지 않게 만드는 학습 전략인 ‘듀얼 큐로라(Dual QLoRA)’도 제안했다.

두 번째 대형언어모델인 ‘모아이(MoAI)’는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해로부터 상황을 판단하는 인지과학적인 요소에 영감을 받아 만들었다.

노용만 교수는 “이번에 개발한 공개형 멀티모달 대형언어모델이 ‘허깅페이스 일간 화제의 논문’에 추천됐고, 각종 SNS를 통해 세계 연구자에게 알려지고 있다”며 “모든 모델을 공개형 대형언어모델로 출시했기 때문에 앞으로 멀티모달 대형언어모델 발전에 기여할 것”이라고 말했다.

한편, 콜라보(CoLLaVO)는 자연어 처리(NLP) 분야 국제 학회 ‘인공지능언어학회(ACL Findings) 2024’에 지난 달 16일자로 학회에 승인받았다. 모아이(MoAI)는 컴퓨터 비전 국제 학회인 ‘유럽 컴퓨터 비전 학회 2024’ 승인을 앞두고 있다.

이데일리
추천 뉴스by Taboola

당신을 위한
맞춤 뉴스by Dable

소셜 댓글

많이 본 뉴스

바이오 투자 길라잡이 팜이데일리

왼쪽 오른쪽

스무살의 설레임 스냅타임

왼쪽 오른쪽

재미에 지식을 더하다 영상+

왼쪽 오른쪽

두근두근 핫포토

  • 우아한 배우들
  • 박살난 車
  • 천상의 목소리
  • 화사, 팬 서비스
왼쪽 오른쪽

04517 서울시 중구 통일로 92 케이지타워 18F, 19F 이데일리

대표전화 02-3772-0114 I 이메일 webmaster@edaily.co.krI 사업자번호 107-81-75795

등록번호 서울 아 00090 I 등록일자 2005.10.25 I 회장 곽재선 I 발행·편집인 이익원 I 청소년보호책임자 고규대

ⓒ 이데일리. All rights reserved