"1시간 영화도 단숨에 처리한다"…구글, 제미나이 1.5 공개

제미나이 1.5 프로, 최대 100만 토큰까지 처리 가능
구글 "내부 테스트서 1.0 프로 대비 87% 성능 향상"
영상 분석해 대화·사건·이미지 등 종합해 추론까지

등록 2024-02-16 오후 12:08:42

수정 2024-02-16 오후 12:08:42
가 가

[이데일리 한광범 기자] 구글이 16일 자사 초거대 인공지능(AI) 제미나이(Gemini)의 차세대 모델인 ‘제미나이 1.5’를 공개했다.

구글이 이날 공개한 모델은 중형 멀티모달 모델인 ‘제미나이 프로 1.0’을 업그레이드한 ‘제미나이 프로 1.5’이다. 기존의 1.0 프로에 비해 동시에 정보를 처리할 수 있는 능력이 크게 향상돼 긴 문맥을 이해하는 역량이 뛰어나다는 것이 구글의 설명이다. 구글은 내부 테스트 결과 제미나이 1.5 프로가 기존 제미나이 1.0 프로 대비 87% 더 향상된 성능을 보였다고 밝혔다.

구글 제미나이는 학습양에 따라 최상위 버전인 울트라와 그 아래로 프로와 나노로 구분된다. 이번에 초기 테스트 버전으로 공개된 제미나이 1.5는 중형 모델인 제미나이 프로의 차세대 모델인 것이다. 앞서 구글이 지난해 12월 처음 세상에 내놓은 제미나이는 1.0 버전이었는데, 당시 나노와 프로 모델만 공개한 바 있다. 최상위 모델인 울트라 1.0 모델은 지난주에 일반 사용자에게 서비스를 시작했는데, 구글은 해당 모델이 역대 최상위 AI 모델이라고 설명하고 있다.

구글은 중형 모델인 제미나이 프로 1.5가 최상위 모델 제미나이 울트라 1.0과 유사한 성능을 발휘한다고 설명했다. 순다 피차이(Sundar Pichai) 구글 및 알파벳 CEO는 이날 “제미나이 1.5 프로는 다양한 부문에서 놀라운 발전을 이뤘다”며 “더 적은 컴퓨팅 자원으로 (최상위 모델인) 제미나이 1.0 울트라에 필적하는 성능을 갖추고 있다”고 밝혔다.

음성 11시간·단어 70만개도 단숨 처리 가능

모델이 한 번에 처리할 수 있는 정보의 양을 ‘콘텍스트 윈도(context window)’라고 하는데, 이는 정보를 처리하는 구성 요소인 ‘토큰(token)’으로 이뤄진다. 토큰은 단어, 사진, 영상, 음성 및 코드 등으로 구성될 수 있다. 제미나이 1.5 프로의 토큰 처리 규모는 기존 1.0 프로의 3만2000개 토큰을 넘어 최대 100만까지 가능하다.

오픈AI의 GPT-4 터보의 12만8000개를 훌쩍 뛰어넘는 규모라는 것이 구글의 설명이다. 이 같은 처리 규모는 제미나이 1.5 프로가 △영상 1시간 △음성 11시간△코드 3만줄 △단어 70만개 등의 방대한 정보를 한 번에 처리할 수 있다는 것이다.

주요 파운데이션 모델들의 컨텍스트 길이 비교. (그래픽=구글)

제미나이 1.5 프로는 주어진 프롬프트에 답하기 위해 더욱 매끄럽게 방대한 양의 콘텐츠를 분석, 분류해 요약해 준다. 일례로 달탐사 미션 수행을 위해 발사됐던 우주선 아폴로 11호와 관련된 402페이지 분량 기록이 제미나이 1.5 프로를 통해 문서 전반에서 발견되는 모든 자세한 정보들과 대화, 사건, 이미지 등을 종합해 추론해 낼 수 있다.

구글은 제미나이 1.5 프로가 영상 등 다양한 모달리티에서도 고도로 정교화된 이해 능력과 추론 능력을 보인다고 전했다. 예를 들어 44분 분량의 미국 배우 버스터 키튼 주연의 무성 영화가 입력되면 제미나이 1.5 프로가 정확하게 주요 줄거리 포인트와 사건들을 분석하고 영화 내 사소한 디테일까지도 추론해 낼 수 있다는 설명이다.

기존에 본 적이 없던 정보도 빠르게 학습 가능

제미나이 1.5 프로는 더 긴 코드 블록에서도 연관성이 더 높은 문제 해결 작업을 수행할 수 있다. 일례로 10만줄 이상의 코드가 포함된 프롬프트가 주어져도 예시를 통해 더 잘 추론하고 유용한 수정 사항을 제안하며 코드의 여러 부분들이 어떻게 작동하는지에 대해 설명을 제공한다.

특정 사실이나 진술이 포함된 작은 텍스트 조각을 긴 텍스트 블록 안에 의도적으로 배치하는 NIAH(Needle In A Haystack) 평가에서도 100만 토큰 길이의 데이터 블록에서 99%의 정확도로 해당 문구가 포함된 텍스트를 찾아냈다는 것이 구글의 설명이다.

구글은 제미나이 1.5 프로가 달탐사 미션을 위해 발사된 우주선 아폴로 11호에 관한 402 페이지 분량의 기록을 이해하고, 이에 대해 추론하며 흥미로운 정보들을 파악해낼 수 있다. (구글 제공)

이와 함께 문맥 기반 학습(in-context learning) 기능도 갖추고 있어 추가적 미세 조정 없이도 주어진 긴 프롬프트 내 정보에서 새로운 기술을 학습할 수 있다.

구글은 기존에 본 적이 없던 정보도 얼마나 잘 학습하는지 테스트한 결과에서도 뛰어는 성능을 보였다고 설명했다. 일례로 전 세계적으로 사용하는 사람이 200명이 채 안되는 칼라망(Kalamang)어 문법 매뉴얼이 주어졌을 때도 동일한 내용을 사람이 학습하는 것과 비슷한 수준으로 영어를 칼라망어로 번역하는 방법을 학습했다.

제미나이 1.5 프로는 개발자를 위한 AI 개발 도구인 ‘구글 AI스튜디오’와 기업들이 AI 모델을 활용할 수 있는 플랫폼 ‘버텍스 AI’를 통해 프리뷰 버전으로 100만개의 토큰 콘텍스트 윈도를 제공할 예정이다. 다만 실제 출시될 경우엔 기본 12만8000개 토큰 콘텍스트 윈도를 기준으로 추가 요금을 받는 식으로 서비스를 할 예정이다.