트웰브랩스, 페가수스·마렝고 업데이트 출시…"현존 최고 성능"

[이데일리 한광범 기자] 영상이해 초거대 AI 개발 기업 ‘트웰브랩스(Twelve Labs)’가 초거대 AI 영상언어 생성 모델 ‘페가수스(Pegasus-1)’와 멀티모달 영상이해 모델 ‘마렝고(Marengo 2.6)’를 업데이트 출시했다고 14일 밝혔다.

트웰브랩스는 독보적인 멀티모달 신경망 기술을 바탕으로 글로벌 영상 시장 내 오픈AI, 구글과 어깨를 나란히 하고 있다고 밝혔다. 2022년 말 오라클과의 대규모 클라우드 파트너십을 통해 수천 대의 최신 엔비디아 GPU를 확보하며 모델 고도화를 이루어내기도 했다는 설명이다.

특히 글로벌 빅테크 기업 및 미국의 주요 초거대 AI 스타트업 대비 적은 인력과 자금으로 경쟁력 있는 기술 및 서비스를 제공한다는 점에서 주목을 받고 있다. 지난해에만 CB 인사이트 선정 ‘세계 100대 AI 기업’ 및 ‘세계 50대 생성 AI 스타트업’에 선정된 바 있으며, 엔비디아, 인텔, 삼성넥스트, 한국투자파트너스 등으로부터 천만 달러(한화 약 140억원) 규모의 전략적 투자를 유치하여 화제를 모았다.

페가수스는 초거대 AI 영상언어 생성 모델로 지난해 11월 정식 공개돼 영상에 대한 요약, 하이라이트 생성 등 영상 기반 텍스트 생성 기능들을 최초로 선보인 바 있다. 이번 업데이트로 영상에 관해 궁금한 점들을 질문하면 답을 해주는 영상 질의응답 성능이 대폭 향상됐다.

마렝고는 영상뿐 아니라 이미지, 음성 기반 모델을 통틀어 전 세계에서 가장 강력한 멀티모달 기반 모델이다. 트웰브랩스가 자체 진행한 내부 테스트 결과, 최근 구글이 공개한 VideoPrism 모델보다도 훨씬 좋은 성능을 자랑한다.

기존 모델에 비해 행동이나 방향성 등을 인지하는 모션 이해(Motion Understanding) 인지 기능이 대폭 강화됐으며 물리 보안과 스포츠 분야에서 별도의 추가 학습 없이도 높은 이해도를 갖추도록 도메인 성능이 향상됐다.

트웰브랩스는 이번에 출시한 페가수스와 마렝고 모델이 구글의 제미나이 1.5 프로, 오픈AI의 GPT-4V 등 현존하는 최고 성능의 상용 및 오픈소스 영상언어 모델들과 비교해 최대 43%가량 성능 우위를 보인다고 강조했다. 특히 분 단위의 짧은 영상들만을 처리할 수 있는 타 모델과 달리, 수백 시간의 영상들을 실시간으로 처리할 수 있어 인프라 완성도 측면에서도 크게 앞서 고객들이 모델을 도입하여 안정적으로 운영할 수 있다고 설명했다.

이재성 트웰브랩스 대표는 “트웰브랩스의 모델은 영상이해에 특화되어 오픈AI의 소라, 구글 제미나이가 제공하는 영상생성과는 차이가 있다”며 “페가수스 및 마렝고 모델은 영상언어 초거대 모델들로는 수행 불가한 세밀한 수준의 작업까지 지원하는 만큼 영상이해 기술을 핵심 산업들에 최적화하여 본격적인 확산을 추진하겠다”고 밝혔다.