서울대 공대 연구팀, 끝없이 영상 생성하는 ‘AI 비디오 생성 기술’ 개발

FIFO-Diffusion, 기존 모델 한계 극복
영화, 광고 등 다양한 산업에 활용 가능성
NeurIPS 2024에 발표된 혁신적 기술

등록 2024-11-11 오전 10:05:19

수정 2024-11-11 오전 10:05:19
가 가

[이데일리 김현아 기자] 서울대학교 공과대학 전기정보공학부 한보형 교수가 이끄는 컴퓨터비전 연구팀(CVLAB)은 별도의 학습 없이 무한한 길이의 비디오를 생성할 수 있는 혁신적인 인공지능(AI) 기술 ‘FIFO-Diffusion’을 개발했다고 11일 밝혔다.

이 기술은 디퓨전 모델을 기반으로 하여 기존 비디오 생성 모델의 한계를 극복한 것으로 평가받고 있다.

▲ (좌측부터) 김지환 연구원(협동과정 인공지능전공 석사과정), 강준오 연구원(전기정보공학부 박사과정), 한보형 교수(전기정보공학부, 협동과정 인공지능전공)사진=서울대 공대

FIFO-Diffusion, 무한한 길이의 비디오 생성

기존의 비디오 생성 모델들은 영상의 길이가 길어질수록 메모리 소모가 급격히 증가하고, 프레임 간 일관성 유지가 어려워 부자연스러운 영상을 생성하는 한계가 있었다.

그러나 FIFO-Diffusion은 이러한 한계를 극복하며, 메모리 사용량을 일정하게 유지하면서도 각 프레임이 자연스럽게 이어지는 고화질 비디오를 생성할 수 있다.

이 기술은 사전에 짧은 클립을 통해 훈련된 디퓨전 모델이 추가 학습 없이 텍스트 조건에 맞춰 무한한 길이의 비디오를 생성하도록 설계됐다.

▲ 대각선 디노이징(diagonal denoising) 기법의 모식도 : 서로 다른 노이즈 레벨의 프레임들이 사전 학습된 디퓨전 모델에 입력되어 순차적으로 처리된다.
세 가지 기법으로 비디오 품질 개선

이번 연구에서는 비디오 생성 품질을 획기적으로 개선하기 위한 세 가지 혁신적 기법이 적용됐다.

첫째, 대각선 디노이징(diagonal denoising) 기법을 통해, 각기 다른 노이즈 레벨의 비디오 프레임을 동시에 처리하면서 품질 저하 없이 비디오를 생성할 수 있었다.

둘째, 잠재 파티셔닝(latent partitioning) 기법으로 프레임을 여러 블록으로 나누어 병렬 처리하며, 프레임 간 노이즈 레벨 차이를 줄였다.

셋째, 앞서보기 디노이징(lookahead denoising) 기법을 통해 새로 생성될 프레임이 이전에 생성된 깨끗한 프레임을 참조하도록 하여 후반부 프레임의 품질을 더욱 선명하게 유지했다.

이 세 가지 기법을 다중 GPU 병렬 처리로 적용함으로써, 무한히 긴 고화질 비디오 생성이 가능해졌다.

▲ (a) 잠재 파티셔닝(latent partitioning) (b) 앞서보기 디노이징(lookahead denoising) 기법의 모식도 : 잠재 파티셔닝은 프레임을 여러 블록으로 나눠서 병렬 처리하고, 앞서보기 디노이징은 각 블록에서 노이즈가 더 적은 프레임을 참조하여 더욱 선명한 비디오를 생성한다.
영화, 광고, 게임 등 다양한 산업에 활용 가능

FIFO-Diffusion 기술은 영화, 광고, 게임, 교육 등 다양한 콘텐츠 산업에 큰 영향을 미칠 것으로 기대된다. 기존의 텍스트 기반 비디오 생성 모델들은 3초 이내의 짧은 클립만을 생성할 수 있어 실제 콘텐츠 제작에는 제한적이었다. 그러나 FIFO-Diffusion은 길이 제한 없이 자연스러운 비디오를 생성할 수 있어 상용화되면 콘텐츠 제작 분야에 큰 변화를 가져올 전망이다. 또한, 대규모 하드웨어 자원이나 방대한 데이터가 필요하지 않기 때문에, AI 기반 영상 콘텐츠 제작의 활성화를 이끌 것으로 보인다.

NeurIPS 2024 발표 논문 채택

이번 연구 결과는 인공지능 및 기계학습 분야의 권위 있는 학술대회 NeurIPS 2024에서 발표 논문으로 채택되었다. NeurIPS는 AI 및 딥러닝 분야의 최신 연구 성과를 발표하는 세계적인 행사로, 이번 발표 논문은 엄격한 심사를 통과한 우수한 연구로 평가받고 있다.

연구를 이끈 한보형 교수는 “FIFO-Diffusion은 기존 비디오 생성 모델의 한계를 넘어서, 무한 길이의 비디오 생성이라는 새로운 개념을 수립한 기술로, 영상 콘텐츠 분야의 발전에 중요한 기여를 할 것”이라고 말했다. 또한, 논문의 주 저자인 김지환 연구원은 “이번 개발로 비디오 생성 기술이 영상 콘텐츠 산업에서 폭넓게 활용될 수 있는 토대가 마련됐다”고 강조했다.

김지환과 강준오 연구원은 현재 서울대 컴퓨터비전 연구실에서 비디오 생성 기술에 대한 후속 연구를 진행 중이다.