텍스트가 영상으로 '뚝딱'…오픈AI, 동영상 생성 인공지능 '소라' 공개

여러 캐릭터·복잡한 장면, 영상 생성
오픈AI CEO "일부 창작자만 먼저 사용"
가짜뉴스·혐오 콘텐츠 관련 안정성 여부 평가

등록 2024-02-16 오전 10:18:42

수정 2024-02-16 오전 10:18:42
가 가

[이데일리 양지윤 기자] “세련된 여성이 따뜻하게 빛나는 네온사인과 애니메이션 도시 간판으로 가득 찬 도쿄 거리를 걷고 있습니다. 그녀는 검은색 가죽 재킷, 빨간색 긴 드레스, 검은색 부츠를 신고 검은색 지갑을 들고 있습니다. 그녀는 선글라스를 끼고 빨간 립스틱을 바르고 있습니다.”

오픈AI가 공개한 텍스트 입력으로 만든 영상.(사진=오픈AI 홈페이지 갈무리)

마이크로소프트가 최대 주주인 오픈AI는 15일(현지시간) 텍스트를 입력하면 최대 1분짜리 동영상을 만들어주는 인공지능(AI) ‘소라(Sora)’를 공개했다.

소라는 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 묘사가 포함된 복잡한 장면을 생성할 수 있다. 단일 동영상 내에서 여러 장면을 만들 수도 있다. 또한 정지 이미지에 애니메이션을 적용할 수 있다고 회사 측은 설명했다.

다만 복잡한 장면을 정확하게 시뮬레이션하는 데 어려움을 겪을 수 있고, 원인과 결과의 특정 사례를 이해하지 못할 수 있다고 오픈AI 측은 전했다. 예를 들어 쿠키를 한 입 베어 물었을 때 쿠키에 자국이 없을 수 있다는 것이다. 또한 공간 세부 정보를 혼동할 수 있으며, 특정 카메라 궤적을 따라가는 등 시간이 지남에 따라 발생하는 이벤트를 정확하게 설명하는 데 어려움을 겪을 수 있다.

샘 올트먼 오픈AI 최고경영자(CEO)는 엑스(X·옛 트위터)에서 “처음에는 제한된 수의 창작자만 사용할 수 있도록 허용된다”고 밝혔다.

오픈AI는 소라를 회사의 제품에 통합하기 전 전문가팀에 맡겨 안전성 여부를 평가할 계획이다. 잘못된 정보와 혐오 콘텐츠 등에 대해 전문가팀과 협력해 테스트를 진행할 예정이다.

오픈AI 측은 “전 세계의 정책 입안자, 교육자, 예술가들의 우려를 이해하고 이 새로운 기술에 대한 긍정적인 사용 사례를 파악하기 위해 노력할 것”이라고 밝혔다. 이어 “광범위한 연구와 테스트에도 불구하고 사람들이 기술을 사용하는 유익한 방법이나 악용할 수 있는 모든 방법을 예측할 수 없기 때문에 실제 사용 사례를 통한 학습은 시간이 지남에 따라 더욱 안전한 AI 시스템을 만들고 출시하는 데 있어 매우 중요한 요소”라고 덧붙였다.

앞서 페이스북 모회사 메타와 구글, 스타트업 런어웨이 AI 등도 ‘텍스트 투 비디오’(Text to Video) 모델을 개발한 바 있다.