이 대회는 단 한 장의 사진으로 즉석에서 3차원 공간을 생성하는 모델의 성능을 측정하여 순위를 매긴다. 수백 개의 이미지와 보정이 필요한 번거로운 3D 지도 구축 과정을 단순화할 수 있는 능력을 겨룬다
이번에 1위를 차지한 기술은 네이버랩스유럽이 개발한 ‘더스터(DUSt3R)’다. 오는 6월 세계 최대 컴퓨터 비전 학회인 CVPR에서 공식 발표될 예정이다.
|
사진 한 장으로 3차원 공간 구현
지난 2일, 경기 성남시에 있는 네이버 본사에서 직접 확인한 ‘더스터(DUSt3R)’의 성능은 놀라웠다.
이동환 네이버랩스 비전 그룹장이 사무실에서 한, 두 장의 사진을 찍은 뒤 ‘더스터’를 실행시켰더니 2~3초 만에 정확한 3D 공간 정보로 변환됐다. 고가의 장비나 라이다와 같은 추가 장비 없이도 ‘더스터’를 통해 공간을 복원할 수 있었다.
이동환 네이버랩스 비전 그룹장은 “‘더스터’는 네이버랩스유럽을 중심으로 2020년부터 개발하기 시작한 비전 AI 파운데이션 모델인 ‘크로코’의 최신 버전이며, 다른 AI 모델과 차별화된 점은 3차원 공간을 이해한다는 것”이라고 설명했다.
‘크로코(Croco)’는 AI가 동일한 장면의 두 이미지로 물리 세계를 3차원으로 인식할 수 있도록 방대한 데이터를 학습시킨 모델이다.
|
◇로봇, 드라마 세트장, 인테리어 조감도 등 무궁무진
사진을 통해 순식간에 3차원 공간 이미지를 생성하는 ‘더스터’는 다양한 분야에서 활용될 수 있다.
로봇에 적용하면 인식 능력이 향상되고, 시즌제 드라마에서 세트장을 보관하지 않아도 디지털트윈으로 만든 세트장에서 회상 씬을 찍을 수 있다. 인테리어 조감도를 만들고, 자율주행차량의 인지 프로세스를 개선하며, 소실된 유적지나 멸종된 동·식물을 3차원으로 재현해 연구목적으로 활용할 수도 있다.
이동환 비전그룹장은 “로봇이 복잡한 길을 이동할 때 사람이나 장애물을 피해 잘 가려면 공간을 이해하는 게 필요한데, 사진 한 장 또는 두 장으로 공간 정보를 만드는 ‘더스터’는 로봇의 능력을 향상시킬 수 있다”고 말했다.
네이버랩스가 3월 초 ‘더스터’ 코드를 개발자 커뮤니티에 공개하자, 이에 대한 반응이 뜨거웠다. 네이버랩스가 아직 공개하지 않은 ‘더스터 업그레이드 모델’은 나이언틱 챌린지에서 1위를 차지했고, 2위는 ‘더스터’였다.
네이버랩스의 ‘더스터’는 다양한 종류의 데이터를 처리하는 멀티모달 AI다. 그러나, 오픈AI의 ‘소라’나 엔비디아의 ‘3D라떼’와는 다르다. ‘소라’는 텍스트를 입력하면 영상을 생성해주고, ‘3D라떼’는 텍스트를 3D 그래픽으로 변환해준다.
이동환 네이버랩스 비전그룹장은 “사실 텍스트 기반인 것들은 엄밀히 말하면 실제로 존재하는게 아니지 않느냐?”라면서 “그런데 저희는 로봇, AR, 디지털트윈 등을 하면서 실재하는 공간을 똑같이 하고 싶었다. 네이버 3D의 핵심은 ‘현실 그대로를 본딴다’는 것”이라고 말했다.
네이버는 로봇과 디지털트윈을 성장 동력으로 키우는 만큼, 비전 AI 역시 지오메트리(Geometry·A 지점에서 B 지점으로 움직이는 것) 정보에 집중한다는 의미로 들린다.
이 그룹장은 “사실 지오메트리를 담은 3D 정보를 몇 시간 뒤에 생성한다면 로봇 같은 데는 쓸 수 없다. 하지만, 더스터는 바로 나올 수 있다”며, 속도의 중요성을 언급하기도 했다.
다만, 일반인들은 당장 ‘더스터’를 써보기는 어려울 전망이다.
이 그룹장은 “네이버랩스는 원천 기술 개발과 고도화에 집중하고, 여기서 만든 기술들은 네이버클라우드를 통해 외부에 판매한다”면서 “아크아이도 저희가 개발해 제공했다. 국립중앙박물관에서 아크아이로 유물들을 AR로 잘 관람하실 수 있게 하는 서비스를 연내 내놓으실 것으로 알고 있다. 하지만, ‘더스터’는 좀 더 시간이 필요하다”라고 했다.
아크아이(ARC eye)는 매핑 로봇, 백팩 등 디바이스를 통해 대규모 공간을 고정밀 매핑·측위까지 할 수 있도록 지원하는 디지털트윈 솔루션이다. 네이버랩스가 개발해 네이버클라우드에서 상품화해 제공 중이다.