LG AI연구원이 20~22일(현지시간) 캐나다 벤쿠버 컨벤션센터에서 열리는 세계 최대 컴퓨터 비전 학회 ‘CVPR 2023’에 앞서 18일 개최한 워크숍에서 전문가들이 이같이 ‘캡셔닝 AI’의 중요성을 강조했다. LG AI연구원은 ‘CVPR 2023’에서 캡셔닝 AI를 첫 공개한다. 캡셔닝 AI는 AI가 인간처럼 처음 보는 물체나 장면에 대해 자연어로 설명할 수 있는 기술로, 평균적으로 10초 내에 5개 문장과 10개 키워드를 생성할 수 있어 향후 이미지 검색 시장에 변화를 가져올 것으로 전망된다.
|
LG(003550) AI연구원은 학회 기간 중 LG 부스를 방문한 연구자들을 대상으로 캡셔닝 AI 서비스를 시연할 계획이다. 캡셔닝 AI는 ‘생성형 AI’ 상용화 서비스로, 사람처럼 처음 보는 이미지를 자연어로 설명할 수 있다. AI가 인간처럼 처음 보는 물체나 장면에 대해 이전의 경험과 지식을 활용해 이해하고 설명할 수 있도록 ‘제로샷 이미지 캡셔닝(Zero-shot Image Captioning)’ 기술을 적용했다는 게 LG 설명이다.
로르바흐 연구원은 이미지 캡셔닝 AI의 대표적인 문제로 꼽히는 ‘환각(Hallucination)’을 줄이는 기술도 필요하다고 강조했다. AI 분야에서 환각은 AI가 주어진 데이터 또는 맥락에 근거하지 않은 잘못된 정보를 생성하는 경우를 말한다. 거짓을 마치 사실처럼 제시하는 경우다.
|
슈미드 연구원은 “대규모 지식을 축적함으로써 시각적 질문에 대한 답변 뿐 아니라 이미지 캡셔닝에서도 최고 성능을 얻을 수 있다”고 말했다.
그러면서 “이같은 문제는 모든 AI 연구자들이 함께 풀어야 하는 문제”라면서 “더 정교한 AI 모델을 만들기 위해 더 많은 문제제기가 필요하다”고 말했다.
잭 헤셀 미국 앨런인공지능연구소 사이언티스트도 이미지 캡셔닝의 성능을 높이려면 AI가 상식을 뛰어넘는 추론을 할 수 있도록 정교해져야 한다고 강조했다. 그는 “대규모 어휘를 학습한 모델도 전체적인 장면 이해에 필요한 요소가 상식에 맞지 않아 놓치는 경우가 많다”며 “현상을 관찰해 가장 설득적인 설명을 만드는 귀추법 등을 적용할 필요가 있다”고 설명했다.