네이버 클로바, 日 국회 도서관 디지털화에 쓰인다

‘클로바 광학문자인식’, 日서 기술력 인정받아
복잡한 레이아웃 인식하는 고성능 인공지능(AI) 모델
노인 등 정보 접근성 높이고 음성 검색도 목표
라인 “AI 기술의 향상과 비즈니스 제휴 지속 추진”

등록 2021-07-18 오전 10:15:11

수정 2021-07-18 오후 9:08:28
가 가

네이버 클로바 인공지능(AI) 기술이 일본 국회국립도서관 디지털 데이터화 프로젝트에 쓰인다. (사진=도서관 AI프로젝트 페이지 갈무리)

[이데일리 이대호 기자] 네이버 인공지능(AI) 기술이 일본 국립국회도서관 자료의 데이터화에 쓰인다. 네이버 AI 기술인 클로바(CLOVA) 기반 광학문자인식(OCR)을 활용한다. OCR은 인쇄물을 찍어 컴퓨터에서 활용 가능한 정보로 변환하는 기술이다.

일본 라인(LINE)은 지난 15일 국립국회도서관이 보유한 247만점, 2억2300만장이 넘는 자료를 디지털 데이터로 만드는 프로젝트에 ‘클로바 OCR’을 활용한다고 밝혔다. 내년 3월까지 프로젝트를 완료할 예정이다.

클로바 OCR 기술이 적용될 대부분 데이터는 1989년 이전 자료다. 문자 배열 등 레이아웃이 복잡해 AI 학습 기능이 없는 기존 OCR을 활용할 경우 디지털화에 상당 시간이 걸리는 것이 과제였다. 클로바 OCR은 문서 레이아웃을 분석하고 글자를 읽는 순서를 추정한다. 둥글게 곡선으로 배열되거나 기울어진 문자, 필기체 등도 인식하는 고성능 AI 모델이다. OCR분야 세계적 권위의 글로벌 챌린지 ‘ICDAR 2019’의 4개 분야에서 1위를 차지한 기술이다.

일본 국립국회도서관 디지털 데이터화 프로젝트는 자료 검색을 쉽게 하는 것을 목표로 추진한다. 시각장애인이나 노인 등 사용자의 자료 접근성을 더욱 끌어올린다. 음성 검색 활용도 목표했다. 디지털 변환한 데이터를 AI 데이터 세트로 활용할 계획도 있다.

도서관 측은 “통합 검색 자료의 발견을 돕기 위한 검색이 주목적이지만, 대규모 데이터 세트로 AI 영역에서 활용이나 시각장애인 등 음성 이용에 대한 기대도 높아지고 있다”며 프로젝트 추진 배경을 밝혔다.

라인 측은 “사람에게 이로운 AI가 자연스럽게 생활이나 비즈니스의 일부가 될 수 있도록 AI 기술의 새로운 향상이나 비즈니스의 제휴를 지속 추진하겠다”고 밝혔다.