|
일본 라인(LINE)은 지난 15일 국립국회도서관이 보유한 247만점, 2억2300만장이 넘는 자료를 디지털 데이터로 만드는 프로젝트에 ‘클로바 OCR’을 활용한다고 밝혔다. 내년 3월까지 프로젝트를 완료할 예정이다.
클로바 OCR 기술이 적용될 대부분 데이터는 1989년 이전 자료다. 문자 배열 등 레이아웃이 복잡해 AI 학습 기능이 없는 기존 OCR을 활용할 경우 디지털화에 상당 시간이 걸리는 것이 과제였다. 클로바 OCR은 문서 레이아웃을 분석하고 글자를 읽는 순서를 추정한다. 둥글게 곡선으로 배열되거나 기울어진 문자, 필기체 등도 인식하는 고성능 AI 모델이다. OCR분야 세계적 권위의 글로벌 챌린지 ‘ICDAR 2019’의 4개 분야에서 1위를 차지한 기술이다.
라인 측은 “사람에게 이로운 AI가 자연스럽게 생활이나 비즈니스의 일부가 될 수 있도록 AI 기술의 새로운 향상이나 비즈니스의 제휴를 지속 추진하겠다”고 밝혔다.