누리IDT가 ‘고문헌 한자OCR서비스’는 국내 고문헌 자료에 특화된 고성능 한자 자동인식 모델이다. 화면의 원문 이미지 입력 창에 원문 한 면씩을 업로드하면 AI가 이미지 속의 글자를 자동인식하고 곧바로 한자 텍스트로 출력해주는 방식이다.
서비스 개발 과정에서 AI모델은 형태와 크기가 다양한 고문헌 속 한자를 3000만자 이상 학습하는 데 성공했다. 그 결과 일반적인 고문헌 형태, 즉 가장 많이 쓰이는 해서체나 행서체 글자에 세로쓰기로 제작된 목판본 자료에 대해서는 95~100%(평균98%)란 높은 인식률을 구현하고 있. 또한 손글씨로 작성된 필사본의 경우에도 전문가도 판독하기 어려운 초서 자료가 아니라면 상당한 수준의 인식률을 보인다는 평가다.
수작업 입력보다 높은 정확도를 유지하면서도 텍스트화 과정에 들어가는 인력과 시간과 비용을 획기적으로 절감할 수 있다.특히 한문 고문헌 자료를 다량 보유하고 있는 한국학 연구 기관, 대학과 연구소, 도서관, 문화원 등 각급 기관들의 경우 보유 고문헌의 텍스트화 및 데이터베이스 구축에 투입되는 노력과 비용을 1/10수준으로 줄일 수 있다.
누리IDT의 배성진 대표는 “최근 챗GPT등 초거대 모델 기반의 생성AI가 각광 받고 있지만, 정작 콘텐츠의 보고인 고문헌 자료는 여전히 AI기반의 자동 처리가 미치지 않는 영역으로 남아 있다“며 ”300만 점 이상으로 추산되는 국내 고문헌 자료는 약 50%정도가 디지털 원문 이미지로 구축되어 있을 뿐이고 텍스트 디지털화는 5%를 밑돌고 있다“고 설명했다.
이어 ”고문헌 한자OCR서비스가 적극 사용되어 원문의 텍스트화가 촉진되기를 바란다“며 ”고문헌 처리에 특화된 AI기반의 한문 자동표점과 자동번역 서비스를 단계적으로 개발, 누구나 쉽게 고문헌 자료를 읽고 데이터와 콘텐츠로서 활용할 수 있도록 하겠다”고 포부를 밝혔다.