[이데일리 김현아 기자] 업스테이지가 17일, 정확하고 빠른 문서 분석이 가능한 차세대 OCR 모델 ‘Document Parse’를 공개했다. 이 모델은 대규모 언어 모델(LLM)로의 처리가 최적화된 AI 문서 처리 기술로, 현존하는 기술 중 가장 우수한 성능을 자랑한다.
Document Parse는 복잡한 레이아웃과 테이블 구조를 포함한 다양한 형태의 문서에서도 텍스트 정보를 정확히 분석하여 데이터 자산화를 가능하게 한다.
| 타사 속도 및 성능 비교표 |
|
이 기술은 HTML과 같은 구조화된 텍스트 형식으로 변환하여 기업이나 기관에서 바로 활용할 수 있다. 업스테이지는 이 모델이 RAG 시스템의 성능과 LLM의 응답 정확도를 높이는 핵심 요소인 데이터 전처리 과정에서 뛰어난 정확성과 속도, 사용성을 제공한다고 강조했다.
업스테이지는 문서 구조 분석의 성능을 객관적으로 측정할 수 있는 벤치마크 ‘DP-Bench’를 함께 공개했다. 분석 결과에 따르면, Document Parse는 AWS와 MS 등 5개 빅테크의 서비스와 비교해 모든 정확성 지표에서 5% 이상 우수한 성능을 보였다. 속도 측면에서도 Document Parse는 1분에 100장을 처리하며, AWS Texttract보다 10배, LamaParse보다 5배 더 빠른 성능을 기록했다.
이 모델은 DOCX, PDF, PPTX, PNG 등 9종의 문서 형식을 지원하며, 수식 인식 및 이미지 추출과 같은 새로운 기능도 추가되었다. HTML 외에도 헤더와 테이블 요소를 마크다운 형식으로 제공하여 LLM 사용자들이 입력 문서의 토큰 크기를 줄일 수 있는 점도 큰 장점으로 꼽힌다.
| 기능 이미지 |
|
업스테이지는 2023년 공식적으로 OCR 서비스를 선보인 후, AI OCR 경진대회 ICDAR에서 아마존과 엔비디아를 제치고 1위를 차지한 바 있다. 향후 금융권 및 제조업 등 보안이 중요한 분야에서 고객을 확보하고, 대규모 문서의 디지털 전환을 통해 LLM 활용이 기대된다.
김성훈 대표는 “Document Parse는 기업이 기존 문서를 가장 정확하게 자산화하여 LLM을 효율적으로 적용할 수 있는 최적의 도구”라며, “다양한 비즈니스에서 활용되어 업무 혁신을 현실화할 것”이라고 밝혔다.