“그림 안의 글씨도 빅데이터로”…업스테이지, 차세대 OCR 모델 공개

레이아웃, 표 등 복잡한 형태의 문서도 텍스트 형식으로 전환
  • 등록 2024-10-17 오전 9:48:42

    수정 2024-10-17 오전 9:48:42

[이데일리 김세연 기자] AI 스타트업 업스테이지가 대형언어모델(LLM)로 처리가 가능한 차세대 OCR 모델 ‘Document Parse’를 공개했다고 17일 밝혔다.

(사진=업스테이지)
이번에 공개된 모델은 기존 OCR 기술에서 명확하게 인식하기 어려웠던 복잡한 형태의 문서도 컴퓨터가 읽을 수 있는 텍스트로 전환한다. 그림 형식으로 인식되는 여러 열의 레이아웃이나 표 안의 글씨도 텍스트 형식으로 전환해 LLM에 바로 활용할 수 있다.

이 모델은 DOCX, PDF, PPTX, PNG 등 업무에 사용하는 9가지의 문서를 처리할 수 있을 뿐만 아니라 수식을 인식하거나 이미지를 추출하는 기능도 가지고 있다.

또한 OCR로 데이터를 인식할 때 마크다운 형식을 사용해 기존 데이터보다 크기를 줄일 수 있다.

김성훈 업스테이지 대표는 “Document Parse는 각 기업이 가진 기존 문서를 정확하게 자산화시켜 실제 업무에 효율적으로 적용하는 최적의 도구”라며 “다양한 비즈니스에서 활용돼 업무 혁신을 현실화할 것”이라고 밝혔다.

한편 업스테이지는 2023년 공식적으로 OCR 서비스를 선보인 직후 글로벌 최고 권위의 AI OCR 경진대회인 ‘ICDAR’에서 아마존과 엔비디아 등의 빅테크 기업을 제치고 1위를 차지했다.

이데일리
추천 뉴스by Taboola

당신을 위한
맞춤 뉴스by Dable

소셜 댓글

많이 본 뉴스

바이오 투자 길라잡이 팜이데일리

왼쪽 오른쪽

스무살의 설레임 스냅타임

왼쪽 오른쪽

재미에 지식을 더하다 영상+

왼쪽 오른쪽

두근두근 핫포토

  • 벤틀리의 귀환
  • 우리 엄마 맞아?
  • 방부제 미모
  • '열애' 인정 후
왼쪽 오른쪽

04517 서울시 중구 통일로 92 케이지타워 18F, 19F 이데일리

대표전화 02-3772-0114 I 이메일 webmaster@edaily.co.krI 사업자번호 107-81-75795

등록번호 서울 아 00090 I 등록일자 2005.10.25 I 회장 곽재선 I 발행·편집인 이익원 I 청소년보호책임자 고규대

ⓒ 이데일리. All rights reserved