인공지능 학습용 데이터 전문기업인 미디어그룹사람과숲(대표 한윤기)은 한국정보화진흥원(NIA)과 업스테이지가 주최하는 한국어 초거대 언어 모델 리더보드 ‘Open Ko-LLM’에서 마커 사와 공동 개발한 ‘KoR-Orca-Platypus-13B’ 모델이 1위를 차지했다고 밝혔다.
KoR-Orca-Platypus-13B는 글로벌 IT 기업 메타에서 오픈소스로 공개한 파라미터 수 130억개의 언어 모델 ‘라마2(LLaMA-2)’를 파운데이션 모델로 삼고, 자체적으로 수집 및 가공한 데이터에 instruct 파인 튜닝을 거쳐 개발됐다.
거대 언어 모델(LLM)들의 한국어 성능을 겨뤄보는 이번 리더보드는 제출된 LLM에 대해 추론 능력, 상식 능력, 언어 이해력, 환각 방지 능력, 한국어 상식 생성 능력 등 5가지 항목을 평가해 순위표를 제공한다.
10월 20일 현재 50개 이상의 개인 및 조직에서 100개 이상의 LLM이 제출됐으며, ‘KoR-Orca-Platypus-13B’ 모델이 평균 점수 50.13으로 1위를 기록하고 있다. 특히 5가지 평가 지표 가운데 한국어 상식 생성 능력은 68.78로 압도적인 성능을 나타내고 있다.
연구팀을 이끈 정철현 박사는 “이번 LLM 개발은 AI-Hub의 한국어 공공 행정 문서와 민원 응대 데이터가 주요 데이터 소스로 활용됐다”고 밝혔다.
그는 “이 LLM은 공공 행정 업무를 수행하는 챗봇에 탑재하기 위해 튜닝한 것이지만, 종합 성능이 국내 1위 수준이므로 더 다양한 용도로도 활용할 수 있을 것”이라고 전망했다.
미디어그룹사람과숲은?
작가주의적 개성을 가진 프로젝트 매니저들이 모여 시작된 미디어그룹사람과숲은 비주얼 데이터(Visual Data)에 기반한 디지털라이징, 인공지능(AI), 빅데이터, 자율주행, 가상현실(VR) 등 관련 분야에서 뛰어난 실적을 보유하고 있다.
지난해에는 인공지능 학습데이터 오픈플랫폼 ‘AI-hub’ 사업 동시 최다 수주(한국지능정보사회진흥원), 세종테크노파크 자율주행 사업 수주, 문체부 체육관광 연구개발 지원 지정과제 참여, 산자부 자동차 분야 신규지원 과제(엣지 기반 위험환경 데이터 분석 기술 개발) 등을 수주했다.
|