셀렉트스타의 김세엽 대표는 18일 한국인공지능산업협회(회장 장홍성)가 주최한 조찬 강연에서 자사의 ‘LLM 신뢰성 평가 방법론’을 소개했다.
이 회사는 국책과제로 ‘LLM 신뢰성 평가 데이터셋’을 개발해, 이를 통해 무해성(Harmlessness), 정보의 정확성(Honesty), 도움의 정당성(Helpfulness) 등을 평가한다.
셀렉트스타는 이 데이터셋을 지난해 4월 과학기술정보통신부가 주최한 ‘생성형 AI 레드팀 챌린지’에 활용한 뒤, 하반기에는 AI 신뢰성 평가 ‘리더보드 챌린지’를 개최하고, 연말 이후 AI허브에 공개할 예정이다.
|
|
컨설팅→데이터 구축→신뢰성 검증
생성형 AI는 학습된 데이터를 기반으로 특정 질문에 확률적인 답변을 제공하는 기술로, AI 성능이나 안전성에 대한 기준을 마련하고 이를 검증하는 게 쉽지 않다.
이에 셀렉트스타는 평가 설계 컨설팅 → 데이터 구축 → 신뢰성 검증의 순서로 고객사의 AI 신뢰성을 평가한다.
셀렉트스타는 이를 위해 카이스트 최윤재 교수 연구실과 협업하고 있으며, 네이버, SK텔레콤, KT, LG AI 연구원과도 협력하고 있다.
주요 고객 사례로는 △신한은행의 자체 AI 벤치마크 데이터셋 개발 △모모잼의 키즈 대상 캐릭터 페르소나 대화 앱의 LLM 신뢰성 기준 설계 및 검증 △SK텔레콤 에이닷 및 KT 믿음의 신뢰성 평가 데이터 구축 등이 있다.
수능처럼 LLM에 질문하고 채점
김세엽 대표는 “LLM의 신뢰성을 테스트하는 가장 기본적인 방법은 수능 문제를 푸는 것처럼 객관식으로 후보지를 제공해 간접적으로 생성 능력을 평가하는 것과, 논술고사처럼 LLM의 생성물을 사람이 평가하는 방법이 있다”면서 “하지만 사람이 직접 평가하면 비용이 많이 들어 이를 자동화하는 방법을 고민하고 기술을 발전시키고자 한다”고 설명했다.
이어 “불수능 논란처럼 LLM 평가 역시 논란의 여지가 있을 수 있고, 사람이 하는 평가도 효율성을 높여야 하는 과제가 있다. 따라서 두 방법을 적절하게 조합해 사용하는 게 중요하다”고 덧붙였다.
셀렉트스타는 무해성(Harmlessness), 사회적 가치관과의 일치성(Social Value Alignment), 공통 지식과의 일치성(Common Knowledge Alignment) 등의 지표를 개발했다.
김 대표는 “평가기준을 설계한 후 평가 데이터를 만드는 것이 중요하다. 예를 들어 금융 분야에서는 정보의 정확성, 정확성과 정보 보안성, 윤리적인 부분 등이 중요하다. 신뢰성의 정의는 다양하게 해석될 수 있지만, 저희는 품질과 안전을 중심으로 하고 있다”고 강조했다.
|
|
라이선스 받은 데이터 판매로 누적 매출 22억원
셀렉트스타는 기업들에게 라이선스가 확보된 고품질 데이터셋을 판매하는 사업도 진행하고 있다. 지난해 4분기 서비스 시작 이후 22억 원의 누적 매출을 기록했다. 김 대표는 “크롤링(데이터 긁어오기)과 관련하여 데이터 라이선스 이슈가 계속 제기되고 있다”면서 “이에 따라 데이터 라이선스를 보유한 분들로부터 라이선스를 받아 대규모 언어 모델(LLM) 학습용으로 가공하여 판매하는 사업도 진행하고 있다”고 전했다.