크라우드웍스는 웍스원이 영어로 학습된 LLM에서 발생하는 데이터 격차의 문제를 해결한다며 한국의 비즈니스 환경에 최적화된 모델이라고 강조했다.
70억 매개변수를 가진 오픈소스 모델과 1만개의 고품질 데이터셋으로 구현했으며, 기업에서 선호하는 비즈니스 친화적(Business-friendly)인 답변을 제공한다는 점이 차별화된 강점이라고 크라우드웍스는 설명했다.
크라우드웍스는 이러한 문제를 해결하기 위해 고품질 데이터셋 구축부터 공을 들였다. 국내 최다 규모인 60만 데이터 작업자 풀을 기반으로 전문 역량을 가진 고급 데이터 작업자를 선발하고, 비즈니스 언어 활용과 표현력, 문서 구조화 능력 등 자체 검증을 실시했다. 검증에 통과한 평균 경력 15년 이상의 대기업 기획 업무 경험을 가진 전문가들이 데이터셋 구축에 참여해 고품질 데이터를 직접 완성했다.
크라우드웍스 자체 테스트 결과, GPT를 포함한 타 모델들의 경우 JSON 답변에 노이즈가 포함되거나 항목이 누락되는 결과를 확인했지만 웍스원은 요청한 키 값에 따라 안정적으로 답변을 생성했다고 전했다. 띄어쓰기나 오타 하나만 발생해도 사용자가 전후처리에 상당한 리소스를 소모하기에 정확한 답변을 안정적으로 출력할 수 있는 것은 매우 중요하다.
이형주 크라우드웍스 최고기술책임자(CTO)는 “웍스원은 비즈니스 용어 및 문서 환경에 대한 이해도가 높은 전문가가 직접 만든 한국어 데이터로 학습시킨 비즈니스 특화 모델로서 이러한 고품질 데이터로 학습한 모델은 업계에서 유일하다”며 “앞으로도 AI 데이터부터 LLM까지 기업 혁신에 필요한 모든 것을 제공하겠다”고 전했다.