RAG는 LLM의 출력을 최적화하여 응답을 생성하기 전에 학습 데이터 소스 외부의 신뢰할 수 있는 지식 데이터를 참조하는 방식이다. 현재 LLM의 환각을 줄이기 위해 많은 기업들이 AI 서비스 개발에 활용하고 있다.
미국의 기술 웹사이트 벤츄어비트(VentureBeat)는 구글 딥마인드(Google DeepMind)가 매우 긴 컨텍스트 창이 있는 LLM의 다중 상황 내 학습(ICL) 기능을 탐구하는 내용을 소개했다.
이 기술을 활용하면 입력창(프롬프트)에 수백 또는 수천 개의 훈련 사례를 적용하면 미세조정 없이도 모델의 능력을 향상시킬 수 있다. 해당 연구결과는 ‘다중샷 상황 내 학습(Many-shot In-Context Learning)’에 관한 논문으로 온라인 아카이브에 게재됐다.
|
어떤 기술인데?
예를 들어, 통신회사가 고객응대 AI 챗봇을 만든다고 했을 때, 내부의 요금제 데이터를 참조하는 것이 아니라, LLM 학습 시 내부 요금제에 대한 답변이 포함된 명령어를 제공하는 컨셉이다.
연구진은 “‘미세조정과는 달리 ICL은 모델의 매개변수를 변경할 필요가 없어 사용자가 더 쉽게 접근하고 사용할 수 있다”고 밝혔다. 다만, “ICL은 입력창에 들어가는 토큰 수에 의해 예제 수가 제한되는 단점도 있다”고 했다.
딥마인드 연구진은 다중샷 ICL이 여러 문제 영역에서 LLM의 성능에 어떤 영향을 미치는지 실험했다.
실험 결과에 따르면, 더 많은 예제가 프롬프트에 추가될수록 모델의 성능이 계속 향상되는 것으로 나타났다.
그러나 구글 딥마인드 연구진은 다중샷 ICL의 어려움도 인정했다. 인간이 대량의 고품질 예제를 생성해야하기 때문이다.
연구진은 이 문제를 해결하기 위해 LLM에 작업에 대한 사고사슬(CoT) 프롬프트를 제공하여 모델이 원하는 예제를 생성하도록 했다.
또한 LLM이 작업 해결에 필요한 지식을 보유하고 있다면 프롬프트에 관련 정보를 추가하여 모델이 내부 개념에 더 집중하도록 하는 방법을 시도했다.
연구진은 ”수백 개의 예제로 모든 프롬프트를 늘리면 추론 속도와 비용이 폭발적으로 증가해 현재로선 다중샷 ICL과 같은 기술을 확장하기는 어려운 상황”이라면서도 “ 이 기술은 다양한 프롬프트 엔지니어링 기술을 시험해 볼 수 있는 유용한 도구이며, 제품화 시 토큰 소비를 줄이기 위한 노력이 필요하다”고 밝혔다.