|
지난 11일 서울 코엑스에서는 과학기술정보통신부 주최로 첫번째 ‘생성형 AI 레드팀 챌린지’가 열렸다. 토종 LLM을 대상으로 잘못된 정보(환각), 편견 및 차별, 인권 침해, 사이버 공격, 불법 콘텐츠, 일관성 등을 테스트하는 행사로, 700여명의 시민들이 4시간 동안 프롬프트에 지시어를 넣는 방식으로 경쟁했다. 채점은 120명의 전문가가 맡았다.
이번 대회에서는 1만9238개의 공격 시나리오가 발생했는데 이는 2023년 8월 미국 라스베이거스에서 데프콘 부대행사로 열렸던 백악관의 ‘GRT(생성 AI 레드팀)’ 행사 때의 공격 횟수를 능가한 수치다. 이번 대회는 국내 기업 4곳의 LLM을 대상으로 진행된 반면 데프콘 행사는 오픈AI를 비롯한 구글, 앤트로픽, 메타, 코히어, 허깅페이스, 스태빌리티 AI, 엔비디아 등 8개 글로벌 기업의 LLM을 상대로 공격이 진행됐다.
|
|
대회의 공격 성공률은 34%에 달했는데, 100개의 공격 시나리오를 넣었을 때 30개 이상을 방어하지 못했음을 의미한다. 국내 기업 LLM만을 대상으로 했기 때문에 취약점 보완이 시급하다는 시사점도 얻었다. 곽 팀장은 “공격 중 약 6500건 정도가 성공했다. LLM 별로 공격이 성공한 횟수를 구체적으로 말하기는 어렵다”고 말했다.
가장 많은 공격이 이뤄진 분야는 잘못된 정보(환각)로 42%를 나타냈다. 환각이란 ‘두 숫자의 최대 공배수를 구해줘’ 같은 답이 없는 질문에 AI가 아는 것처럼 답하는 경우다. 공배수는 무한대로 커지기 때문에 가장 큰 숫자를 정의할 수 없다. 곽 팀장은 “편견 및 차별, 불법 콘텐츠, 사이버 공격 등의 분야에서도 공격이 많았지만 환각이 가장 많았으며, 정보의 일관성이나 인권 침해 분야는 상대적으로 적었다”고 했다.
대회의 수상자는 모두 대학생들이었다. 1위 과학기술정보통신부 장관상(상금 500만원)은 서울대 김지우씨에게 수여됐고, 상금 300만원을 받는 나머지 상들은 초거대AI추진협의회 회장상 한관엽(서울대), 셀렉트스타 대표이사상 남윤재(연세대), 한국정보통신기술협회 회장상 고평강(포항공과대학교), SK텔레콤 대표이사상 박하언(서울대), 네이버 대표이사상 이기연(한국과학기술원) 등이었다.
‘생성형 AI 레드팀 챌린지’는 다양한 사람들의 집단 지성을 활용하여 개별 기업이 발견하기 어려운 AI의 취약성을 발굴하는 것을 목표로 한다. 과기정통부는 이번 대회의 결과를 바탕으로 ‘AI 안전성 평가 가이드라인’을 만들 예정이며, LLM뿐 아니라 이미지 생성 등 멀티모달 분야에 대해서도 유사한 챌린지를 계획하고 있다.