GIST, AI기술로 스타크래프트2 상황 1만배 빠르게 예측

'몬테카를로 트리탐색 기법' 효율성·안전성 높여

등록 2024-07-25 오전 8:43:30

수정 2024-07-25 오전 8:43:30
가 가

[이데일리 강민구 기자] 광주과학기술원(GIST)의 안창욱 AI대학원 교수 연구팀이 몬테카를로 트리 탐색(MCTS) 방법을 실시간 상용 비디오 게임인 ‘스타크래프트2’에 적용해 기존 방법에 비해 1만배 빠르게 게임 상황을 예측했다.

안창욱 교수(왼쪽)와 이동현 박사과정생(오른쪽).(사진=광주과학기술원)

MCTS는 복잡하고 불확실성이 있는 환경에서 의사결정을 위한 알고리즘으로 게임을 할 때 주로 적용된다. 어떻게 움직이는 것이 가장 최적의 판단인지를 분석하면서 검색 공간에서 무작위 추출에 기초한 탐색 트리를 확장하는 데 중점을 둔다.

무작위 시뮬레이션을 기반으로 상황 예측에 대한 기댓값을 추정하는 기존 기법은 실행 시간이 오래 걸리고 복잡해 높은 연산량이 요구되는 실시간 상용 게임에 적용하는데 한계가 있다.

특히 실시간 전략 게임인 스타크래프트2는 각 게임 참여자가 제한적 환경 관측만 가능한 여건에서 자원 확보와 상대편의 종족·동태 등을 종합 고려해 게임을 운영해야 하기 때문에 복잡성이 높다.

연구팀은 새로운 강화학습법을 통해 가상으로 재현된 게임 데이터를 학습해 대체 모델을 구축했다. 이후 시뮬레이션 일부 결과만으로 상황 예측에 대한 기댓값을 추정할 수 있는 대체 모델 기반 MCTS 기법을 제안하고, 스타크래프트2에 적용해 성능을 검증했다.

연구팀이 개발한 기법은 기존 MCTS와 게임 내 상태에 대한 기댓값을 시뮬레이션 없이 바로 추정해 짧게는 몇 분에서 길게는 몇 시간 걸리던 시뮬레이션 추론 시간을 밀리초(1천분의 1초)에서 초 단위 범위로 줄였다.

연구 확장성과 재현성을 높이기 위해 데이터 수집과 스타크래프트2에서 데이터 분석이 가능한 자체 소프트웨어도 구현했다. 그 결과, 게임 진행 결과를 기존 MCTS 대비 1만배 빠르게 예측했다.

안창욱 교수는 “MSTS 활용이 불가능하던 실시간 게임 환경에서 각 개체의 공격, 후퇴 등 실시간 행동 결정을 했다는 점에서 의미가 있다”며 “향후 상충하는 이해관계 갖는 자율주행, 주식거래와 같은 응용문제에서도 실시간 의사결정을 내리는 데 활용할 수 있을 것”이라고 말했다.

연구 결과는 다학제 공학 분야 국제학술지 ‘Engineering Applications of Artificial Intelligence’에 지난 1일자로 게재됐다.