"나는 스스로 학습한다"..인간계 넘은 알파고제로

알파고 개발사 딥마인드, 네이처지에 알파고제로 공개

등록 2017-10-19 오전 9:13:19

수정 2017-10-19 오전 9:13:19
가 가

[이데일리 김유성 기자] 구글의 인공지능(AI) 자회사 딥마인드가 ‘인간의 경지’를 뛰어 넘은 알파고를 공개했다. 수천년 인간 바둑의 경험을 뛰어넘은 ‘알파고 제로’는 18일(현지시간) 네이처지에 공개됐다.

네이처 인터넷 기사 캡처

데미스 하사비스 딥마인드 대표는 이날 언론 브리핑에서 “단백질이나 재료 연구 등 과학적 도전 과제도 AI를 통해 처리할 수 있게 됐다”며 “현실 문제 개선에 있어 중요한 진전”이라고 자평했다. 딥마인드에서 알파고 개발을 이끌고 있는 개발자 데이비드 실버는 “안정되고 견고한 버전”이라며 “처음부터 완전한 학습이 가능하다”고 자신했다.

기존 알파고는 여느 AI와 다름없이 인간의 데이터를 학습하며 진화했다. 10만개 이상의 기보를 입력받아 학습하는 게 첫 출발이었다.

그러나 이번 딥마인드가 공개한 ‘알파고 제로’는 처음부터 스스로 학습한다. 바둑 랭킹 1위 커제를 3대0으로 꺾은 알파고마스터보다도 진화했다. 알파고마스터는 40일간 3000만기보를 보며 학습했다.

네이처에 따르면 알파고제로도 처음에는 인간의 기보를 참고했다. 바둑을 처음 배우는 인간 초보자와 비슷한 단계다. 3일후에는 복잡한 전술을 탐독하고 이후에는 인간 바둑에서는 볼 수 없는 전혀 다른 바둑을 선보였다. ‘스스로 학습’ 경지다.

이세돌 9단, 커제와 대결했던 이전 알파고는 두가지로 분리된 신경망을 사용했다. 첫번째 신경망은 최고의 수를 놓는 위치를 예측하는 데 사용했고 다른 하나는 이길 가능성을 평가하는 데 쓰였다. 기존 알파고는 승리 확률을 맞추기 위해 여러 개의 예측 게임을 무작위로 돌리는 방식을 사용했다.

이번에 나온 알파고제로는 하나의 신경망을 사용한다. 기존 알파고가 여러 전문가의 훈수를 받는 형태였다면 알파고제로는 인간의 경지를 넘은 강력한 전문가의 조언을 받는 방식이다.

실제 알파고제로는 2500만달러 가격의 AI구동 서버칩 4개를 사용했다. 기존 알파고는 10배를 사용했다.

훈련 기간도 단축됐다. 기존 알파고는 훈련 기간이 수 개월이었다. 알파고제로는 수일 이내로 단축했다.

딥마인드 연구자들은 알파고 개발 과정에서 얻은 노하우를 실제 기술로 옮기는 방법을 연구중이다. 이중 하나가 신약 개발 과정 중에 필요한 아미노산 서열 구조 예측 등이다. 장기적으로는 양자역학, 재료설계 로봇 공학에도 유사한 작업이 적용될 수 있다.