|
기존 알파고는 여느 AI와 다름없이 인간의 데이터를 학습하며 진화했다. 10만개 이상의 기보를 입력받아 학습하는 게 첫 출발이었다.
그러나 이번 딥마인드가 공개한 ‘알파고 제로’는 처음부터 스스로 학습한다. 바둑 랭킹 1위 커제를 3대0으로 꺾은 알파고마스터보다도 진화했다. 알파고마스터는 40일간 3000만기보를 보며 학습했다.
이세돌 9단, 커제와 대결했던 이전 알파고는 두가지로 분리된 신경망을 사용했다. 첫번째 신경망은 최고의 수를 놓는 위치를 예측하는 데 사용했고 다른 하나는 이길 가능성을 평가하는 데 쓰였다. 기존 알파고는 승리 확률을 맞추기 위해 여러 개의 예측 게임을 무작위로 돌리는 방식을 사용했다.
실제 알파고제로는 2500만달러 가격의 AI구동 서버칩 4개를 사용했다. 기존 알파고는 10배를 사용했다.
훈련 기간도 단축됐다. 기존 알파고는 훈련 기간이 수 개월이었다. 알파고제로는 수일 이내로 단축했다.
딥마인드 연구자들은 알파고 개발 과정에서 얻은 노하우를 실제 기술로 옮기는 방법을 연구중이다. 이중 하나가 신약 개발 과정 중에 필요한 아미노산 서열 구조 예측 등이다. 장기적으로는 양자역학, 재료설계 로봇 공학에도 유사한 작업이 적용될 수 있다.