스스로 공부해 터득하는 ‘아이 로봇’ 현실로…‘알파고 제로’

ptk@donga.com2017-10-19 14:10:42
공유하기 닫기
윌스미스 주연의 2004년 영화 ‘이이로봇’을 보면, 기본적으로 사람의 명령에 의해서만 작동되던 로봇들이 스스로 학습을 통해서 점점 진화하게 되고 심지어 감정까지 갖게 된다.

이 영화 처럼 알려주지 않아도 스르로 지식을 터득하는 로봇의 시대가 도래했다. 이세돌 9단을 이긴 인공지능 알파고가 무섭게 진화한 것이다.

최신버전 ‘알파고 제로’는 독학으로 배운 바둑 실력으로 이세돌 9단과 대결했던 버전 ‘알파고 리’를 상대로 100전100승을 거뒀다.

알파고 제로의 특징은, 인간과의 대국을 통해 학습했던 기존의 알파고와과 달리 기보도 없이 ‘셀프바둑’을 두면서 스스로 터득한다는 점이다.

알파고 개발사 구글딥마인드가 10월 19일 과학 저널 네이처에 발표한 '인간 지식 없이 바둑을 마스터하기(Mastering the game of Gowithout human knowledge)'에 따르면, 새로운 알파고는 바둑판만 놓고 혼자 바둑을 두면서 승률을 높이는 좋은 수가 어떤 것인지 데이터를 쌓는다.

오로지 기본 룰만 입력한 상태로 무작위 착수에서부터 바둑을 시작한 알파고 제로는 약 8000만 건의 강화학습을 통해 스스로 바둑에서 이기는 방법을 터득했다. 자신이 스승이자 제자가 된 것이다.

'0'에서 시작했다는 의미여서 이름이 알파고 제로다.

구글딥마인드는 논문에서 “우리는 바둑의 기본 룰을 제외하고는 기보나 정석, 포석 등 가이드라인을 전혀 입력하지 않았다. 강화학습만 반복한 결과다”고 설명했다.

학습 속도도 어마하다. 바둑에 대한 지식이 제로(0) 였던 알파고 제로가 현 단계의 실력에 오르는 데 걸린 기간은 총 40일이다.

알파고 리의 실력을 앞선 건 학습이 시작된 지 36시간 만이었다. 72시간 뒤에는 100판을 둬서 100판을 모두 이겼다.

1수에 0.4초 걸리는 '초속기' 셀프 바둑을 두면서 연구한 결과다.

허사비스 딥마인드 CEO는 “인공지능 연구의 오랜 목표는 인간이 데이터를 입력하지도 않아도 되는 알고리즘을 만드는 건데, 이를 달성한기 위한 중요한 성과를 거뒀다고 본다”고 설명했다. 

카톡에서 소다 채널 추가하세요