기보없이 독학… 최강 알파고버전 등장
권예슬 동아사이언스 기자
입력 2017-10-19 03:00 수정 2017-10-19 03:00
이세돌 꺾은 ‘알파고 리’ 상대로 100대0 승리… 3일 만에 최고 기력 갖춰
지난해 이세돌 9단을 꺾었던 바둑 인공지능 ‘알파고(알파고 리·AlphaGo Lee)’를 100-0으로 제압한 인공지능 ‘알파고 제로(AlphaGo Zero)’가 나왔다.
개발자인 데미스 허사비스 구글 딥마인드 공동창업자는 국제학술지 ‘네이처’ 19일자에 알파고 제로 개발 소식을 알렸다. 그는 “알파고 시리즈 중 가장 강력한 버전”이라고 밝혔다. 알파고 제로는 단 36시간의 학습만으로 알파고 리를 넘어서는 능력을 갖췄고, 대국에서는 100-0의 압승을 거뒀다.
알파고 제로는 기보 없이 ‘독학’으로 바둑을 배워 최강자의 자리에 올랐다. 기존 알파고 리는 16만 건에 이르는 인간 바둑기사들의 기보 데이터를 학습하는 ‘딥러닝’과 이를 기반으로 스스로 바둑을 두며 실력을 쌓는 ‘강화학습’을 통해 바둑을 배웠다. 이세돌을 이기기까지 12개월이란 긴 학습 시간을 보냈다. 5월 세계 최강 바둑기사인 중국의 커제 9단을 누른 ‘알파고 마스터(AlphaGo Master)’는 학습 시간을 3분의 1 수준으로 줄였지만, 역시 기보를 통해 학습하는 과정을 거쳤다.
알파고 제로는 딥러닝을 완전히 생략하고 강화학습만을 통해 70시간, 단 3일 만에 세계 최고 수준의 바둑 실력을 갖췄다. 그 시간 동안 혼자 490만 판의 바둑을 뒀다. 감동근 아주대 전자공학과 교수는 “적어도 바둑에 있어선 기존 인간의 지식을 입력해주지 않아도 스스로 강화학습을 통해 인간을 넘어선 인공지능을 구현할 수 있음이 확인된 것”이라고 설명했다.
이 때문에 알파고 제로는 훨씬 가벼워졌다. 알파고 리를 구동하기 위해선 176개의 그래픽프로세싱유닛(GPU·그래픽 연산 전용 프로세서)과 4개의 텐서프로세싱유닛(TPU·인공지능용 칩)이 필요했다. 반면 알파고 제로는 4개의 TPU만으로 구동된다.
이정원 한국전자통신연구원(ETRI) 선임연구원은 “알파고 제로는 한 수를 둘 때 10만 번씩 시뮬레이션 하던 기존 알파고 리의 방식을 버렸다. 독학을 통해 스스로 바둑의 이론을 만들고, 이를 토대로 인간처럼 신중하게 한 가지의 수를 둔다”고 말했다.
딥마인드는 논문을 통해 현재까지 개발한 알파고 시리즈의 ‘엘로(ELO) 점수’를 공개했다. ELO는 바둑 실력을 수치화한 점수다. 알파고 제로는 5185점, 알파고 마스터는 4858점, 알파고 리는 3739점을 받았다. 점수 차가 800점 이상이면 승률은 100%, 677점일 땐 99%, 366점 높다면 90% 승리한다는 의미다. 알파고 제로는 알파고 마스터와의 경기에서는 89-11로 승리를 거뒀다.
이 연구원은 “인간이 만든 기존 바둑 이론을 버렸기 때문에 알파고 제로가 오히려 똑똑해진 것”이라며 “수천 년간 인간과 함께 쌓여온 바둑이론이 오히려 창의적인 새로운 ‘수’의 탄생을 막았을 수도 있다는 것이 알파고 제로를 통해 증명된 것”이라고 설명했다.
허사비스 공동창업자는 “알파고 제로는 인간의 도움 없이도 새로운 지식을 발견하고, 통상적이지 않은 전략을 개발했다”며 “알파고가 개발된 지 2년 만에 나온 성과여서 인공지능이 사람의 독창성을 배가할 수 있다고 확신한다”고 말했다.
권예슬 동아사이언스 기자 yskwon@donga.com
지난해 이세돌 9단을 꺾었던 바둑 인공지능 ‘알파고(알파고 리·AlphaGo Lee)’를 100-0으로 제압한 인공지능 ‘알파고 제로(AlphaGo Zero)’가 나왔다.
개발자인 데미스 허사비스 구글 딥마인드 공동창업자는 국제학술지 ‘네이처’ 19일자에 알파고 제로 개발 소식을 알렸다. 그는 “알파고 시리즈 중 가장 강력한 버전”이라고 밝혔다. 알파고 제로는 단 36시간의 학습만으로 알파고 리를 넘어서는 능력을 갖췄고, 대국에서는 100-0의 압승을 거뒀다.
알파고 제로는 기보 없이 ‘독학’으로 바둑을 배워 최강자의 자리에 올랐다. 기존 알파고 리는 16만 건에 이르는 인간 바둑기사들의 기보 데이터를 학습하는 ‘딥러닝’과 이를 기반으로 스스로 바둑을 두며 실력을 쌓는 ‘강화학습’을 통해 바둑을 배웠다. 이세돌을 이기기까지 12개월이란 긴 학습 시간을 보냈다. 5월 세계 최강 바둑기사인 중국의 커제 9단을 누른 ‘알파고 마스터(AlphaGo Master)’는 학습 시간을 3분의 1 수준으로 줄였지만, 역시 기보를 통해 학습하는 과정을 거쳤다.
알파고 제로는 딥러닝을 완전히 생략하고 강화학습만을 통해 70시간, 단 3일 만에 세계 최고 수준의 바둑 실력을 갖췄다. 그 시간 동안 혼자 490만 판의 바둑을 뒀다. 감동근 아주대 전자공학과 교수는 “적어도 바둑에 있어선 기존 인간의 지식을 입력해주지 않아도 스스로 강화학습을 통해 인간을 넘어선 인공지능을 구현할 수 있음이 확인된 것”이라고 설명했다.
이 때문에 알파고 제로는 훨씬 가벼워졌다. 알파고 리를 구동하기 위해선 176개의 그래픽프로세싱유닛(GPU·그래픽 연산 전용 프로세서)과 4개의 텐서프로세싱유닛(TPU·인공지능용 칩)이 필요했다. 반면 알파고 제로는 4개의 TPU만으로 구동된다.
이정원 한국전자통신연구원(ETRI) 선임연구원은 “알파고 제로는 한 수를 둘 때 10만 번씩 시뮬레이션 하던 기존 알파고 리의 방식을 버렸다. 독학을 통해 스스로 바둑의 이론을 만들고, 이를 토대로 인간처럼 신중하게 한 가지의 수를 둔다”고 말했다.
딥마인드는 논문을 통해 현재까지 개발한 알파고 시리즈의 ‘엘로(ELO) 점수’를 공개했다. ELO는 바둑 실력을 수치화한 점수다. 알파고 제로는 5185점, 알파고 마스터는 4858점, 알파고 리는 3739점을 받았다. 점수 차가 800점 이상이면 승률은 100%, 677점일 땐 99%, 366점 높다면 90% 승리한다는 의미다. 알파고 제로는 알파고 마스터와의 경기에서는 89-11로 승리를 거뒀다.
이 연구원은 “인간이 만든 기존 바둑 이론을 버렸기 때문에 알파고 제로가 오히려 똑똑해진 것”이라며 “수천 년간 인간과 함께 쌓여온 바둑이론이 오히려 창의적인 새로운 ‘수’의 탄생을 막았을 수도 있다는 것이 알파고 제로를 통해 증명된 것”이라고 설명했다.
허사비스 공동창업자는 “알파고 제로는 인간의 도움 없이도 새로운 지식을 발견하고, 통상적이지 않은 전략을 개발했다”며 “알파고가 개발된 지 2년 만에 나온 성과여서 인공지능이 사람의 독창성을 배가할 수 있다고 확신한다”고 말했다.
권예슬 동아사이언스 기자 yskwon@donga.com
비즈N 탑기사
- 백일 아기 비행기 좌석 테이블에 재워…“꿀팁” vs “위험”
- 최저임금 2만원 넘자 나타난 현상…‘원격 알바’ 등장
- “배우자에게 돈 보냈어요” 중고거래로 명품백 먹튀한 40대 벌금형
- 이렇게 63억 건물주 됐나…김지원, 명품 아닌 ‘꾀죄죄한’ 에코백 들어
- 상하이 100년간 3m 침식, 中도시 절반이 가라앉고 있다
- 김지훈, 할리우드 진출한다…아마존 ‘버터플라이’ 주연 합류
- “도박자금 마련하려고”…시험장 화장실서 답안 건넨 전직 토익 강사
- 몸 속에 거즈 5개월 방치…괄약근 수술 의사 입건
- 일본 여행시 섭취 주의…이 제품 먹고 26명 입원
- “1인 안 받는 이유 있었네”…식탁 위 2만원 놓고 간 손님 ‘훈훈’
- 1인 가구 공공임대 ‘면적 축소’ 논란…국토부 “면적 기준 폐지 등 전면 재검토”
- 삼성, 세계 첫 ‘올인원 AI PC’ 공개
- “인구감소로 집값 떨어져 노후 대비에 악영향 줄수도”
- [머니 컨설팅]사적연금 받을 때 세금 유불리 따져봐야
- “만원으로 밥 먹기 어렵다”…평균 점심값 1만원 첫 돌파
- 고금리-경기침체에… 개인회생 두달새 2만2167건 역대 최다
- “한국판 마리나베이샌즈 막는 킬러규제 없애달라”
- 직장인 1000만명 이달 월급 확 준다…건보료 ‘20만원 폭탄’
- 엘리베이터 호출서 수령자 인식까지… ‘배송 로봇’ 경쟁 본격화
- 연체 채권 쌓인 저축銀, 영업 축소… 수신잔액 26개월만에 최저