AI, 3D 게임서도 인간 꺾었다
동아일보
입력 2019-05-31 03:00 수정 2019-05-31 11:32
구글 딥마인드가 개발한 ‘포더윈’
3차원 공간에서 깃발 뺏는 게임… 45만 판 훈련하며 막강 실력 갖춰
구글 딥마인드가 개발한 새 인공지능(AI)이 여러 명이 3차원 공간을 돌아다니며 총을 들고 싸우는 복잡한 게임에서 다시 한 번 인간 고수를 꺾었다. 앞서 딥마인드가 개발한 바둑 전용 AI인 알파고는 2016년 바둑 고수 이세돌 9단을 눌렀고 올해 1월에는 게임 전용 AI인 ‘알파스타’가 인기 게임 ‘스타크래프트’ 개인전과 단체전에서 인간을 눌렀다.
딥마인드 연구팀은 29일 국제학술지 ‘사이언스’에 새 AI ‘포더윈(For the Win)’이 인기 게임인 ‘퀘이크 3 아레나’에서 인간 고수를 꺾었다고 밝혔다. 포더윈은 이 게임 중 ‘깃발 뺏기’ 종목에서 인간과 대결했다. 깃발 뺏기는 매번 새롭게 생성되는 공간에서 아군 한 명과 협력해 두 명으로 구성된 상대 팀의 깃발을 빼앗는 게임이다. 어려운 상대를 이길수록 점수가 높아지는데, 포더윈은 인간 고수의 기준인 1300점을 훌쩍 넘겨 1600점으로 인간을 압도했다.
포더윈은 알파고 때와 같은 강화학습으로 실력을 습득했다. 강화학습은 AI로 하여금 현재의 상태를 인식하게 하고, 그 상태에서 선택 가능한 행동 가운데 보상이 가장 큰 행동을 선택하게 하는 학습법이다. 연구팀은 포더윈 둘에게 기본적인 게임의 승리 조건을 입력한 뒤 서로 대결을 시켜 승리하면 보상을 주는 식으로 AI를 가르쳤다. 예를 들어 “깃발을 뺏으면 점수가 오르고 내 깃발을 잃으면 점수가 내려간다”는 조건을 줘 포더윈이 점수를 올리는 요령을 학습하게 하는 식이다. 처음에는 깃발을 갖는다는 게 무엇인지도 모르던 포더윈은 점차 게임의 규칙을 배워, 눈앞에 보이는 전장의 구조물을 기억하고, 게임 속 점수 현황을 확인하며 실력을 늘렸다.
포더윈은 게임 45만 판을 거치며 고수가 됐다. 딥마인드의 분석 결과 포더윈은 학습 기간의 상당 부분을 ‘기본기’를 익히는 데 쓴 것으로 나타났다. ‘내가 깃발을 갖고 있다’를 인식한 것은 게임 5000판을 한 뒤였다. 최소한의 기본 원리를 학습한 것은 1만 판 뒤였고, ‘아군의 깃발을 빼앗겼다’를 이해한 것은 5만 판을 한 이후였다. 협동에 필요한 정보는 20만 판을 한 뒤에 이해했다. 이후 35만 판까지는 목표를 설정하고 상대방을 조준하는 기술을 익혔다.
하지만 35만 판부터는 다양한 전략을 스스로 개발했다. 깃발을 들고 있는 아군을 따라가며 엄호하거나 상대방의 기지를 정찰하고 돌아오는 전략을 선보였다. 불리한 순간에는 자신의 기지를 벗어나지 않고 방어 전략을 취하기도 했다. 전술을 고도화하면서 아군을 무작정 따라가지 않고 다른 유리한 행동을 취하는 모습도 보였다. 45만 판을 끝낸 뒤, 포더윈은 포더윈 둘로 된 팀이 포더윈과 인간으로 구성된 팀을 상대로 95%의 승률을 올릴 정도로 막강한 실력을 갖췄다.
연구팀은 “AI가 실제 세상처럼 여러 행위자가 독립적으로 활동하는 환경에서도 적용될 수 있음을 확인해 준 사례”라고 의미를 부여했다.
조승한 동아사이언스 기자 shinjsh@donga.com
3차원 공간에서 깃발 뺏는 게임… 45만 판 훈련하며 막강 실력 갖춰
구글 딥마인드가 개발한 새로운 인공지능(AI) ‘포더윈’이 두 명씩 편을 이뤄 깃발을 뺏는 3차원 게임에서 인간과 대결해 이겼다. 딥마인드 제공
구글 딥마인드가 개발한 새 인공지능(AI)이 여러 명이 3차원 공간을 돌아다니며 총을 들고 싸우는 복잡한 게임에서 다시 한 번 인간 고수를 꺾었다. 앞서 딥마인드가 개발한 바둑 전용 AI인 알파고는 2016년 바둑 고수 이세돌 9단을 눌렀고 올해 1월에는 게임 전용 AI인 ‘알파스타’가 인기 게임 ‘스타크래프트’ 개인전과 단체전에서 인간을 눌렀다.
딥마인드 연구팀은 29일 국제학술지 ‘사이언스’에 새 AI ‘포더윈(For the Win)’이 인기 게임인 ‘퀘이크 3 아레나’에서 인간 고수를 꺾었다고 밝혔다. 포더윈은 이 게임 중 ‘깃발 뺏기’ 종목에서 인간과 대결했다. 깃발 뺏기는 매번 새롭게 생성되는 공간에서 아군 한 명과 협력해 두 명으로 구성된 상대 팀의 깃발을 빼앗는 게임이다. 어려운 상대를 이길수록 점수가 높아지는데, 포더윈은 인간 고수의 기준인 1300점을 훌쩍 넘겨 1600점으로 인간을 압도했다.
포더윈은 알파고 때와 같은 강화학습으로 실력을 습득했다. 강화학습은 AI로 하여금 현재의 상태를 인식하게 하고, 그 상태에서 선택 가능한 행동 가운데 보상이 가장 큰 행동을 선택하게 하는 학습법이다. 연구팀은 포더윈 둘에게 기본적인 게임의 승리 조건을 입력한 뒤 서로 대결을 시켜 승리하면 보상을 주는 식으로 AI를 가르쳤다. 예를 들어 “깃발을 뺏으면 점수가 오르고 내 깃발을 잃으면 점수가 내려간다”는 조건을 줘 포더윈이 점수를 올리는 요령을 학습하게 하는 식이다. 처음에는 깃발을 갖는다는 게 무엇인지도 모르던 포더윈은 점차 게임의 규칙을 배워, 눈앞에 보이는 전장의 구조물을 기억하고, 게임 속 점수 현황을 확인하며 실력을 늘렸다.
포더윈은 게임 45만 판을 거치며 고수가 됐다. 딥마인드의 분석 결과 포더윈은 학습 기간의 상당 부분을 ‘기본기’를 익히는 데 쓴 것으로 나타났다. ‘내가 깃발을 갖고 있다’를 인식한 것은 게임 5000판을 한 뒤였다. 최소한의 기본 원리를 학습한 것은 1만 판 뒤였고, ‘아군의 깃발을 빼앗겼다’를 이해한 것은 5만 판을 한 이후였다. 협동에 필요한 정보는 20만 판을 한 뒤에 이해했다. 이후 35만 판까지는 목표를 설정하고 상대방을 조준하는 기술을 익혔다.
하지만 35만 판부터는 다양한 전략을 스스로 개발했다. 깃발을 들고 있는 아군을 따라가며 엄호하거나 상대방의 기지를 정찰하고 돌아오는 전략을 선보였다. 불리한 순간에는 자신의 기지를 벗어나지 않고 방어 전략을 취하기도 했다. 전술을 고도화하면서 아군을 무작정 따라가지 않고 다른 유리한 행동을 취하는 모습도 보였다. 45만 판을 끝낸 뒤, 포더윈은 포더윈 둘로 된 팀이 포더윈과 인간으로 구성된 팀을 상대로 95%의 승률을 올릴 정도로 막강한 실력을 갖췄다.
연구팀은 “AI가 실제 세상처럼 여러 행위자가 독립적으로 활동하는 환경에서도 적용될 수 있음을 확인해 준 사례”라고 의미를 부여했다.
조승한 동아사이언스 기자 shinjsh@donga.com
비즈N 탑기사
- ‘투머치 토커’의 모자…민희진 폭주에 박찬호 소환 왜
- 백일 아기 비행기 좌석 테이블에 재워…“꿀팁” vs “위험”
- 최저임금 2만원 넘자 나타난 현상…‘원격 알바’ 등장
- “배우자에게 돈 보냈어요” 중고거래로 명품백 먹튀한 40대 벌금형
- 이렇게 63억 건물주 됐나…김지원, 명품 아닌 ‘꾀죄죄한’ 에코백 들어
- 상하이 100년간 3m 침식, 中도시 절반이 가라앉고 있다
- 김지훈, 할리우드 진출한다…아마존 ‘버터플라이’ 주연 합류
- “도박자금 마련하려고”…시험장 화장실서 답안 건넨 전직 토익 강사
- 몸 속에 거즈 5개월 방치…괄약근 수술 의사 입건
- 일본 여행시 섭취 주의…이 제품 먹고 26명 입원
- '선물하기 좋은 맥주'로 이름 날려 매출 182% 증가한 브랜드[브랜더쿠]
- 분당 9800채-일산 6900채 ‘미니 신도시급’ 재건축
- 한국에 8800억 투자 獨머크 “시장 주도 기업들 많아 매력적”
- 은행연체율 4년9개월만에 최고… 새마을금고 ‘비상등’
- 슈퍼리치들 30분 덜 자고 책 2배 많이 읽었다
- 재즈 연주회부터 강연까지… 문화로 물드는 서울의 ‘봄밤’
- 맥도날드, 반년 만에 또 올린다… 치킨‧피자까지 전방위적 가격 인상
- 하이닉스, AI붐 타고 깜짝흑자… “美경기 살아야 슈퍼사이클 진입”
- 카드사 고위험업무 5년 초과 근무 못한다…여전업권 ‘내부통제 모범규준’ 시행
- 美-중동 석유공룡도 뛰어든 플라스틱… 역대급 공급과잉 우려[딥다이브]