앞만 보고 뒷모습까지 알아내는 AI… 2D 장면 토대로 3D 이미지 예측 : 비즈N

앞만 보고 뒷모습까지 알아내는 AI… 2D 장면 토대로 3D 이미지 예측

송경은 동아사이언스 기자

입력 2018-06-15 03:00 수정 2018-06-15 03:00

댓글보기

폰트

뉴스듣기

기사공유 |

주변 인식 로봇-자율車 개발에 도움

구글 딥마인드가 스스로 관찰한 2차원 장면들을 토대로 공간과 사물의 3차원 구조를 파악하고, 새로운 이미지로 생성하는 AI를 개발했다. 구글 딥마인드 제공

사람은 다양한 각도에서 사물을 보고 이를 종합해 사물의 3차원(3D) 형태를 인지한다. 경험이 쌓이면 이리저리 돌려 보지 않고도 사물의 입체적인 모습을 예상할 수 있다. 공간 구조나 물체의 공간상 위치를 인식할 때도 마찬가지다. 바둑 인공지능(AI) ‘알파고’로 세계를 떠들썩하게 한 구글 딥마인드가 이번엔 사람의 관찰 능력을 가진 AI를 개발해 화제다.

‘제너레이티브 퀘리 네트워크(GQN)’로 불리는 이 AI는 일부 제한된 각도에서 본 2차원 장면을 토대로 공간과 사물의 전체적인 입체 구조를 예측해 3D 이미지로 만들어 준다. 덕분에 관찰 각도에서는 볼 수 없었던 사물의 뒷면 등 모든 각도에서의 장면을 볼 수 있다. 스스로 주변을 인식하고 능동적으로 반응하는 로봇, 자율자동차 등을 개발하는 데 단초가 될 것으로 전망된다.

알리 이슬라미 구글 딥마인드 연구원팀은 이런 내용의 연구 결과를 국제학술지 ‘사이언스’ 15일자에 발표했다. 데미스 허사비스 구글 딥마인드 최고경영자(CEO)도 이번 연구에 공동 저자로 참여했다. 이슬라미 연구원은 “사람과 같은 방식으로 컴퓨터가 입체적인 공간을 인지할 수 있도록 만든 것”이라고 설명했다.

기존의 AI 시각 시스템은 같은 사물을 다양한 각도에서 본 장면과 함께 각 장면에 담긴 여러 가지 정보를 함께 입력해줘야 했다. 장면의 방향(정면, 측면 등)과 장면 속 사물의 공간상 위치, 특정 사물의 픽셀 범위 등을 일일이 표시한 방대한 양의 학습 데이터가 필요했다. 학습 데이터를 만드는 데 너무 많은 시간이 들었을 뿐만 아니라 복잡한 공간이나 곡면으로 이뤄진 사물은 제대로 인식하지 못하는 한계가 있었다.

반면 GQN은 사람이 입력하는 학습 데이터에 의존하지 않는다. 공간과 사물을 여러 각도에서 관찰하기만 하면 입체적인 구조를 스스로 파악하고, 볼 수 없었던 다양한 장면까지 이미지로 만들어 낸다. 미로 안에서 구석구석을 관찰한 뒤 미로의 전체 3D 지도를 만들거나 공간을 동영상으로 살펴보는 것도 가능하다. 이경무 서울대 전기정보공학부 교수는 “사람이 일일이 가르쳐야 했던 머신러닝(기계학습)의 근본 한계를 뛰어넘은 결과로, 사람의 지각 능력에 가장 가깝게 다가섰다고 볼 수 있다”고 말했다.

GQN은 크게 ‘표현 네트워크’와 ‘생성 네트워크’로 나뉜다. 연구진은 컴퓨터로 만든 가상의 3D 공간을 이용해 두 네트워크를 학습시켰다. 가상공간에는 정육면체 같은 도형부터 복잡한 구조의 로봇 팔까지 다양한 사물을 무작위로 배치했다.

먼저 가상공간에서 관찰카메라가 이동하며 여러 각도에서 본 장면들을 캡처한다. 표현 네트워크는 이 2D 장면들을 종합해 공간의 3D 구조와 사물의 색깔과 모양, 위치 등 핵심 정보를 파악한다. 이를 토대로 생성 네트워크가 앞서 관찰하지 않았던 새로운 각도에서 본 장면을 예측해 이미지로 만들어 주는 것이다. 생성된 이미지를 실제 장면과 비교한 결과 육안으로 구분이 어려운 수준으로 일치했다. 다만 이 교수는 “실제 환경에 적용하려면 가상공간이 아닌 움직이는 물체가 있는 실제 공간에서의 훈련이 필요하다”고 덧붙였다.

딥마인드는 지난해 10월 인간의 바둑 기보 없이 독학으로 무패의 경지에 오른 ‘알파고 제로’를 선보인 뒤 연구 분야를 다양하게 확장하고 있다. 지난달에는 영국 런던칼리지대 연구진과 함께 동물 뇌에서 위치 감각을 담당하는 신경세포의 기능을 모방해 인간을 비롯한 포유류의 길 찾기 능력을 가진 AI를 개발해 국제학술지 ‘네이처’에 발표한 바 있다.
　
송경은 동아사이언스 기자 kyungeun@donga.com