“한국어 너무 어려워요” 진땀 빼는 AI

신무경 기자

입력 2018-10-31 03:00:00 수정 2018-10-31 03:00:00

|
폰트
|
뉴스듣기
|
기사공유 | 
  • 페이스북
  • 트위터
  • 싸이월드
  • 구글
AI 스피커, 우리말 배우기 어디까지

올해로 훈민정음 반포 572돌을 맞은 가운데 세종대왕이 2년 전 공물로 바쳐진 인공지능(AI) 스피커의 한국어 학습을 살피러 상의원(임금의 보물을 맡던 관서)을 향했다.

▽세종=인공지능 스피커가 우리말을 배우고자 한다 들어 기특해 찾아왔다. 저 희귀한 물건들이 우리말을 잘 깨치고 있는가.

▽장영실=2016년 9월 에스케이텔레콤을 시작으로 케이티, 네이버, 카카오 등 국내 상인과 구글 같은 외국 상인이 인공지능 스피커를 바쳐 오기 시작했습니다.

▽세종=우리말을 가르치는 데 어려움은 없는가.

▽장영실=몇 가지 애로사항이 있사옵니다. 첫 번째는 구조상의 문제이옵니다. 우리말은 주어 다음 서술어가 오는 영어와 달리 주어 다음 목적어와 같은 체언이 옵니다. 체언의 수는 서술어(용언)에 비해 많습니다. 그렇다 보니 인공지능 스피커가 우리말을 인식할 때 ‘의도’를 예측하기가 무척 어렵습니다.

▽세종=그렇기에 ‘우리말은 끝까지 들어봐야 안다’고 하지 않던가.

▽장영실=두 번째는 소리글자에서 비롯되는 문제입니다. 예컨대 개 짖는 소리를 한글로는 ‘멍멍’, ‘왈왈’ 등 소리 나는 대로 다양하게 표기할 수 있습니다. 반면 영어는 ‘바우와우(bowwow)’ 정도이옵니다. 우리말은 단어의 변형이 다채로운 점도 인공지능에게는 까다로운 부분입니다. 예컨대 가다, 가시다, 가고 계시다 등 상황에 따라 다양해 인공지능이 익히기가 무척 어렵습니다.

▽세종=그럼 이런 문제들을 어떻게 해결하고 있는가.

▽장영실=소리글자의 애로사항을 해결한 사례를 들어보겠습니다. 인공지능에게 “‘임우 형’에게 전화해줘”라고 부탁하면 ‘이무영’으로 인식하는 사태가 벌어지기 일쑤였습니다. 하지만 제 스마트폰에 있는 주소록을 서버에 전송해, 주소록에 저장된 이름(임우 형)을 우선 인식하도록 조치했습니다. 이런 사례는 다양하옵나이다.

▽세종=인공지능 스피커를 가르치며 보람은 없는가.

▽장영실=요즘 무분별한 ‘줄임말’로 언어 파괴 현상이 문제화되고 있습니다. 하지만 음성인식 스피커에는 줄임말로 의사를 전달하지 않습니다. 인공지능이 알아들을 수 있도록 ‘또박또박’ 말을 해야 합니다. 그런 측면에서 인공지능 스피커가 우리말이 정제되는 효과로 이어질 수 있다는 기대입니다.

▽세종=짐이 도울 일이라도 있는가.

▽장영실=한국어로 된 ‘말뭉치’가 턱없이 부족합니다. 말뭉치는 인공지능이 인식할 수 있도록 말을 어절 단위로 모아둔 데이터베이스로, 컴퓨터의 언어 학습 시 필요한 원재료입니다. 우리의 말뭉치는 2억 어절로 미국(2000억 어절), 일본(40억 어절)에 비하면 초라합니다. 말뭉치를 확보하기 위한 ‘21세기 세종계획’이 진행되고 있지만, 좀 더 속도를 내야 할 것 같습니다.

※이 기사는 SK텔레콤 AI기술 유닛의 이현아 유닛장(상무)의 도움을 받았습니다.

신무경 기자 yes@donga.com

라이프



모바일 버전 보기