“한국어 너무 어려워요” 진땀 빼는 AI
신무경 기자
입력 2018-10-31 03:00 수정 2018-10-31 03:00
AI 스피커, 우리말 배우기 어디까지
올해로 훈민정음 반포 572돌을 맞은 가운데 세종대왕이 2년 전 공물로 바쳐진 인공지능(AI) 스피커의 한국어 학습을 살피러 상의원(임금의 보물을 맡던 관서)을 향했다.
▽세종=인공지능 스피커가 우리말을 배우고자 한다 들어 기특해 찾아왔다. 저 희귀한 물건들이 우리말을 잘 깨치고 있는가.
▽장영실=2016년 9월 에스케이텔레콤을 시작으로 케이티, 네이버, 카카오 등 국내 상인과 구글 같은 외국 상인이 인공지능 스피커를 바쳐 오기 시작했습니다.
▽세종=우리말을 가르치는 데 어려움은 없는가.
▽장영실=몇 가지 애로사항이 있사옵니다. 첫 번째는 구조상의 문제이옵니다. 우리말은 주어 다음 서술어가 오는 영어와 달리 주어 다음 목적어와 같은 체언이 옵니다. 체언의 수는 서술어(용언)에 비해 많습니다. 그렇다 보니 인공지능 스피커가 우리말을 인식할 때 ‘의도’를 예측하기가 무척 어렵습니다.
▽세종=그렇기에 ‘우리말은 끝까지 들어봐야 안다’고 하지 않던가.
▽장영실=두 번째는 소리글자에서 비롯되는 문제입니다. 예컨대 개 짖는 소리를 한글로는 ‘멍멍’, ‘왈왈’ 등 소리 나는 대로 다양하게 표기할 수 있습니다. 반면 영어는 ‘바우와우(bowwow)’ 정도이옵니다. 우리말은 단어의 변형이 다채로운 점도 인공지능에게는 까다로운 부분입니다. 예컨대 가다, 가시다, 가고 계시다 등 상황에 따라 다양해 인공지능이 익히기가 무척 어렵습니다.
▽세종=그럼 이런 문제들을 어떻게 해결하고 있는가.
▽장영실=소리글자의 애로사항을 해결한 사례를 들어보겠습니다. 인공지능에게 “‘임우 형’에게 전화해줘”라고 부탁하면 ‘이무영’으로 인식하는 사태가 벌어지기 일쑤였습니다. 하지만 제 스마트폰에 있는 주소록을 서버에 전송해, 주소록에 저장된 이름(임우 형)을 우선 인식하도록 조치했습니다. 이런 사례는 다양하옵나이다.
▽세종=인공지능 스피커를 가르치며 보람은 없는가.
▽장영실=요즘 무분별한 ‘줄임말’로 언어 파괴 현상이 문제화되고 있습니다. 하지만 음성인식 스피커에는 줄임말로 의사를 전달하지 않습니다. 인공지능이 알아들을 수 있도록 ‘또박또박’ 말을 해야 합니다. 그런 측면에서 인공지능 스피커가 우리말이 정제되는 효과로 이어질 수 있다는 기대입니다.
▽세종=짐이 도울 일이라도 있는가.
▽장영실=한국어로 된 ‘말뭉치’가 턱없이 부족합니다. 말뭉치는 인공지능이 인식할 수 있도록 말을 어절 단위로 모아둔 데이터베이스로, 컴퓨터의 언어 학습 시 필요한 원재료입니다. 우리의 말뭉치는 2억 어절로 미국(2000억 어절), 일본(40억 어절)에 비하면 초라합니다. 말뭉치를 확보하기 위한 ‘21세기 세종계획’이 진행되고 있지만, 좀 더 속도를 내야 할 것 같습니다.
※이 기사는 SK텔레콤 AI기술 유닛의 이현아 유닛장(상무)의 도움을 받았습니다.
신무경 기자 yes@donga.com
올해로 훈민정음 반포 572돌을 맞은 가운데 세종대왕이 2년 전 공물로 바쳐진 인공지능(AI) 스피커의 한국어 학습을 살피러 상의원(임금의 보물을 맡던 관서)을 향했다.
▽세종=인공지능 스피커가 우리말을 배우고자 한다 들어 기특해 찾아왔다. 저 희귀한 물건들이 우리말을 잘 깨치고 있는가.
▽장영실=2016년 9월 에스케이텔레콤을 시작으로 케이티, 네이버, 카카오 등 국내 상인과 구글 같은 외국 상인이 인공지능 스피커를 바쳐 오기 시작했습니다.
▽세종=우리말을 가르치는 데 어려움은 없는가.
▽장영실=몇 가지 애로사항이 있사옵니다. 첫 번째는 구조상의 문제이옵니다. 우리말은 주어 다음 서술어가 오는 영어와 달리 주어 다음 목적어와 같은 체언이 옵니다. 체언의 수는 서술어(용언)에 비해 많습니다. 그렇다 보니 인공지능 스피커가 우리말을 인식할 때 ‘의도’를 예측하기가 무척 어렵습니다.
▽세종=그렇기에 ‘우리말은 끝까지 들어봐야 안다’고 하지 않던가.
▽장영실=두 번째는 소리글자에서 비롯되는 문제입니다. 예컨대 개 짖는 소리를 한글로는 ‘멍멍’, ‘왈왈’ 등 소리 나는 대로 다양하게 표기할 수 있습니다. 반면 영어는 ‘바우와우(bowwow)’ 정도이옵니다. 우리말은 단어의 변형이 다채로운 점도 인공지능에게는 까다로운 부분입니다. 예컨대 가다, 가시다, 가고 계시다 등 상황에 따라 다양해 인공지능이 익히기가 무척 어렵습니다.
▽세종=그럼 이런 문제들을 어떻게 해결하고 있는가.
▽장영실=소리글자의 애로사항을 해결한 사례를 들어보겠습니다. 인공지능에게 “‘임우 형’에게 전화해줘”라고 부탁하면 ‘이무영’으로 인식하는 사태가 벌어지기 일쑤였습니다. 하지만 제 스마트폰에 있는 주소록을 서버에 전송해, 주소록에 저장된 이름(임우 형)을 우선 인식하도록 조치했습니다. 이런 사례는 다양하옵나이다.
▽세종=인공지능 스피커를 가르치며 보람은 없는가.
▽장영실=요즘 무분별한 ‘줄임말’로 언어 파괴 현상이 문제화되고 있습니다. 하지만 음성인식 스피커에는 줄임말로 의사를 전달하지 않습니다. 인공지능이 알아들을 수 있도록 ‘또박또박’ 말을 해야 합니다. 그런 측면에서 인공지능 스피커가 우리말이 정제되는 효과로 이어질 수 있다는 기대입니다.
▽세종=짐이 도울 일이라도 있는가.
▽장영실=한국어로 된 ‘말뭉치’가 턱없이 부족합니다. 말뭉치는 인공지능이 인식할 수 있도록 말을 어절 단위로 모아둔 데이터베이스로, 컴퓨터의 언어 학습 시 필요한 원재료입니다. 우리의 말뭉치는 2억 어절로 미국(2000억 어절), 일본(40억 어절)에 비하면 초라합니다. 말뭉치를 확보하기 위한 ‘21세기 세종계획’이 진행되고 있지만, 좀 더 속도를 내야 할 것 같습니다.
※이 기사는 SK텔레콤 AI기술 유닛의 이현아 유닛장(상무)의 도움을 받았습니다.
신무경 기자 yes@donga.com
비즈N 탑기사
- 김숙 “내 건물서 거주+월세 수입 생활이 로망”
- “20억 받으면서 봉사라고?”…홍명보 감독 발언에 누리꾼 ‘부글’
- 세계적 유명 모델이 왜 삼성역·편의점에…“사랑해요 서울” 인증샷
- “사람 치아 나왔다” 5000원짜리 고기 월병 먹던 中여성 ‘경악’
- “모자로 안가려지네”…박보영, 청순한 미모로 힐링 여행
- 엄마 편의점 간 사이 ‘탕’…차에 둔 권총 만진 8살 사망
- 8시간 후 자수한 음주 뺑소니 가해자…한문철 “괘씸죄 적용해야”
- 교보생명, 광화문글판 가을편 새단장…윤동주 ‘자화상’
- 힐러리 “내가 못 깬 유리천장, 해리스가 깨뜨릴 것”
- ‘SNS 적극 활동’ 고현정…“너무 자주 올려 지겨우시실까봐 걱정”
- [머니 컨설팅]금리 인하기, 상업용 부동산 투자 주목해야
- 금값, 올들어 33% 치솟아… 내년 3000달러 넘을 수도
- [단독]배달주문 30% 늘때 수수료 3배로 뛰어… “배달영업 포기”
- 주도주 없는 증시, ‘경영권 분쟁’이 테마주로… 급등락 주의보
- “두바이 여행한다면 체크”…두바이 피트니스 챌린지
- 청력 손실, 치매 외 파킨슨병과도 밀접…보청기 착용하면 위험 ‘뚝’
- “오후 5시 영업팀 회의실 예약해줘”…카카오, 사내 AI 비서 ‘버디’ 공개
- “20억 받으면서 봉사라고?”…홍명보 감독 발언에 누리꾼 ‘부글’
- 일상생활 마비 손목 증후군, 당일 수술로 잡는다!
- [고준석의 실전투자]경매 후 소멸하지 않는 후순위 가처분 꼼꼼히 살펴야