“한국어 너무 어려워요” 진땀 빼는 AI
신무경 기자
입력 2018-10-31 03:00 수정 2018-10-31 03:00
AI 스피커, 우리말 배우기 어디까지
올해로 훈민정음 반포 572돌을 맞은 가운데 세종대왕이 2년 전 공물로 바쳐진 인공지능(AI) 스피커의 한국어 학습을 살피러 상의원(임금의 보물을 맡던 관서)을 향했다.
▽세종=인공지능 스피커가 우리말을 배우고자 한다 들어 기특해 찾아왔다. 저 희귀한 물건들이 우리말을 잘 깨치고 있는가.
▽장영실=2016년 9월 에스케이텔레콤을 시작으로 케이티, 네이버, 카카오 등 국내 상인과 구글 같은 외국 상인이 인공지능 스피커를 바쳐 오기 시작했습니다.
▽세종=우리말을 가르치는 데 어려움은 없는가.
▽장영실=몇 가지 애로사항이 있사옵니다. 첫 번째는 구조상의 문제이옵니다. 우리말은 주어 다음 서술어가 오는 영어와 달리 주어 다음 목적어와 같은 체언이 옵니다. 체언의 수는 서술어(용언)에 비해 많습니다. 그렇다 보니 인공지능 스피커가 우리말을 인식할 때 ‘의도’를 예측하기가 무척 어렵습니다.
▽세종=그렇기에 ‘우리말은 끝까지 들어봐야 안다’고 하지 않던가.
▽장영실=두 번째는 소리글자에서 비롯되는 문제입니다. 예컨대 개 짖는 소리를 한글로는 ‘멍멍’, ‘왈왈’ 등 소리 나는 대로 다양하게 표기할 수 있습니다. 반면 영어는 ‘바우와우(bowwow)’ 정도이옵니다. 우리말은 단어의 변형이 다채로운 점도 인공지능에게는 까다로운 부분입니다. 예컨대 가다, 가시다, 가고 계시다 등 상황에 따라 다양해 인공지능이 익히기가 무척 어렵습니다.
▽세종=그럼 이런 문제들을 어떻게 해결하고 있는가.
▽장영실=소리글자의 애로사항을 해결한 사례를 들어보겠습니다. 인공지능에게 “‘임우 형’에게 전화해줘”라고 부탁하면 ‘이무영’으로 인식하는 사태가 벌어지기 일쑤였습니다. 하지만 제 스마트폰에 있는 주소록을 서버에 전송해, 주소록에 저장된 이름(임우 형)을 우선 인식하도록 조치했습니다. 이런 사례는 다양하옵나이다.
▽세종=인공지능 스피커를 가르치며 보람은 없는가.
▽장영실=요즘 무분별한 ‘줄임말’로 언어 파괴 현상이 문제화되고 있습니다. 하지만 음성인식 스피커에는 줄임말로 의사를 전달하지 않습니다. 인공지능이 알아들을 수 있도록 ‘또박또박’ 말을 해야 합니다. 그런 측면에서 인공지능 스피커가 우리말이 정제되는 효과로 이어질 수 있다는 기대입니다.
▽세종=짐이 도울 일이라도 있는가.
▽장영실=한국어로 된 ‘말뭉치’가 턱없이 부족합니다. 말뭉치는 인공지능이 인식할 수 있도록 말을 어절 단위로 모아둔 데이터베이스로, 컴퓨터의 언어 학습 시 필요한 원재료입니다. 우리의 말뭉치는 2억 어절로 미국(2000억 어절), 일본(40억 어절)에 비하면 초라합니다. 말뭉치를 확보하기 위한 ‘21세기 세종계획’이 진행되고 있지만, 좀 더 속도를 내야 할 것 같습니다.
※이 기사는 SK텔레콤 AI기술 유닛의 이현아 유닛장(상무)의 도움을 받았습니다.
신무경 기자 yes@donga.com
올해로 훈민정음 반포 572돌을 맞은 가운데 세종대왕이 2년 전 공물로 바쳐진 인공지능(AI) 스피커의 한국어 학습을 살피러 상의원(임금의 보물을 맡던 관서)을 향했다.
▽세종=인공지능 스피커가 우리말을 배우고자 한다 들어 기특해 찾아왔다. 저 희귀한 물건들이 우리말을 잘 깨치고 있는가.
▽장영실=2016년 9월 에스케이텔레콤을 시작으로 케이티, 네이버, 카카오 등 국내 상인과 구글 같은 외국 상인이 인공지능 스피커를 바쳐 오기 시작했습니다.
▽세종=우리말을 가르치는 데 어려움은 없는가.
▽장영실=몇 가지 애로사항이 있사옵니다. 첫 번째는 구조상의 문제이옵니다. 우리말은 주어 다음 서술어가 오는 영어와 달리 주어 다음 목적어와 같은 체언이 옵니다. 체언의 수는 서술어(용언)에 비해 많습니다. 그렇다 보니 인공지능 스피커가 우리말을 인식할 때 ‘의도’를 예측하기가 무척 어렵습니다.
▽세종=그렇기에 ‘우리말은 끝까지 들어봐야 안다’고 하지 않던가.
▽장영실=두 번째는 소리글자에서 비롯되는 문제입니다. 예컨대 개 짖는 소리를 한글로는 ‘멍멍’, ‘왈왈’ 등 소리 나는 대로 다양하게 표기할 수 있습니다. 반면 영어는 ‘바우와우(bowwow)’ 정도이옵니다. 우리말은 단어의 변형이 다채로운 점도 인공지능에게는 까다로운 부분입니다. 예컨대 가다, 가시다, 가고 계시다 등 상황에 따라 다양해 인공지능이 익히기가 무척 어렵습니다.
▽세종=그럼 이런 문제들을 어떻게 해결하고 있는가.
▽장영실=소리글자의 애로사항을 해결한 사례를 들어보겠습니다. 인공지능에게 “‘임우 형’에게 전화해줘”라고 부탁하면 ‘이무영’으로 인식하는 사태가 벌어지기 일쑤였습니다. 하지만 제 스마트폰에 있는 주소록을 서버에 전송해, 주소록에 저장된 이름(임우 형)을 우선 인식하도록 조치했습니다. 이런 사례는 다양하옵나이다.
▽세종=인공지능 스피커를 가르치며 보람은 없는가.
▽장영실=요즘 무분별한 ‘줄임말’로 언어 파괴 현상이 문제화되고 있습니다. 하지만 음성인식 스피커에는 줄임말로 의사를 전달하지 않습니다. 인공지능이 알아들을 수 있도록 ‘또박또박’ 말을 해야 합니다. 그런 측면에서 인공지능 스피커가 우리말이 정제되는 효과로 이어질 수 있다는 기대입니다.
▽세종=짐이 도울 일이라도 있는가.
▽장영실=한국어로 된 ‘말뭉치’가 턱없이 부족합니다. 말뭉치는 인공지능이 인식할 수 있도록 말을 어절 단위로 모아둔 데이터베이스로, 컴퓨터의 언어 학습 시 필요한 원재료입니다. 우리의 말뭉치는 2억 어절로 미국(2000억 어절), 일본(40억 어절)에 비하면 초라합니다. 말뭉치를 확보하기 위한 ‘21세기 세종계획’이 진행되고 있지만, 좀 더 속도를 내야 할 것 같습니다.
※이 기사는 SK텔레콤 AI기술 유닛의 이현아 유닛장(상무)의 도움을 받았습니다.
신무경 기자 yes@donga.com
비즈N 탑기사
- ‘투머치 토커’의 모자…민희진 폭주에 박찬호 소환 왜
- 백일 아기 비행기 좌석 테이블에 재워…“꿀팁” vs “위험”
- 최저임금 2만원 넘자 나타난 현상…‘원격 알바’ 등장
- “배우자에게 돈 보냈어요” 중고거래로 명품백 먹튀한 40대 벌금형
- 이렇게 63억 건물주 됐나…김지원, 명품 아닌 ‘꾀죄죄한’ 에코백 들어
- 상하이 100년간 3m 침식, 中도시 절반이 가라앉고 있다
- 김지훈, 할리우드 진출한다…아마존 ‘버터플라이’ 주연 합류
- “도박자금 마련하려고”…시험장 화장실서 답안 건넨 전직 토익 강사
- 몸 속에 거즈 5개월 방치…괄약근 수술 의사 입건
- 일본 여행시 섭취 주의…이 제품 먹고 26명 입원
- 한국에 8800억 투자 獨머크 “시장 주도 기업들 많아 매력적”
- 직장인 1000만명 이달 월급 확 준다…건보료 ‘20만원 폭탄’
- 1인 가구 공공임대 ‘면적 축소’ 논란…국토부 “면적 기준 폐지 등 전면 재검토”
- “만원으로 밥 먹기 어렵다”…평균 점심값 1만원 첫 돌파
- 고금리-경기침체에… 개인회생 두달새 2만2167건 역대 최다
- 美-중동 석유공룡도 뛰어든 플라스틱… 역대급 공급과잉 우려[딥다이브]
- 카드사 고위험업무 5년 초과 근무 못한다…여전업권 ‘내부통제 모범규준’ 시행
- 작년 서울 주택 인허가, 목표치 33% 그쳐… 2, 3년뒤 공급난 우려
- 은행연체율 4년9개월만에 최고… 새마을금고 ‘비상등’
- 작년 4대그룹 영업이익 24.5조, 66% 감소…현대차그룹만 늘어