스마일게이트, 혐오 표현 ‘데이터셋’ 1만 건 공개
지민구기자
입력 2022-01-20 14:57 수정 2022-01-20 14:59
개발자 등이 자유롭게 활용 가능
‘동양인이 수학을 한다’ 등 표현도
혐오 발언으로 AI가 걸러낼 수 있어
게임사 스마일게이트의 인공지능(AI)센터가 2년 6개월 간 악성댓글(악플)과 혐오 발언을 유형별로 수집한 대규모 ‘데이터셋’을 외부에 공개한다. 애플리케이션(앱), 게임 개발자가 데이터셋을 자유롭게 활용해 혐오 표현을 걸러내는 시스템을 쉽게 구축할 수 있도록 지원하려는 취지다.
스마일게이트는 20일 “최근 혐오 표현이 디지털 공간에서 증가하면서 사회적 문제로 이어질 수 있다는 점을 고려해 선제적으로 감지하고 대응할 수 있도록 데이터셋을 별도로 구축했다”고 밝혔다. 이 데이터셋은 조만간 스마일게이트 AI 센터 ‘깃허브 페이지’를 통해 공개한다.
스마일게이트 AI 센터와 스타트업 ‘언더스코어’는 2019년 1월부터 2021년 7월 초까지 포털 사이트와 온라인 커뮤니티에 올라온 다양한 게시글을 대상으로 혐오 표현을 수집했다. 수집한 데이터는 총 55만여 개로 이 중 1만 개를 추려 데이터셋으로 묶었다.
데이터셋에 포함된 혐오 표현은 여성 남성 성소수자 인종 연령 지역 종교 등 8개 대상으로 분류했다. 스마일게이트 AI 센터는 “사회적으로 차별과 억압을 받은 소수자 집단의 정체성을 대상으로 공격을 일삼는 표현을 혐오 발언으로 정의한다”고 구체적인 기준과 예시도 제시했다.
이 기준에 따르면 ‘동양인은 수학을 잘할 것’이라는 표현은 인종 혐오 표현으로 걸러질 수 있다. 특정 학생 집단을 비하하는 ‘급식충’도 연령 비하 표현으로 규정해 제한한다. 다만 이용자가 스스로를 자조적으로 낮추면서 쓰는 표현은 혐오 발언으로 분류하지 않도록 했다.
스마일게이트는 AI 센터가 구축한 악성댓글 및 혐오 발언 데이터셋이 다양한 디지털 영역에서 쓰일 것으로 기대하고 있다. 게임 관련 온라인 커뮤니티 댓글이나 비대면 고객 상담 서비스(챗봇), 대규모 여론조사 등이다. 데이터셋을 활용해 AI 기반 혐오 표현 ‘필터링 시스템’을 구축할 수 있다는 것이다.
AI 센터는 앞으로 연구개발(R&D)을 통해 혐오 표현 데이터셋을 추가할 예정이다. 디지털 서비스 안에서 더 정교하게 혐오 표현을 걸러낼 수 있는 기술 개발도 이어갈 계획이다.
한우진 스마일게이트 AI 센터장은 “디지털 서비스 안에서 인공지능 기술이 더 안전하게 활용되는 밑거름이 되길 희망하며 데이터셋을 공개하기로 결정했다”며 “그동안 진행해온 연구 결과와 노력이 사회에 이바지할 수 있도록 다양한 시도를 이어갈 것”이라고 말했다.
지민구기자 warum@donga.com
‘동양인이 수학을 한다’ 등 표현도
혐오 발언으로 AI가 걸러낼 수 있어
게임사 스마일게이트의 인공지능(AI)센터가 2년 6개월 간 악성댓글(악플)과 혐오 발언을 유형별로 수집한 대규모 ‘데이터셋’을 외부에 공개한다. 애플리케이션(앱), 게임 개발자가 데이터셋을 자유롭게 활용해 혐오 표현을 걸러내는 시스템을 쉽게 구축할 수 있도록 지원하려는 취지다.
스마일게이트는 20일 “최근 혐오 표현이 디지털 공간에서 증가하면서 사회적 문제로 이어질 수 있다는 점을 고려해 선제적으로 감지하고 대응할 수 있도록 데이터셋을 별도로 구축했다”고 밝혔다. 이 데이터셋은 조만간 스마일게이트 AI 센터 ‘깃허브 페이지’를 통해 공개한다.
스마일게이트 AI 센터와 스타트업 ‘언더스코어’는 2019년 1월부터 2021년 7월 초까지 포털 사이트와 온라인 커뮤니티에 올라온 다양한 게시글을 대상으로 혐오 표현을 수집했다. 수집한 데이터는 총 55만여 개로 이 중 1만 개를 추려 데이터셋으로 묶었다.
데이터셋에 포함된 혐오 표현은 여성 남성 성소수자 인종 연령 지역 종교 등 8개 대상으로 분류했다. 스마일게이트 AI 센터는 “사회적으로 차별과 억압을 받은 소수자 집단의 정체성을 대상으로 공격을 일삼는 표현을 혐오 발언으로 정의한다”고 구체적인 기준과 예시도 제시했다.
이 기준에 따르면 ‘동양인은 수학을 잘할 것’이라는 표현은 인종 혐오 표현으로 걸러질 수 있다. 특정 학생 집단을 비하하는 ‘급식충’도 연령 비하 표현으로 규정해 제한한다. 다만 이용자가 스스로를 자조적으로 낮추면서 쓰는 표현은 혐오 발언으로 분류하지 않도록 했다.
스마일게이트는 AI 센터가 구축한 악성댓글 및 혐오 발언 데이터셋이 다양한 디지털 영역에서 쓰일 것으로 기대하고 있다. 게임 관련 온라인 커뮤니티 댓글이나 비대면 고객 상담 서비스(챗봇), 대규모 여론조사 등이다. 데이터셋을 활용해 AI 기반 혐오 표현 ‘필터링 시스템’을 구축할 수 있다는 것이다.
AI 센터는 앞으로 연구개발(R&D)을 통해 혐오 표현 데이터셋을 추가할 예정이다. 디지털 서비스 안에서 더 정교하게 혐오 표현을 걸러낼 수 있는 기술 개발도 이어갈 계획이다.
한우진 스마일게이트 AI 센터장은 “디지털 서비스 안에서 인공지능 기술이 더 안전하게 활용되는 밑거름이 되길 희망하며 데이터셋을 공개하기로 결정했다”며 “그동안 진행해온 연구 결과와 노력이 사회에 이바지할 수 있도록 다양한 시도를 이어갈 것”이라고 말했다.
지민구기자 warum@donga.com
비즈N 탑기사
- 백일 아기 비행기 좌석 테이블에 재워…“꿀팁” vs “위험”
- 최저임금 2만원 넘자 나타난 현상…‘원격 알바’ 등장
- “배우자에게 돈 보냈어요” 중고거래로 명품백 먹튀한 40대 벌금형
- 이렇게 63억 건물주 됐나…김지원, 명품 아닌 ‘꾀죄죄한’ 에코백 들어
- 상하이 100년간 3m 침식, 中도시 절반이 가라앉고 있다
- 김지훈, 할리우드 진출한다…아마존 ‘버터플라이’ 주연 합류
- “도박자금 마련하려고”…시험장 화장실서 답안 건넨 전직 토익 강사
- 몸 속에 거즈 5개월 방치…괄약근 수술 의사 입건
- 일본 여행시 섭취 주의…이 제품 먹고 26명 입원
- “1인 안 받는 이유 있었네”…식탁 위 2만원 놓고 간 손님 ‘훈훈’
- 1인 가구 공공임대 ‘면적 축소’ 논란…국토부 “면적 기준 폐지 등 전면 재검토”
- 삼성, 세계 첫 ‘올인원 AI PC’ 공개
- “인구감소로 집값 떨어져 노후 대비에 악영향 줄수도”
- [머니 컨설팅]사적연금 받을 때 세금 유불리 따져봐야
- “만원으로 밥 먹기 어렵다”…평균 점심값 1만원 첫 돌파
- 고금리-경기침체에… 개인회생 두달새 2만2167건 역대 최다
- “한국판 마리나베이샌즈 막는 킬러규제 없애달라”
- 직장인 1000만명 이달 월급 확 준다…건보료 ‘20만원 폭탄’
- 엘리베이터 호출서 수령자 인식까지… ‘배송 로봇’ 경쟁 본격화
- 연체 채권 쌓인 저축銀, 영업 축소… 수신잔액 26개월만에 최저