스마일게이트, 혐오 표현 ‘데이터셋’ 1만 건 공개
지민구기자
입력 2022-01-20 14:57 수정 2022-01-20 14:59
개발자 등이 자유롭게 활용 가능
‘동양인이 수학을 한다’ 등 표현도
혐오 발언으로 AI가 걸러낼 수 있어
게임사 스마일게이트의 인공지능(AI)센터가 2년 6개월 간 악성댓글(악플)과 혐오 발언을 유형별로 수집한 대규모 ‘데이터셋’을 외부에 공개한다. 애플리케이션(앱), 게임 개발자가 데이터셋을 자유롭게 활용해 혐오 표현을 걸러내는 시스템을 쉽게 구축할 수 있도록 지원하려는 취지다.
스마일게이트는 20일 “최근 혐오 표현이 디지털 공간에서 증가하면서 사회적 문제로 이어질 수 있다는 점을 고려해 선제적으로 감지하고 대응할 수 있도록 데이터셋을 별도로 구축했다”고 밝혔다. 이 데이터셋은 조만간 스마일게이트 AI 센터 ‘깃허브 페이지’를 통해 공개한다.
스마일게이트 AI 센터와 스타트업 ‘언더스코어’는 2019년 1월부터 2021년 7월 초까지 포털 사이트와 온라인 커뮤니티에 올라온 다양한 게시글을 대상으로 혐오 표현을 수집했다. 수집한 데이터는 총 55만여 개로 이 중 1만 개를 추려 데이터셋으로 묶었다.
데이터셋에 포함된 혐오 표현은 여성 남성 성소수자 인종 연령 지역 종교 등 8개 대상으로 분류했다. 스마일게이트 AI 센터는 “사회적으로 차별과 억압을 받은 소수자 집단의 정체성을 대상으로 공격을 일삼는 표현을 혐오 발언으로 정의한다”고 구체적인 기준과 예시도 제시했다.
이 기준에 따르면 ‘동양인은 수학을 잘할 것’이라는 표현은 인종 혐오 표현으로 걸러질 수 있다. 특정 학생 집단을 비하하는 ‘급식충’도 연령 비하 표현으로 규정해 제한한다. 다만 이용자가 스스로를 자조적으로 낮추면서 쓰는 표현은 혐오 발언으로 분류하지 않도록 했다.
스마일게이트는 AI 센터가 구축한 악성댓글 및 혐오 발언 데이터셋이 다양한 디지털 영역에서 쓰일 것으로 기대하고 있다. 게임 관련 온라인 커뮤니티 댓글이나 비대면 고객 상담 서비스(챗봇), 대규모 여론조사 등이다. 데이터셋을 활용해 AI 기반 혐오 표현 ‘필터링 시스템’을 구축할 수 있다는 것이다.
AI 센터는 앞으로 연구개발(R&D)을 통해 혐오 표현 데이터셋을 추가할 예정이다. 디지털 서비스 안에서 더 정교하게 혐오 표현을 걸러낼 수 있는 기술 개발도 이어갈 계획이다.
한우진 스마일게이트 AI 센터장은 “디지털 서비스 안에서 인공지능 기술이 더 안전하게 활용되는 밑거름이 되길 희망하며 데이터셋을 공개하기로 결정했다”며 “그동안 진행해온 연구 결과와 노력이 사회에 이바지할 수 있도록 다양한 시도를 이어갈 것”이라고 말했다.
지민구기자 warum@donga.com
‘동양인이 수학을 한다’ 등 표현도
혐오 발언으로 AI가 걸러낼 수 있어
게임사 스마일게이트의 인공지능(AI)센터가 2년 6개월 간 악성댓글(악플)과 혐오 발언을 유형별로 수집한 대규모 ‘데이터셋’을 외부에 공개한다. 애플리케이션(앱), 게임 개발자가 데이터셋을 자유롭게 활용해 혐오 표현을 걸러내는 시스템을 쉽게 구축할 수 있도록 지원하려는 취지다.
스마일게이트는 20일 “최근 혐오 표현이 디지털 공간에서 증가하면서 사회적 문제로 이어질 수 있다는 점을 고려해 선제적으로 감지하고 대응할 수 있도록 데이터셋을 별도로 구축했다”고 밝혔다. 이 데이터셋은 조만간 스마일게이트 AI 센터 ‘깃허브 페이지’를 통해 공개한다.
스마일게이트 AI 센터와 스타트업 ‘언더스코어’는 2019년 1월부터 2021년 7월 초까지 포털 사이트와 온라인 커뮤니티에 올라온 다양한 게시글을 대상으로 혐오 표현을 수집했다. 수집한 데이터는 총 55만여 개로 이 중 1만 개를 추려 데이터셋으로 묶었다.
데이터셋에 포함된 혐오 표현은 여성 남성 성소수자 인종 연령 지역 종교 등 8개 대상으로 분류했다. 스마일게이트 AI 센터는 “사회적으로 차별과 억압을 받은 소수자 집단의 정체성을 대상으로 공격을 일삼는 표현을 혐오 발언으로 정의한다”고 구체적인 기준과 예시도 제시했다.
이 기준에 따르면 ‘동양인은 수학을 잘할 것’이라는 표현은 인종 혐오 표현으로 걸러질 수 있다. 특정 학생 집단을 비하하는 ‘급식충’도 연령 비하 표현으로 규정해 제한한다. 다만 이용자가 스스로를 자조적으로 낮추면서 쓰는 표현은 혐오 발언으로 분류하지 않도록 했다.
스마일게이트는 AI 센터가 구축한 악성댓글 및 혐오 발언 데이터셋이 다양한 디지털 영역에서 쓰일 것으로 기대하고 있다. 게임 관련 온라인 커뮤니티 댓글이나 비대면 고객 상담 서비스(챗봇), 대규모 여론조사 등이다. 데이터셋을 활용해 AI 기반 혐오 표현 ‘필터링 시스템’을 구축할 수 있다는 것이다.
AI 센터는 앞으로 연구개발(R&D)을 통해 혐오 표현 데이터셋을 추가할 예정이다. 디지털 서비스 안에서 더 정교하게 혐오 표현을 걸러낼 수 있는 기술 개발도 이어갈 계획이다.
한우진 스마일게이트 AI 센터장은 “디지털 서비스 안에서 인공지능 기술이 더 안전하게 활용되는 밑거름이 되길 희망하며 데이터셋을 공개하기로 결정했다”며 “그동안 진행해온 연구 결과와 노력이 사회에 이바지할 수 있도록 다양한 시도를 이어갈 것”이라고 말했다.
지민구기자 warum@donga.com
비즈N 탑기사
- 김숙 “내 건물서 거주+월세 수입 생활이 로망”
- “20억 받으면서 봉사라고?”…홍명보 감독 발언에 누리꾼 ‘부글’
- 세계적 유명 모델이 왜 삼성역·편의점에…“사랑해요 서울” 인증샷
- “사람 치아 나왔다” 5000원짜리 고기 월병 먹던 中여성 ‘경악’
- “모자로 안가려지네”…박보영, 청순한 미모로 힐링 여행
- 엄마 편의점 간 사이 ‘탕’…차에 둔 권총 만진 8살 사망
- 8시간 후 자수한 음주 뺑소니 가해자…한문철 “괘씸죄 적용해야”
- 교보생명, 광화문글판 가을편 새단장…윤동주 ‘자화상’
- 힐러리 “내가 못 깬 유리천장, 해리스가 깨뜨릴 것”
- ‘SNS 적극 활동’ 고현정…“너무 자주 올려 지겨우시실까봐 걱정”
- 14조 들인 에틸렌 생산 설비 착착… “신기술로 中 저가공세 깬다”
- K방산 영업익 200%대 증가 예고… 실적잔치 기대감
- 기업 실적 ‘최악’… 10곳중 4곳, 영업이익으로 이자도 못내
- ‘공사비 갈등’ 둔촌주공 재건축 25일 공사 재개.. 조합, 210억 증액 수용
- 넷플릭스發 ‘제작비 인플레’… 흥행작 제작사도 “쇼트폼 갈아탈 판”
- 올해 韓 경제 2.6% 성장 여부 안갯속…정부 “불확실성 커 수정 불가피”
- 금감원 압박에… 은행 대출규정 석달새 21회 강화
- 합병 앞둔 SK이노, 계열사 사장 3명 교체… 기술형 리더 발탁
- ‘美 공급망 재편 수혜’ 인도 주식에 올해 국내 자금 1.2조 몰려
- “롯데百의 미래 ‘타임빌라스’에 7조 투자, 국내 쇼핑몰 1위로”