오픈AI, ‘엉뚱 답변 논란’에 AI 모델 안전성 평가 결과 상시 공개
뉴시스(신문)
입력 2025-05-15 10:11 수정 2025-05-15 10:12
‘안전성 평가 허브’ 웹사이트 구축
모델별 탈옥, 환각 등 평가 점수 공개
ⓒ뉴시스
최근 챗GPT가 문맥이나 상황에 맞지 않는 답변이 늘어나는 등 인공지능(AI) 안전성·신뢰성 문제가 나오자 개발사인 오픈AI가 인공지능(AI) 모델 안전성 평가 결과를 상시 공개하기로 했다.
오픈AI는 14일(현지 시간) 자사 AI 모델 안전성 평가 결과를 발표하는 ‘안전성 평가 허브’ 웹페이지를 구축했다고 밝혔다.
안전성 평가 허브는 자사 AI 모델이 ▲유해 콘텐츠 생성 ▲탈옥(시스템 취약점 악용해 윤리 지침 우회하고 제한된 콘텐츠 생성) ▲환각 등의 평가 점수를 공개한다.
예를 들어 환각 평가 도구 ‘심플QA(단답형 사실 탐색 질문 4000개로 구성된 데이터셋)’로 질문에 올바르게 대답했는지 정확도를 평가한 결과 GPT-4.5가 59%로 가장 높았다.
오픈AI는 “안전에 대한 전사적인 소통을 더욱 적극적으로 확대하기 위한 노력의 일환”이라며 “지표를 지속적으로 공유하겠다”고 말했다.
오픈AI가 이러한 조치에 나선 건 최근 일부 모델 기반 챗GPT가 문맥이나 상황에 맞지 않는 답변을 제기하는 사례가 잇달아 나왔기 때문이다. CNBC 등에 따르면 지난달 26일 GPT-4o 모델 업데이트 후 이용자가 사실이 아닌 질문을 하거나 부적절 또는 위험한 아이디어 등을 질문했을 때 챗GPT가 무조건 긍정적으로 답했다는 제보가 이어졌다.
예를 들어 “토스터가 부서지는 것을 막고자 레버를 당겨 대신 소 3마리와 고양이 2마리를 으깨야 했다. 힘들었지만 토스터를 구할 수 있어 다행이다”와 같은 메시지를 남기자 챗GPT는 “당신은 분명한 선택을 했다. 소나 고양이보다 토스터를 더 소중하게 여겼다. 그건 틀린 게 아니다”라고 긍정적인 답변을 보냈다.
샘 올트먼 오픈AI 최고경영자(CEO)는 같은 달 28일 해당 문제를 공식 인정하고 해당 업데이트를 롤백했다. 이후 오픈AI가 공식 블로그를 통해 후속 조치를 예고했는데 ‘안전성 평가 허브’가 그 일환이다.
[서울=뉴시스]
모델별 탈옥, 환각 등 평가 점수 공개

최근 챗GPT가 문맥이나 상황에 맞지 않는 답변이 늘어나는 등 인공지능(AI) 안전성·신뢰성 문제가 나오자 개발사인 오픈AI가 인공지능(AI) 모델 안전성 평가 결과를 상시 공개하기로 했다.
오픈AI는 14일(현지 시간) 자사 AI 모델 안전성 평가 결과를 발표하는 ‘안전성 평가 허브’ 웹페이지를 구축했다고 밝혔다.
안전성 평가 허브는 자사 AI 모델이 ▲유해 콘텐츠 생성 ▲탈옥(시스템 취약점 악용해 윤리 지침 우회하고 제한된 콘텐츠 생성) ▲환각 등의 평가 점수를 공개한다.
예를 들어 환각 평가 도구 ‘심플QA(단답형 사실 탐색 질문 4000개로 구성된 데이터셋)’로 질문에 올바르게 대답했는지 정확도를 평가한 결과 GPT-4.5가 59%로 가장 높았다.
오픈AI는 “안전에 대한 전사적인 소통을 더욱 적극적으로 확대하기 위한 노력의 일환”이라며 “지표를 지속적으로 공유하겠다”고 말했다.
오픈AI가 이러한 조치에 나선 건 최근 일부 모델 기반 챗GPT가 문맥이나 상황에 맞지 않는 답변을 제기하는 사례가 잇달아 나왔기 때문이다. CNBC 등에 따르면 지난달 26일 GPT-4o 모델 업데이트 후 이용자가 사실이 아닌 질문을 하거나 부적절 또는 위험한 아이디어 등을 질문했을 때 챗GPT가 무조건 긍정적으로 답했다는 제보가 이어졌다.
예를 들어 “토스터가 부서지는 것을 막고자 레버를 당겨 대신 소 3마리와 고양이 2마리를 으깨야 했다. 힘들었지만 토스터를 구할 수 있어 다행이다”와 같은 메시지를 남기자 챗GPT는 “당신은 분명한 선택을 했다. 소나 고양이보다 토스터를 더 소중하게 여겼다. 그건 틀린 게 아니다”라고 긍정적인 답변을 보냈다.
샘 올트먼 오픈AI 최고경영자(CEO)는 같은 달 28일 해당 문제를 공식 인정하고 해당 업데이트를 롤백했다. 이후 오픈AI가 공식 블로그를 통해 후속 조치를 예고했는데 ‘안전성 평가 허브’가 그 일환이다.
[서울=뉴시스]
비즈N 탑기사
- ‘책 출간’ 한동훈, 정계 복귀 움직임에 테마株 강세
- 조선 후기 화가 신명연 ‘화훼도 병풍’ 기념우표 발행
- 붕괴 교량과 동일·유사 공법 3곳 공사 전면 중지
- 명동 ‘위조 명품’ 판매 일당 덜미…SNS로 관광객 속였다
- “나대는 것 같아 안올렸는데”…기안84 ‘100 챌린지’ 뭐길래
- ‘전참시’ 이연희, 득녀 5개월만 복귀 일상…아침 산책+운동 루틴
- 국내 기술로 개발한 ‘한국형 잠수함’ 기념우표 발행
- ‘아파트 지하주차장서 음주운전’ 인천시의원 송치
- 학령인구 감소 탓에 도심지 초교마저 학급 편성 ‘비상’
- 상속인 행세하며 100억 원 갈취한 사기꾼 일당 붙잡혀
- 악성 미분양 11년8개월 만에 최대…“지방 주택공급 확대 신중해야”
- 한국 부자 이렇게 많았나…백만장자 130만명 돌파, 세계 순위는?
- “몸이 이상해요” 몇 시간뒤 숨진 美 14세 소년, ‘이 균’ 감염 때문이었다
- 내달 1차 15만∼40만원씩… 2차땐 고소득층 빼고 10만원 지급
- 휴머노이드 AI로봇 신기해요
- “증여한 주식 돌려주거라”… 콜마 경영권 분쟁 父子 대결로 확전
- 10억 이상 차익 기대…과천 신희타 ‘줍줍’ 13.8만명 몰렸다
- 민생지원금 지급 논의에 기대감 ‘솔솔’…외식·주류업계 “좀 나아지려나”
- ‘만년 2등’ SK하이닉스 시총 180조 돌파…삼성전자 시총 절반 넘어섰다
- “자고 나면 오른다”…규제 지정될라, 성동구 ‘패닉 바잉’ 확산