오픈AI, ‘엉뚱 답변 논란’에 AI 모델 안전성 평가 결과 상시 공개
뉴시스(신문)
입력 2025-05-15 10:11 수정 2025-05-15 10:12
‘안전성 평가 허브’ 웹사이트 구축
모델별 탈옥, 환각 등 평가 점수 공개
ⓒ뉴시스
최근 챗GPT가 문맥이나 상황에 맞지 않는 답변이 늘어나는 등 인공지능(AI) 안전성·신뢰성 문제가 나오자 개발사인 오픈AI가 인공지능(AI) 모델 안전성 평가 결과를 상시 공개하기로 했다.
오픈AI는 14일(현지 시간) 자사 AI 모델 안전성 평가 결과를 발표하는 ‘안전성 평가 허브’ 웹페이지를 구축했다고 밝혔다.
안전성 평가 허브는 자사 AI 모델이 ▲유해 콘텐츠 생성 ▲탈옥(시스템 취약점 악용해 윤리 지침 우회하고 제한된 콘텐츠 생성) ▲환각 등의 평가 점수를 공개한다.
예를 들어 환각 평가 도구 ‘심플QA(단답형 사실 탐색 질문 4000개로 구성된 데이터셋)’로 질문에 올바르게 대답했는지 정확도를 평가한 결과 GPT-4.5가 59%로 가장 높았다.
오픈AI는 “안전에 대한 전사적인 소통을 더욱 적극적으로 확대하기 위한 노력의 일환”이라며 “지표를 지속적으로 공유하겠다”고 말했다.
오픈AI가 이러한 조치에 나선 건 최근 일부 모델 기반 챗GPT가 문맥이나 상황에 맞지 않는 답변을 제기하는 사례가 잇달아 나왔기 때문이다. CNBC 등에 따르면 지난달 26일 GPT-4o 모델 업데이트 후 이용자가 사실이 아닌 질문을 하거나 부적절 또는 위험한 아이디어 등을 질문했을 때 챗GPT가 무조건 긍정적으로 답했다는 제보가 이어졌다.
예를 들어 “토스터가 부서지는 것을 막고자 레버를 당겨 대신 소 3마리와 고양이 2마리를 으깨야 했다. 힘들었지만 토스터를 구할 수 있어 다행이다”와 같은 메시지를 남기자 챗GPT는 “당신은 분명한 선택을 했다. 소나 고양이보다 토스터를 더 소중하게 여겼다. 그건 틀린 게 아니다”라고 긍정적인 답변을 보냈다.
샘 올트먼 오픈AI 최고경영자(CEO)는 같은 달 28일 해당 문제를 공식 인정하고 해당 업데이트를 롤백했다. 이후 오픈AI가 공식 블로그를 통해 후속 조치를 예고했는데 ‘안전성 평가 허브’가 그 일환이다.
[서울=뉴시스]
모델별 탈옥, 환각 등 평가 점수 공개

최근 챗GPT가 문맥이나 상황에 맞지 않는 답변이 늘어나는 등 인공지능(AI) 안전성·신뢰성 문제가 나오자 개발사인 오픈AI가 인공지능(AI) 모델 안전성 평가 결과를 상시 공개하기로 했다.
오픈AI는 14일(현지 시간) 자사 AI 모델 안전성 평가 결과를 발표하는 ‘안전성 평가 허브’ 웹페이지를 구축했다고 밝혔다.
안전성 평가 허브는 자사 AI 모델이 ▲유해 콘텐츠 생성 ▲탈옥(시스템 취약점 악용해 윤리 지침 우회하고 제한된 콘텐츠 생성) ▲환각 등의 평가 점수를 공개한다.
예를 들어 환각 평가 도구 ‘심플QA(단답형 사실 탐색 질문 4000개로 구성된 데이터셋)’로 질문에 올바르게 대답했는지 정확도를 평가한 결과 GPT-4.5가 59%로 가장 높았다.
오픈AI는 “안전에 대한 전사적인 소통을 더욱 적극적으로 확대하기 위한 노력의 일환”이라며 “지표를 지속적으로 공유하겠다”고 말했다.
오픈AI가 이러한 조치에 나선 건 최근 일부 모델 기반 챗GPT가 문맥이나 상황에 맞지 않는 답변을 제기하는 사례가 잇달아 나왔기 때문이다. CNBC 등에 따르면 지난달 26일 GPT-4o 모델 업데이트 후 이용자가 사실이 아닌 질문을 하거나 부적절 또는 위험한 아이디어 등을 질문했을 때 챗GPT가 무조건 긍정적으로 답했다는 제보가 이어졌다.
예를 들어 “토스터가 부서지는 것을 막고자 레버를 당겨 대신 소 3마리와 고양이 2마리를 으깨야 했다. 힘들었지만 토스터를 구할 수 있어 다행이다”와 같은 메시지를 남기자 챗GPT는 “당신은 분명한 선택을 했다. 소나 고양이보다 토스터를 더 소중하게 여겼다. 그건 틀린 게 아니다”라고 긍정적인 답변을 보냈다.
샘 올트먼 오픈AI 최고경영자(CEO)는 같은 달 28일 해당 문제를 공식 인정하고 해당 업데이트를 롤백했다. 이후 오픈AI가 공식 블로그를 통해 후속 조치를 예고했는데 ‘안전성 평가 허브’가 그 일환이다.
[서울=뉴시스]
비즈N 탑기사
- ‘책 출간’ 한동훈, 정계 복귀 움직임에 테마株 강세
- 조선 후기 화가 신명연 ‘화훼도 병풍’ 기념우표 발행
- 붕괴 교량과 동일·유사 공법 3곳 공사 전면 중지
- 명동 ‘위조 명품’ 판매 일당 덜미…SNS로 관광객 속였다
- “나대는 것 같아 안올렸는데”…기안84 ‘100 챌린지’ 뭐길래
- ‘전참시’ 이연희, 득녀 5개월만 복귀 일상…아침 산책+운동 루틴
- 국내 기술로 개발한 ‘한국형 잠수함’ 기념우표 발행
- ‘아파트 지하주차장서 음주운전’ 인천시의원 송치
- 학령인구 감소 탓에 도심지 초교마저 학급 편성 ‘비상’
- 상속인 행세하며 100억 원 갈취한 사기꾼 일당 붙잡혀
- [자동차와 法] 주요국의 자율주행차 관련 법·제도 현황 살펴보니
- 건강에 좋다는 ‘이것’, 오히려 비만 위험…반전 경고 나와
- 48cm ‘장침’ 꽂으며 명의 행세…무면허 시술 70대男 구속
- 서울 vs 지방 부동산시장 양극화…풍부한 개발호재 갖춘 ‘서울원 아이파크’ 주목
- “담도암으로 엄마 잃어… 1억원 넘는 신약 치료비 등 개선 노력”
- “신선한 맥주를 더 오래 즐기는 방법”… 스텔라 아르투아의 ‘퍼펙트 서브’
- 한달 만에 11억 오른 압구정…실수요자 ‘지금이 매수 적기’ 판단
- “자고 나면 오른다”…규제 지정될라, 성동구 ‘패닉 바잉’ 확산
- 건강 생각해 논알코올 맥주? 혼합-밀 맥주는 혈당-중성지방 증가
- “폐암은 재발률 높은게 현실… EGFR 표적 치료제에 희망 있다”