오픈AI, ‘엉뚱 답변 논란’에 AI 모델 안전성 평가 결과 상시 공개
뉴시스(신문)
입력 2025-05-15 10:11 수정 2025-05-15 10:12
‘안전성 평가 허브’ 웹사이트 구축
모델별 탈옥, 환각 등 평가 점수 공개
ⓒ뉴시스
최근 챗GPT가 문맥이나 상황에 맞지 않는 답변이 늘어나는 등 인공지능(AI) 안전성·신뢰성 문제가 나오자 개발사인 오픈AI가 인공지능(AI) 모델 안전성 평가 결과를 상시 공개하기로 했다.
오픈AI는 14일(현지 시간) 자사 AI 모델 안전성 평가 결과를 발표하는 ‘안전성 평가 허브’ 웹페이지를 구축했다고 밝혔다.
안전성 평가 허브는 자사 AI 모델이 ▲유해 콘텐츠 생성 ▲탈옥(시스템 취약점 악용해 윤리 지침 우회하고 제한된 콘텐츠 생성) ▲환각 등의 평가 점수를 공개한다.
예를 들어 환각 평가 도구 ‘심플QA(단답형 사실 탐색 질문 4000개로 구성된 데이터셋)’로 질문에 올바르게 대답했는지 정확도를 평가한 결과 GPT-4.5가 59%로 가장 높았다.
오픈AI는 “안전에 대한 전사적인 소통을 더욱 적극적으로 확대하기 위한 노력의 일환”이라며 “지표를 지속적으로 공유하겠다”고 말했다.
오픈AI가 이러한 조치에 나선 건 최근 일부 모델 기반 챗GPT가 문맥이나 상황에 맞지 않는 답변을 제기하는 사례가 잇달아 나왔기 때문이다. CNBC 등에 따르면 지난달 26일 GPT-4o 모델 업데이트 후 이용자가 사실이 아닌 질문을 하거나 부적절 또는 위험한 아이디어 등을 질문했을 때 챗GPT가 무조건 긍정적으로 답했다는 제보가 이어졌다.
예를 들어 “토스터가 부서지는 것을 막고자 레버를 당겨 대신 소 3마리와 고양이 2마리를 으깨야 했다. 힘들었지만 토스터를 구할 수 있어 다행이다”와 같은 메시지를 남기자 챗GPT는 “당신은 분명한 선택을 했다. 소나 고양이보다 토스터를 더 소중하게 여겼다. 그건 틀린 게 아니다”라고 긍정적인 답변을 보냈다.
샘 올트먼 오픈AI 최고경영자(CEO)는 같은 달 28일 해당 문제를 공식 인정하고 해당 업데이트를 롤백했다. 이후 오픈AI가 공식 블로그를 통해 후속 조치를 예고했는데 ‘안전성 평가 허브’가 그 일환이다.
[서울=뉴시스]
모델별 탈옥, 환각 등 평가 점수 공개
ⓒ뉴시스최근 챗GPT가 문맥이나 상황에 맞지 않는 답변이 늘어나는 등 인공지능(AI) 안전성·신뢰성 문제가 나오자 개발사인 오픈AI가 인공지능(AI) 모델 안전성 평가 결과를 상시 공개하기로 했다.
오픈AI는 14일(현지 시간) 자사 AI 모델 안전성 평가 결과를 발표하는 ‘안전성 평가 허브’ 웹페이지를 구축했다고 밝혔다.
안전성 평가 허브는 자사 AI 모델이 ▲유해 콘텐츠 생성 ▲탈옥(시스템 취약점 악용해 윤리 지침 우회하고 제한된 콘텐츠 생성) ▲환각 등의 평가 점수를 공개한다.
예를 들어 환각 평가 도구 ‘심플QA(단답형 사실 탐색 질문 4000개로 구성된 데이터셋)’로 질문에 올바르게 대답했는지 정확도를 평가한 결과 GPT-4.5가 59%로 가장 높았다.
오픈AI는 “안전에 대한 전사적인 소통을 더욱 적극적으로 확대하기 위한 노력의 일환”이라며 “지표를 지속적으로 공유하겠다”고 말했다.
오픈AI가 이러한 조치에 나선 건 최근 일부 모델 기반 챗GPT가 문맥이나 상황에 맞지 않는 답변을 제기하는 사례가 잇달아 나왔기 때문이다. CNBC 등에 따르면 지난달 26일 GPT-4o 모델 업데이트 후 이용자가 사실이 아닌 질문을 하거나 부적절 또는 위험한 아이디어 등을 질문했을 때 챗GPT가 무조건 긍정적으로 답했다는 제보가 이어졌다.
예를 들어 “토스터가 부서지는 것을 막고자 레버를 당겨 대신 소 3마리와 고양이 2마리를 으깨야 했다. 힘들었지만 토스터를 구할 수 있어 다행이다”와 같은 메시지를 남기자 챗GPT는 “당신은 분명한 선택을 했다. 소나 고양이보다 토스터를 더 소중하게 여겼다. 그건 틀린 게 아니다”라고 긍정적인 답변을 보냈다.
샘 올트먼 오픈AI 최고경영자(CEO)는 같은 달 28일 해당 문제를 공식 인정하고 해당 업데이트를 롤백했다. 이후 오픈AI가 공식 블로그를 통해 후속 조치를 예고했는데 ‘안전성 평가 허브’가 그 일환이다.
[서울=뉴시스]
비즈N 탑기사
‘책 출간’ 한동훈, 정계 복귀 움직임에 테마株 강세
조선 후기 화가 신명연 ‘화훼도 병풍’ 기념우표 발행
붕괴 교량과 동일·유사 공법 3곳 공사 전면 중지
명동 ‘위조 명품’ 판매 일당 덜미…SNS로 관광객 속였다
“나대는 것 같아 안올렸는데”…기안84 ‘100 챌린지’ 뭐길래- ‘전참시’ 이연희, 득녀 5개월만 복귀 일상…아침 산책+운동 루틴
- 국내 기술로 개발한 ‘한국형 잠수함’ 기념우표 발행
- ‘아파트 지하주차장서 음주운전’ 인천시의원 송치
- 학령인구 감소 탓에 도심지 초교마저 학급 편성 ‘비상’
- 상속인 행세하며 100억 원 갈취한 사기꾼 일당 붙잡혀
송지효 씨제스와 결별, 백창주 대표와는 2년 전 이미 결별…‘앞으로의 활동은?’
은값 폭등에 60% 수익 낸 개미, 익절 때 왔나…“○○ 해소 땐 급락 위험”
대기업 일자리도 마른다… 작년 8만개 줄어 역대 최대 감소
‘위고비’ 맞자 술·담배 지출 줄었다…비만약, 생활습관 개선 효과
영유아 위협하는 ‘RSV’ 입원환자 증가…증상 세심히 살펴야- 다크 초콜릿서 ‘노화 늦추는’ 성분 발견…“많이 먹으란 얘긴 아냐”
- 수입물가 1년 7개월 만에 최대 상승…환율 급등 영향에 5개월 연속↑
- 美 3연속 금리 인하, 韓銀은 1월 동결 가능성
- 李, 쿠팡 겨냥 “국민 피해 주면 ‘회사 망한다’ 생각 들게 해야”
- 큰 무대만 서면 실수하는 나… ‘금메달 마인드’가 필요해[베스트 닥터의 베스트 건강법]








