오픈AI, ‘엉뚱 답변 논란’에 AI 모델 안전성 평가 결과 상시 공개
뉴시스(신문)
입력 2025-05-15 10:11 수정 2025-05-15 10:12
‘안전성 평가 허브’ 웹사이트 구축
모델별 탈옥, 환각 등 평가 점수 공개
ⓒ뉴시스
최근 챗GPT가 문맥이나 상황에 맞지 않는 답변이 늘어나는 등 인공지능(AI) 안전성·신뢰성 문제가 나오자 개발사인 오픈AI가 인공지능(AI) 모델 안전성 평가 결과를 상시 공개하기로 했다.
오픈AI는 14일(현지 시간) 자사 AI 모델 안전성 평가 결과를 발표하는 ‘안전성 평가 허브’ 웹페이지를 구축했다고 밝혔다.
안전성 평가 허브는 자사 AI 모델이 ▲유해 콘텐츠 생성 ▲탈옥(시스템 취약점 악용해 윤리 지침 우회하고 제한된 콘텐츠 생성) ▲환각 등의 평가 점수를 공개한다.
예를 들어 환각 평가 도구 ‘심플QA(단답형 사실 탐색 질문 4000개로 구성된 데이터셋)’로 질문에 올바르게 대답했는지 정확도를 평가한 결과 GPT-4.5가 59%로 가장 높았다.
오픈AI는 “안전에 대한 전사적인 소통을 더욱 적극적으로 확대하기 위한 노력의 일환”이라며 “지표를 지속적으로 공유하겠다”고 말했다.
오픈AI가 이러한 조치에 나선 건 최근 일부 모델 기반 챗GPT가 문맥이나 상황에 맞지 않는 답변을 제기하는 사례가 잇달아 나왔기 때문이다. CNBC 등에 따르면 지난달 26일 GPT-4o 모델 업데이트 후 이용자가 사실이 아닌 질문을 하거나 부적절 또는 위험한 아이디어 등을 질문했을 때 챗GPT가 무조건 긍정적으로 답했다는 제보가 이어졌다.
예를 들어 “토스터가 부서지는 것을 막고자 레버를 당겨 대신 소 3마리와 고양이 2마리를 으깨야 했다. 힘들었지만 토스터를 구할 수 있어 다행이다”와 같은 메시지를 남기자 챗GPT는 “당신은 분명한 선택을 했다. 소나 고양이보다 토스터를 더 소중하게 여겼다. 그건 틀린 게 아니다”라고 긍정적인 답변을 보냈다.
샘 올트먼 오픈AI 최고경영자(CEO)는 같은 달 28일 해당 문제를 공식 인정하고 해당 업데이트를 롤백했다. 이후 오픈AI가 공식 블로그를 통해 후속 조치를 예고했는데 ‘안전성 평가 허브’가 그 일환이다.
[서울=뉴시스]
모델별 탈옥, 환각 등 평가 점수 공개
ⓒ뉴시스최근 챗GPT가 문맥이나 상황에 맞지 않는 답변이 늘어나는 등 인공지능(AI) 안전성·신뢰성 문제가 나오자 개발사인 오픈AI가 인공지능(AI) 모델 안전성 평가 결과를 상시 공개하기로 했다.
오픈AI는 14일(현지 시간) 자사 AI 모델 안전성 평가 결과를 발표하는 ‘안전성 평가 허브’ 웹페이지를 구축했다고 밝혔다.
안전성 평가 허브는 자사 AI 모델이 ▲유해 콘텐츠 생성 ▲탈옥(시스템 취약점 악용해 윤리 지침 우회하고 제한된 콘텐츠 생성) ▲환각 등의 평가 점수를 공개한다.
예를 들어 환각 평가 도구 ‘심플QA(단답형 사실 탐색 질문 4000개로 구성된 데이터셋)’로 질문에 올바르게 대답했는지 정확도를 평가한 결과 GPT-4.5가 59%로 가장 높았다.
오픈AI는 “안전에 대한 전사적인 소통을 더욱 적극적으로 확대하기 위한 노력의 일환”이라며 “지표를 지속적으로 공유하겠다”고 말했다.
오픈AI가 이러한 조치에 나선 건 최근 일부 모델 기반 챗GPT가 문맥이나 상황에 맞지 않는 답변을 제기하는 사례가 잇달아 나왔기 때문이다. CNBC 등에 따르면 지난달 26일 GPT-4o 모델 업데이트 후 이용자가 사실이 아닌 질문을 하거나 부적절 또는 위험한 아이디어 등을 질문했을 때 챗GPT가 무조건 긍정적으로 답했다는 제보가 이어졌다.
예를 들어 “토스터가 부서지는 것을 막고자 레버를 당겨 대신 소 3마리와 고양이 2마리를 으깨야 했다. 힘들었지만 토스터를 구할 수 있어 다행이다”와 같은 메시지를 남기자 챗GPT는 “당신은 분명한 선택을 했다. 소나 고양이보다 토스터를 더 소중하게 여겼다. 그건 틀린 게 아니다”라고 긍정적인 답변을 보냈다.
샘 올트먼 오픈AI 최고경영자(CEO)는 같은 달 28일 해당 문제를 공식 인정하고 해당 업데이트를 롤백했다. 이후 오픈AI가 공식 블로그를 통해 후속 조치를 예고했는데 ‘안전성 평가 허브’가 그 일환이다.
[서울=뉴시스]
비즈N 탑기사
‘책 출간’ 한동훈, 정계 복귀 움직임에 테마株 강세
조선 후기 화가 신명연 ‘화훼도 병풍’ 기념우표 발행
붕괴 교량과 동일·유사 공법 3곳 공사 전면 중지
명동 ‘위조 명품’ 판매 일당 덜미…SNS로 관광객 속였다
“나대는 것 같아 안올렸는데”…기안84 ‘100 챌린지’ 뭐길래- ‘전참시’ 이연희, 득녀 5개월만 복귀 일상…아침 산책+운동 루틴
- 국내 기술로 개발한 ‘한국형 잠수함’ 기념우표 발행
- ‘아파트 지하주차장서 음주운전’ 인천시의원 송치
- 학령인구 감소 탓에 도심지 초교마저 학급 편성 ‘비상’
- 상속인 행세하며 100억 원 갈취한 사기꾼 일당 붙잡혀
“붉은 고기 좋아하면 주의”…‘이것’ 주로 50대 이후 발생
“작년 1600곳 문 닫았다”…편의점, 36년만의 첫 감소 ‘생존경쟁’
서울 아파트 매물 하루새 2% 늘어 6만건 육박
삼성전자, 시가총액 1000조원 넘었다
연봉 1억에 1.5억 더?…SK하이닉스 2964% 성과급 지급- “코인 급락에도 꾸준히 모으자”…거래소 ‘적립식 투자’ 인기
- 환율 방어에 외환보유액 두 달째 감소…1월 4259억 달러
- “폰으로 동계올림픽 생중계” 삼성 갤S25 울트라, 개막식 찍는다
- 李 “중과세 유예 종료 4년전 예고, 대비 안한 다주택자 책임”
- 다주택, 5월9일까지 계약땐 6개월 중과세 면제








