오픈AI, ‘엉뚱 답변 논란’에 AI 모델 안전성 평가 결과 상시 공개
뉴시스(신문)
입력 2025-05-15 10:11 수정 2025-05-15 10:12
‘안전성 평가 허브’ 웹사이트 구축
모델별 탈옥, 환각 등 평가 점수 공개
ⓒ뉴시스
최근 챗GPT가 문맥이나 상황에 맞지 않는 답변이 늘어나는 등 인공지능(AI) 안전성·신뢰성 문제가 나오자 개발사인 오픈AI가 인공지능(AI) 모델 안전성 평가 결과를 상시 공개하기로 했다.
오픈AI는 14일(현지 시간) 자사 AI 모델 안전성 평가 결과를 발표하는 ‘안전성 평가 허브’ 웹페이지를 구축했다고 밝혔다.
안전성 평가 허브는 자사 AI 모델이 ▲유해 콘텐츠 생성 ▲탈옥(시스템 취약점 악용해 윤리 지침 우회하고 제한된 콘텐츠 생성) ▲환각 등의 평가 점수를 공개한다.
예를 들어 환각 평가 도구 ‘심플QA(단답형 사실 탐색 질문 4000개로 구성된 데이터셋)’로 질문에 올바르게 대답했는지 정확도를 평가한 결과 GPT-4.5가 59%로 가장 높았다.
오픈AI는 “안전에 대한 전사적인 소통을 더욱 적극적으로 확대하기 위한 노력의 일환”이라며 “지표를 지속적으로 공유하겠다”고 말했다.
오픈AI가 이러한 조치에 나선 건 최근 일부 모델 기반 챗GPT가 문맥이나 상황에 맞지 않는 답변을 제기하는 사례가 잇달아 나왔기 때문이다. CNBC 등에 따르면 지난달 26일 GPT-4o 모델 업데이트 후 이용자가 사실이 아닌 질문을 하거나 부적절 또는 위험한 아이디어 등을 질문했을 때 챗GPT가 무조건 긍정적으로 답했다는 제보가 이어졌다.
예를 들어 “토스터가 부서지는 것을 막고자 레버를 당겨 대신 소 3마리와 고양이 2마리를 으깨야 했다. 힘들었지만 토스터를 구할 수 있어 다행이다”와 같은 메시지를 남기자 챗GPT는 “당신은 분명한 선택을 했다. 소나 고양이보다 토스터를 더 소중하게 여겼다. 그건 틀린 게 아니다”라고 긍정적인 답변을 보냈다.
샘 올트먼 오픈AI 최고경영자(CEO)는 같은 달 28일 해당 문제를 공식 인정하고 해당 업데이트를 롤백했다. 이후 오픈AI가 공식 블로그를 통해 후속 조치를 예고했는데 ‘안전성 평가 허브’가 그 일환이다.
[서울=뉴시스]
모델별 탈옥, 환각 등 평가 점수 공개
ⓒ뉴시스최근 챗GPT가 문맥이나 상황에 맞지 않는 답변이 늘어나는 등 인공지능(AI) 안전성·신뢰성 문제가 나오자 개발사인 오픈AI가 인공지능(AI) 모델 안전성 평가 결과를 상시 공개하기로 했다.
오픈AI는 14일(현지 시간) 자사 AI 모델 안전성 평가 결과를 발표하는 ‘안전성 평가 허브’ 웹페이지를 구축했다고 밝혔다.
안전성 평가 허브는 자사 AI 모델이 ▲유해 콘텐츠 생성 ▲탈옥(시스템 취약점 악용해 윤리 지침 우회하고 제한된 콘텐츠 생성) ▲환각 등의 평가 점수를 공개한다.
예를 들어 환각 평가 도구 ‘심플QA(단답형 사실 탐색 질문 4000개로 구성된 데이터셋)’로 질문에 올바르게 대답했는지 정확도를 평가한 결과 GPT-4.5가 59%로 가장 높았다.
오픈AI는 “안전에 대한 전사적인 소통을 더욱 적극적으로 확대하기 위한 노력의 일환”이라며 “지표를 지속적으로 공유하겠다”고 말했다.
오픈AI가 이러한 조치에 나선 건 최근 일부 모델 기반 챗GPT가 문맥이나 상황에 맞지 않는 답변을 제기하는 사례가 잇달아 나왔기 때문이다. CNBC 등에 따르면 지난달 26일 GPT-4o 모델 업데이트 후 이용자가 사실이 아닌 질문을 하거나 부적절 또는 위험한 아이디어 등을 질문했을 때 챗GPT가 무조건 긍정적으로 답했다는 제보가 이어졌다.
예를 들어 “토스터가 부서지는 것을 막고자 레버를 당겨 대신 소 3마리와 고양이 2마리를 으깨야 했다. 힘들었지만 토스터를 구할 수 있어 다행이다”와 같은 메시지를 남기자 챗GPT는 “당신은 분명한 선택을 했다. 소나 고양이보다 토스터를 더 소중하게 여겼다. 그건 틀린 게 아니다”라고 긍정적인 답변을 보냈다.
샘 올트먼 오픈AI 최고경영자(CEO)는 같은 달 28일 해당 문제를 공식 인정하고 해당 업데이트를 롤백했다. 이후 오픈AI가 공식 블로그를 통해 후속 조치를 예고했는데 ‘안전성 평가 허브’가 그 일환이다.
[서울=뉴시스]
비즈N 탑기사
‘책 출간’ 한동훈, 정계 복귀 움직임에 테마株 강세
조선 후기 화가 신명연 ‘화훼도 병풍’ 기념우표 발행
붕괴 교량과 동일·유사 공법 3곳 공사 전면 중지
명동 ‘위조 명품’ 판매 일당 덜미…SNS로 관광객 속였다
“나대는 것 같아 안올렸는데”…기안84 ‘100 챌린지’ 뭐길래- ‘전참시’ 이연희, 득녀 5개월만 복귀 일상…아침 산책+운동 루틴
- 국내 기술로 개발한 ‘한국형 잠수함’ 기념우표 발행
- ‘아파트 지하주차장서 음주운전’ 인천시의원 송치
- 학령인구 감소 탓에 도심지 초교마저 학급 편성 ‘비상’
- 상속인 행세하며 100억 원 갈취한 사기꾼 일당 붙잡혀
“참치보다 비싸다”…겨울 별미 대방어 값 치솟은 이유는?
방산기업 LIG넥스원의 도전… 미사일 넘어 위성도 진출
月 6만2000원에 대중교통 무제한… ‘모두의 카드’ 시행
“월급 4분의 1 월세로 낸다”…천정 뚫은 월세에 임차인 ‘한숨’
“오라클, 14조원대 오픈AI 전용 데이터센터 자금조달 난항”- 美하원 “韓디지털 규제, 빅테크 겨눠… 무역법으로 대응해야”
- “케데헌처럼 세계가 부를 ‘한국적 캐럴’도 나와야죠”
- 재산 995조원 머스크 첫 ‘조만장자’ 초읽기
- “불닭·케데헌 타고 날았다”…K-라면 수출 2조 돌파 ‘11년 연속 최고’
- 통화량 역대최고… “고환율 원흉” vs “과도한 분석”








