‘챗GPT’가 말하기 시작했다…이미지 알아보고 분석까지
뉴시스
입력 2023-09-26 11:35 수정 2023-09-26 11:36
2주 안에 챗GPT 플러스·엔터프라이즈 사용자에게 제공
모바일 앱으로 챗GPT와 음성으로 대화
생성형 인공지능(AI) ‘챗GPT’가 이제 보고 듣고 말하기 시작했다.
제조사 오픈AI는 26일 공지를 통해 챗GP에서 새로운 음성 및 이미지 기능을 출시했다고 밝혔다.
음성 대화 기능은 애플 iOS 및 구글 안드로이드로 제공되며 이미지 인식 기능은 모든 플랫폼에서 사용할 수 있다. 이 새로운 기능은 앞으로 2주 안에 챗GPT 플러스 및 엔터프라이즈 사용자에게 배포할 예정이다.
새로운 음성 기능은 텍스트와 몇 초의 샘플 음성만으로 인간과 유사한 오디오를 생성할 수 있는 새로운 텍스트 음성 변환 모델에 의해 구동된다.
사용자는 모바일 앱에서 챗GPT의 5가지 음성 중 원하는 음성을 선택해 대화할 수 있다.
하지만 외신에 따르면 일부 전문가는 이러한 음성 합성 기술이 딥페이크 등 사이버 범죄에 악용될 수 있다고 우려한다.
오픈AI는 “음성 합성 기능은 악의적인 행위자가 공인을 사칭하거나 사기를 저지를 가능성과 같은 새로운 위험도 안고 있다”고 인정하면서도 “우리는 전문 성우와 협력해 각 목소리를 만들었다. 또한 오픈 소스 음성 인식 시스템인 위스퍼(Whisper)를 사용해 사용자가 말한 내용을 텍스트로 변환한다”고 설명했다.
또 오픈AI는 글로벌 음원 스트리밍 서비스 ‘스포티파이’와 협력해 자신의 목소리를 다른 언어로 번역해 말할 수 있는 방안도 검토하고 있다고 설명했다.
챗GPT 사용자는 사진을 찍거나 이미지를 올려 챗GPT와 텍스트로 대화를 나눌 수도 있다.
예를 들어 자전거 사진을 올린 뒤 “내 자전거 좌석을 내리는 것을 도와줘”라고 입력하면 챗GPT가 텍스트로 해결 방법을 제시한다. 업무에도 활용할 수 있다. 챗GPT가 복잡한 그래프 이미지 속에서 업무 관련 데이터를 분석해준다. 이미지의 특정 부분에 초점을 맞추려면 모바일 앱에서 그리기 도구를 사용할 수 있다.
이미지 이해는 멀티모달 GPT-3.5 및 GPT-4를 기반으로 한다. 이 모델은 사진, 스크린샷, 텍스트와 이미지가 모두 포함된 문서와 같은 광범위한 이미지에 언어 추론 기술을 적용했다.
오픈AI는 “우리의 목표는 안전하고 유익한 AGI(범용인공지능)를 구축하는 것”이라며 “새로운 도구를 점진적으로 제공하며 개선해 위험을 완화하고, 모든 사람이 미래엔 더 강력한 시스템을 사용할 수 있도록 해야 한다고 믿는다”고 설명했다.
[서울=뉴시스]
모바일 앱으로 챗GPT와 음성으로 대화
생성형 인공지능(AI) ‘챗GPT’가 이제 보고 듣고 말하기 시작했다.
제조사 오픈AI는 26일 공지를 통해 챗GP에서 새로운 음성 및 이미지 기능을 출시했다고 밝혔다.
음성 대화 기능은 애플 iOS 및 구글 안드로이드로 제공되며 이미지 인식 기능은 모든 플랫폼에서 사용할 수 있다. 이 새로운 기능은 앞으로 2주 안에 챗GPT 플러스 및 엔터프라이즈 사용자에게 배포할 예정이다.
새로운 음성 기능은 텍스트와 몇 초의 샘플 음성만으로 인간과 유사한 오디오를 생성할 수 있는 새로운 텍스트 음성 변환 모델에 의해 구동된다.
사용자는 모바일 앱에서 챗GPT의 5가지 음성 중 원하는 음성을 선택해 대화할 수 있다.
하지만 외신에 따르면 일부 전문가는 이러한 음성 합성 기술이 딥페이크 등 사이버 범죄에 악용될 수 있다고 우려한다.
오픈AI는 “음성 합성 기능은 악의적인 행위자가 공인을 사칭하거나 사기를 저지를 가능성과 같은 새로운 위험도 안고 있다”고 인정하면서도 “우리는 전문 성우와 협력해 각 목소리를 만들었다. 또한 오픈 소스 음성 인식 시스템인 위스퍼(Whisper)를 사용해 사용자가 말한 내용을 텍스트로 변환한다”고 설명했다.
또 오픈AI는 글로벌 음원 스트리밍 서비스 ‘스포티파이’와 협력해 자신의 목소리를 다른 언어로 번역해 말할 수 있는 방안도 검토하고 있다고 설명했다.
챗GPT 사용자는 사진을 찍거나 이미지를 올려 챗GPT와 텍스트로 대화를 나눌 수도 있다.
예를 들어 자전거 사진을 올린 뒤 “내 자전거 좌석을 내리는 것을 도와줘”라고 입력하면 챗GPT가 텍스트로 해결 방법을 제시한다. 업무에도 활용할 수 있다. 챗GPT가 복잡한 그래프 이미지 속에서 업무 관련 데이터를 분석해준다. 이미지의 특정 부분에 초점을 맞추려면 모바일 앱에서 그리기 도구를 사용할 수 있다.
이미지 이해는 멀티모달 GPT-3.5 및 GPT-4를 기반으로 한다. 이 모델은 사진, 스크린샷, 텍스트와 이미지가 모두 포함된 문서와 같은 광범위한 이미지에 언어 추론 기술을 적용했다.
오픈AI는 “우리의 목표는 안전하고 유익한 AGI(범용인공지능)를 구축하는 것”이라며 “새로운 도구를 점진적으로 제공하며 개선해 위험을 완화하고, 모든 사람이 미래엔 더 강력한 시스템을 사용할 수 있도록 해야 한다고 믿는다”고 설명했다.
[서울=뉴시스]
비즈N 탑기사
- 맹승지, 사랑니 빼고 예뻐졌다?…“원래 얼굴보다 괜찮은 듯”
- 배우 김승우, 리틀야구연맹 회장 출마 “새로운 도약”
- 아이유 광고모델 쓴 기업에 불똥?…“해지했다” vs “오히려 잘 팔릴듯”
- “구릿값 비싸다더니…” 밤마다 케이블 야금야금 훔친 60대
- “사람에게 먹힌 것”…英 청동기 유골서 학살·식인 흔적 발견
- god 손호영, 카페 알바 근황…훈훈 미소
- “지점토 씹는 맛” 투뿔 한우 육사시미 ‘충격’…“뿔 두개 달린 소 아니냐”
- ‘강북 햄버거 가게 돌진’ 70대 운전자, 불구속 송치
- 너무 생소해서? 한강 ‘한국어 호명’ 막판 무산된 까닭
- “수업 대신 탄핵 집회” 학생 메일에…“용기 내어 전진하길” 교수 답장
- 흑돼지인데 줄무늬가?…농진청, 유전자 진단 기술 털색 균일성 개선
- ‘중산층’ 신혼부부 無자녀 비중 가장 커…“복지 공백 줄여야”
- 내년 소비 더 위축…국민 53% “가계 지출 줄인다”
- 온누리상품권 환전액, 월 5000만원 제한…구매는 50만원
- 흔들리는 ‘富의 사다리’, 청년 18% 소득계층 하락
- 40대 미혼율, 20년 만에 男 6.7배·女 5.7배 늘었다
- “두 달 새 2억 하락”…서울 대장 아파트값도 ‘주춤’
- 작년 국민 1인당 개인소득 2554만원…서울 ‘2937만원’ 8년째 1위
- 절대 냉장 보관 말아야 할 식품 세 가지…“독성 물질 생성”
- ‘메모리 풍향계’ 마이크론 쇼크… 부진한 2분기 전망치에 반도체 주가 줄줄이 하락