‘챗GPT’가 말하기 시작했다…이미지 알아보고 분석까지
뉴시스
입력 2023-09-26 11:35 수정 2023-09-26 11:36
2주 안에 챗GPT 플러스·엔터프라이즈 사용자에게 제공
모바일 앱으로 챗GPT와 음성으로 대화

생성형 인공지능(AI) ‘챗GPT’가 이제 보고 듣고 말하기 시작했다.
제조사 오픈AI는 26일 공지를 통해 챗GP에서 새로운 음성 및 이미지 기능을 출시했다고 밝혔다.
음성 대화 기능은 애플 iOS 및 구글 안드로이드로 제공되며 이미지 인식 기능은 모든 플랫폼에서 사용할 수 있다. 이 새로운 기능은 앞으로 2주 안에 챗GPT 플러스 및 엔터프라이즈 사용자에게 배포할 예정이다.
새로운 음성 기능은 텍스트와 몇 초의 샘플 음성만으로 인간과 유사한 오디오를 생성할 수 있는 새로운 텍스트 음성 변환 모델에 의해 구동된다.
사용자는 모바일 앱에서 챗GPT의 5가지 음성 중 원하는 음성을 선택해 대화할 수 있다.
하지만 외신에 따르면 일부 전문가는 이러한 음성 합성 기술이 딥페이크 등 사이버 범죄에 악용될 수 있다고 우려한다.
오픈AI는 “음성 합성 기능은 악의적인 행위자가 공인을 사칭하거나 사기를 저지를 가능성과 같은 새로운 위험도 안고 있다”고 인정하면서도 “우리는 전문 성우와 협력해 각 목소리를 만들었다. 또한 오픈 소스 음성 인식 시스템인 위스퍼(Whisper)를 사용해 사용자가 말한 내용을 텍스트로 변환한다”고 설명했다.
또 오픈AI는 글로벌 음원 스트리밍 서비스 ‘스포티파이’와 협력해 자신의 목소리를 다른 언어로 번역해 말할 수 있는 방안도 검토하고 있다고 설명했다.
챗GPT 사용자는 사진을 찍거나 이미지를 올려 챗GPT와 텍스트로 대화를 나눌 수도 있다.
예를 들어 자전거 사진을 올린 뒤 “내 자전거 좌석을 내리는 것을 도와줘”라고 입력하면 챗GPT가 텍스트로 해결 방법을 제시한다. 업무에도 활용할 수 있다. 챗GPT가 복잡한 그래프 이미지 속에서 업무 관련 데이터를 분석해준다. 이미지의 특정 부분에 초점을 맞추려면 모바일 앱에서 그리기 도구를 사용할 수 있다.
이미지 이해는 멀티모달 GPT-3.5 및 GPT-4를 기반으로 한다. 이 모델은 사진, 스크린샷, 텍스트와 이미지가 모두 포함된 문서와 같은 광범위한 이미지에 언어 추론 기술을 적용했다.
오픈AI는 “우리의 목표는 안전하고 유익한 AGI(범용인공지능)를 구축하는 것”이라며 “새로운 도구를 점진적으로 제공하며 개선해 위험을 완화하고, 모든 사람이 미래엔 더 강력한 시스템을 사용할 수 있도록 해야 한다고 믿는다”고 설명했다.
[서울=뉴시스]
모바일 앱으로 챗GPT와 음성으로 대화

생성형 인공지능(AI) ‘챗GPT’가 이제 보고 듣고 말하기 시작했다.
제조사 오픈AI는 26일 공지를 통해 챗GP에서 새로운 음성 및 이미지 기능을 출시했다고 밝혔다.
음성 대화 기능은 애플 iOS 및 구글 안드로이드로 제공되며 이미지 인식 기능은 모든 플랫폼에서 사용할 수 있다. 이 새로운 기능은 앞으로 2주 안에 챗GPT 플러스 및 엔터프라이즈 사용자에게 배포할 예정이다.
새로운 음성 기능은 텍스트와 몇 초의 샘플 음성만으로 인간과 유사한 오디오를 생성할 수 있는 새로운 텍스트 음성 변환 모델에 의해 구동된다.
사용자는 모바일 앱에서 챗GPT의 5가지 음성 중 원하는 음성을 선택해 대화할 수 있다.
하지만 외신에 따르면 일부 전문가는 이러한 음성 합성 기술이 딥페이크 등 사이버 범죄에 악용될 수 있다고 우려한다.
오픈AI는 “음성 합성 기능은 악의적인 행위자가 공인을 사칭하거나 사기를 저지를 가능성과 같은 새로운 위험도 안고 있다”고 인정하면서도 “우리는 전문 성우와 협력해 각 목소리를 만들었다. 또한 오픈 소스 음성 인식 시스템인 위스퍼(Whisper)를 사용해 사용자가 말한 내용을 텍스트로 변환한다”고 설명했다.
또 오픈AI는 글로벌 음원 스트리밍 서비스 ‘스포티파이’와 협력해 자신의 목소리를 다른 언어로 번역해 말할 수 있는 방안도 검토하고 있다고 설명했다.
챗GPT 사용자는 사진을 찍거나 이미지를 올려 챗GPT와 텍스트로 대화를 나눌 수도 있다.
예를 들어 자전거 사진을 올린 뒤 “내 자전거 좌석을 내리는 것을 도와줘”라고 입력하면 챗GPT가 텍스트로 해결 방법을 제시한다. 업무에도 활용할 수 있다. 챗GPT가 복잡한 그래프 이미지 속에서 업무 관련 데이터를 분석해준다. 이미지의 특정 부분에 초점을 맞추려면 모바일 앱에서 그리기 도구를 사용할 수 있다.
이미지 이해는 멀티모달 GPT-3.5 및 GPT-4를 기반으로 한다. 이 모델은 사진, 스크린샷, 텍스트와 이미지가 모두 포함된 문서와 같은 광범위한 이미지에 언어 추론 기술을 적용했다.
오픈AI는 “우리의 목표는 안전하고 유익한 AGI(범용인공지능)를 구축하는 것”이라며 “새로운 도구를 점진적으로 제공하며 개선해 위험을 완화하고, 모든 사람이 미래엔 더 강력한 시스템을 사용할 수 있도록 해야 한다고 믿는다”고 설명했다.
[서울=뉴시스]
비즈N 탑기사
- 위안부 피해자 손배 2심 승소…日언론들 신속 타전
- 美 북부 지역까지 위협하는 캐나다 야생 멧돼지…“퇴치 어려워”
- 부산도 옮았다…빈대 공포에 “코로나 때처럼 외출 자제”
- 꿀벌이 돌아온다…아까시꿀 생산량 평년比 51% ↑
- 식중독균 살모넬라 검출 ‘눈꽃치즈 불닭’…판매중단·회수
- 김동연 “김포 서울 편입은 국토 갈라치기…총선 전략이면 자충수”
- 경찰, 대학가 ‘마약 광고 전단’ 살포 40대 구속 송치
- “결혼 왜 못하니?” 전처 이혜영 영상편지에…이상민 ‘답장’ 진땀
- 이동국 “내 이름 사칭해 투자 유도한 유튜브 제작자 잠적”
- 장서희 “이상형? 외모 보고 만나면 고생길…결혼 생각은 늘 있다”
- “밥값·집값 버거워서” 독립 포기, 부모님 집으로…늘어나는 ‘리터루족’
- “연말 빛 축제, 서울에서 즐기세요”
- ‘생숙’ 소유자들 벌금 피하기 편법… 숙박 협동조합 설립 나서
- 한동훈 “전세사기 저지르면 20년은 감옥 가게 될 것”
- ‘신생아 특공’ 연간 7만채 공급… 맞벌이 소득 기준도 완화
- 전국 ‘악성 미분양’ 1만가구 넘었다…한 달 새 7.5% 늘어
- 실시간 여행지 정보 플랫폼 ‘메타라이브’, 겨울 필수 여행지 인증샷 이벤트 진행
- 올해 서울 빌라 월세 거래량 5만 건 넘어…역대 최다
- 전국 미분양 10개월 만에 6만채 밑으로… “시장 침체에 분양 자체 줄어”
- 한국인, 27세부터 ‘흑자 인생’… 43세 정점 찍고 61세 적자 전환