‘챗GPT’가 말하기 시작했다…이미지 알아보고 분석까지
뉴시스
입력 2023-09-26 11:35 수정 2023-09-26 11:36
2주 안에 챗GPT 플러스·엔터프라이즈 사용자에게 제공
모바일 앱으로 챗GPT와 음성으로 대화
생성형 인공지능(AI) ‘챗GPT’가 이제 보고 듣고 말하기 시작했다.
제조사 오픈AI는 26일 공지를 통해 챗GP에서 새로운 음성 및 이미지 기능을 출시했다고 밝혔다.
음성 대화 기능은 애플 iOS 및 구글 안드로이드로 제공되며 이미지 인식 기능은 모든 플랫폼에서 사용할 수 있다. 이 새로운 기능은 앞으로 2주 안에 챗GPT 플러스 및 엔터프라이즈 사용자에게 배포할 예정이다.
새로운 음성 기능은 텍스트와 몇 초의 샘플 음성만으로 인간과 유사한 오디오를 생성할 수 있는 새로운 텍스트 음성 변환 모델에 의해 구동된다.
사용자는 모바일 앱에서 챗GPT의 5가지 음성 중 원하는 음성을 선택해 대화할 수 있다.
하지만 외신에 따르면 일부 전문가는 이러한 음성 합성 기술이 딥페이크 등 사이버 범죄에 악용될 수 있다고 우려한다.
오픈AI는 “음성 합성 기능은 악의적인 행위자가 공인을 사칭하거나 사기를 저지를 가능성과 같은 새로운 위험도 안고 있다”고 인정하면서도 “우리는 전문 성우와 협력해 각 목소리를 만들었다. 또한 오픈 소스 음성 인식 시스템인 위스퍼(Whisper)를 사용해 사용자가 말한 내용을 텍스트로 변환한다”고 설명했다.
또 오픈AI는 글로벌 음원 스트리밍 서비스 ‘스포티파이’와 협력해 자신의 목소리를 다른 언어로 번역해 말할 수 있는 방안도 검토하고 있다고 설명했다.
챗GPT 사용자는 사진을 찍거나 이미지를 올려 챗GPT와 텍스트로 대화를 나눌 수도 있다.
예를 들어 자전거 사진을 올린 뒤 “내 자전거 좌석을 내리는 것을 도와줘”라고 입력하면 챗GPT가 텍스트로 해결 방법을 제시한다. 업무에도 활용할 수 있다. 챗GPT가 복잡한 그래프 이미지 속에서 업무 관련 데이터를 분석해준다. 이미지의 특정 부분에 초점을 맞추려면 모바일 앱에서 그리기 도구를 사용할 수 있다.
이미지 이해는 멀티모달 GPT-3.5 및 GPT-4를 기반으로 한다. 이 모델은 사진, 스크린샷, 텍스트와 이미지가 모두 포함된 문서와 같은 광범위한 이미지에 언어 추론 기술을 적용했다.
오픈AI는 “우리의 목표는 안전하고 유익한 AGI(범용인공지능)를 구축하는 것”이라며 “새로운 도구를 점진적으로 제공하며 개선해 위험을 완화하고, 모든 사람이 미래엔 더 강력한 시스템을 사용할 수 있도록 해야 한다고 믿는다”고 설명했다.
[서울=뉴시스]
모바일 앱으로 챗GPT와 음성으로 대화
생성형 인공지능(AI) ‘챗GPT’가 이제 보고 듣고 말하기 시작했다.
제조사 오픈AI는 26일 공지를 통해 챗GP에서 새로운 음성 및 이미지 기능을 출시했다고 밝혔다.
음성 대화 기능은 애플 iOS 및 구글 안드로이드로 제공되며 이미지 인식 기능은 모든 플랫폼에서 사용할 수 있다. 이 새로운 기능은 앞으로 2주 안에 챗GPT 플러스 및 엔터프라이즈 사용자에게 배포할 예정이다.
새로운 음성 기능은 텍스트와 몇 초의 샘플 음성만으로 인간과 유사한 오디오를 생성할 수 있는 새로운 텍스트 음성 변환 모델에 의해 구동된다.
사용자는 모바일 앱에서 챗GPT의 5가지 음성 중 원하는 음성을 선택해 대화할 수 있다.
하지만 외신에 따르면 일부 전문가는 이러한 음성 합성 기술이 딥페이크 등 사이버 범죄에 악용될 수 있다고 우려한다.
오픈AI는 “음성 합성 기능은 악의적인 행위자가 공인을 사칭하거나 사기를 저지를 가능성과 같은 새로운 위험도 안고 있다”고 인정하면서도 “우리는 전문 성우와 협력해 각 목소리를 만들었다. 또한 오픈 소스 음성 인식 시스템인 위스퍼(Whisper)를 사용해 사용자가 말한 내용을 텍스트로 변환한다”고 설명했다.
또 오픈AI는 글로벌 음원 스트리밍 서비스 ‘스포티파이’와 협력해 자신의 목소리를 다른 언어로 번역해 말할 수 있는 방안도 검토하고 있다고 설명했다.
챗GPT 사용자는 사진을 찍거나 이미지를 올려 챗GPT와 텍스트로 대화를 나눌 수도 있다.
예를 들어 자전거 사진을 올린 뒤 “내 자전거 좌석을 내리는 것을 도와줘”라고 입력하면 챗GPT가 텍스트로 해결 방법을 제시한다. 업무에도 활용할 수 있다. 챗GPT가 복잡한 그래프 이미지 속에서 업무 관련 데이터를 분석해준다. 이미지의 특정 부분에 초점을 맞추려면 모바일 앱에서 그리기 도구를 사용할 수 있다.
이미지 이해는 멀티모달 GPT-3.5 및 GPT-4를 기반으로 한다. 이 모델은 사진, 스크린샷, 텍스트와 이미지가 모두 포함된 문서와 같은 광범위한 이미지에 언어 추론 기술을 적용했다.
오픈AI는 “우리의 목표는 안전하고 유익한 AGI(범용인공지능)를 구축하는 것”이라며 “새로운 도구를 점진적으로 제공하며 개선해 위험을 완화하고, 모든 사람이 미래엔 더 강력한 시스템을 사용할 수 있도록 해야 한다고 믿는다”고 설명했다.
[서울=뉴시스]
비즈N 탑기사
- 김숙 “내 건물서 거주+월세 수입 생활이 로망”
- “20억 받으면서 봉사라고?”…홍명보 감독 발언에 누리꾼 ‘부글’
- 세계적 유명 모델이 왜 삼성역·편의점에…“사랑해요 서울” 인증샷
- “사람 치아 나왔다” 5000원짜리 고기 월병 먹던 中여성 ‘경악’
- “모자로 안가려지네”…박보영, 청순한 미모로 힐링 여행
- 엄마 편의점 간 사이 ‘탕’…차에 둔 권총 만진 8살 사망
- 8시간 후 자수한 음주 뺑소니 가해자…한문철 “괘씸죄 적용해야”
- 교보생명, 광화문글판 가을편 새단장…윤동주 ‘자화상’
- 힐러리 “내가 못 깬 유리천장, 해리스가 깨뜨릴 것”
- ‘SNS 적극 활동’ 고현정…“너무 자주 올려 지겨우시실까봐 걱정”
- 서울 아파트 상승거래 비중 48.5%… 4개월만에 절반 이하로
- “美-中-日, 반도체 등에 수십조원 직접 보조금… 한국은 ‘0원’”
- [단독]1억원 경품에 베끼기 상품 ‘혼탁한 ETF시장’
- [머니 컨설팅]성실신고확인대상 법인, 세법 개정 대비해야
- 대출금리 인하 요구 수용률, 은행마다 천차만별
- “지금 어린이들도 100세까지 살기 힘들어”…‘반전’ 연구결과
- “AI가 환자 일기 분석해 감정 체크”…우울증·불안장애, AI로 챙긴다
- 막대한 세수 결손에도…5년간 못 걷은 나랏돈 34조 원 육박
- 합병 다가왔는데…아시아나 마일리지, “쓸 곳이 없다”
- 올해 3분기 주식 10곳 중 7곳 시총 하락