최신 뉴스
당신을 위해 엄선되었습니다
주간
최고 자리를 유지하세요

최고의 암호화폐 관련 정보를 이메일로 받아보세요.

OpenAI는 추론, 번역 및 실시간 텍스트 변환 기능을 갖춘 음성 모델을 제공합니다

에 의해란다 모세스란다 모세스
2분 전 읽음
OpenAI는 추론, 번역 및 실시간 텍스트 변환 기능을 갖춘 음성 모델을 제공합니다.
  • OpenAI는 자사 API에 세 가지 실시간 음성 모델을 출시했습니다.
  • 음성 모델은 70개 이상의 입력 언어를 지원하며, GPT-Realtime-Whisper를 통해 실시간 음성 인식을 제공합니다.
  • Translate와 Whisper는 분 단위로 요금을 청구하는 반면, GPT-Realtime-2는 토큰 단위로 요금을 청구합니다.

OpenAI는 수요일에 API에 차세대 음성 모델을 공개하여 개발자들이 음성 요청을 분석하고, 70개 이상의 언어로 번역하고, 음성을 실시간으로 텍스트로 변환하는 앱을 구축할 수 있는 도구를 제공했습니다.

이 세 가지 모델은 각각 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper라고 명명되었습니다. 이 모델들은 AI 음성 인터페이스를 단순한 질문과 답변 교환을 넘어 AI 에이전트가 대화 도중에 듣고, 생각하고, 행동할 수 있는 영역으로 끌어올립니다.

GPT-Realtime-2는 음성 인식에 더욱 정교한 추론 기능을 제공합니다

GPT-Realtime-2는 OpenAI의 플래그십 모델입니다. OpenAI는 이 모델이 이전 버전인 GPT-Realtime-1.5보다 크게 향상된 GPT-5급 추론 능력을 제공한다고 밝혔습니다.

벤치마크인 Big Bench Audio에서 15.2% 더 높은 점수를, 오디오 지능여러 차례의 음성 대화에서 지시를 따르는 능력을 테스트하는 Audio MultiChallenge에서 13.8% 더 높은 점수를 기록했습니다.

이번 실질적인 개선 사항은 실제 음성 에이전트를 개발하는 개발자를 대상으로 합니다. 이 모델은 이제 기존 32K 제한에서 4배 증가한 128K 컨텍스트 창을 지원하며, "최소"에서 "매우 높음"까지 5단계로 조정 가능한 추론 노력 수준을 제공합니다

이 시스템은 여러 도구를 동시에 호출하고, 음성 응답으로 오류를 복구하며, 요청을 처리하는 동안 "확인해 보겠습니다"와 같은 짧은 연결 문구를 생성할 수 있습니다.

GPT-Realtime-Translate는 실시간 음성 번역을 지원합니다. 70개 이상의 입력 언어를 지원하며, 13개 언어로 출력하여 화자의 말하는 속도에 맞춰 실시간으로 번역합니다.

GPT-Realtime-Whisper는 스트리밍 음성-텍스트 변환(STT) 기능을 제공하여, 발화가 완료될 때까지 기다리지 않고 말하는 즉시 단어를 텍스트로 변환합니다.

질로우와 도이치텔레콤은 실제 생산 환경에서 모델을 테스트하고 있습니다

여러 회사가 조기에 서비스를 이용할 수 있었습니다. 질로우는 복잡한 부동산 관련 질문을 처리하고, 매물 검색 도구를 호출하며, 공정 주택 규정을 준수할 수 있는 음성 비서를 개발 중입니다.

해당 회사는 GPT-Realtime-2를 사용한 즉각적인 최적화 후 가장 까다로운 공격자 대상 벤치마크에서 통화 성공률이 26포인트 향상되어 이전 69%에서 95%로 증가했다고 보고했습니다.

도이치텔레콤은 고객 지원을 위한 실시간 번역 서비스를 테스트 중이며, 이를 통해 발신자는 원하는 언어로 말할 수 있고 모델이 양쪽 모두에서 번역을 처리합니다.

프라이스라인은 음성 기반 여행 도우미를 개발 중인데, 이 도우미는 항공편 검색, 호텔 변경, 현지 통역까지 한 번에 처리할 수 있을 것으로 예상됩니다.

이 모델들은 고객 서비스 역량을 확장하려는 기업을 대상으로 하지만, 교육, 미디어, 이벤트 및 크리에이터 플랫폼 전반에 걸쳐 잠재적인 적용 가능성도 언급했습니다.

오픈아이(OpenAI)는 밝혔습니다 . 회사는 이러한 안전장치가 스팸, 사기 및 기타 형태의 악용을 방지하는 데 도움이 된다고 설명했습니다.

가격 책정 방식은 Translate 및 Whisper 모델의 경우 분 단위로, GPT-Realtime-2 모델의 경우 토큰 사용량 단위로 계산됩니다. 세 모델 모두 OpenAI의 Realtime API를 통해 이용 가능하며, WebRTC, WebSocket 및 SIP 연결 방식을 지원합니다.

암호화폐 뉴스를 단순히 읽는 데 그치지 마세요. 이해하세요. 저희 뉴스레터를 구독하세요. 무료입니다.

자주 묻는 질문

GPT-Realtime-2란 무엇인가요?

GPT-Realtime-2는 OpenAI의 새로운 음성 모델로, GPT-5급 추론 능력을 갖추고 있으며, 복잡한 요청을 처리하고, 도구를 호출하고, 중단 상황에서 복구해야 하는 실시간 대화 환경에 맞춰 설계되었습니다.

GPT-Realtime-Translate는 몇 개의 언어를 지원하나요?

GPT-Realtime-Translate는 70개 이상의 언어로 음성 입력을 받아 13개 언어로 실시간 번역할 수 있습니다.

새로운 음성 모델의 가격은 어떻게 되나요?

GPT-Realtime-Translate와 GPT-Realtime-Whisper는 분 단위로 요금이 부과되는 반면, GPT-Realtime-2는 토큰 사용량에 따라 요금이 부과됩니다.

이 기사를 공유하세요

면책 조항: 제공된 정보는 투자 조언이 아닙니다. Cryptopolitan이 페이지에 제공된 정보를 바탕으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다.trondentdentdentdentdentdentdentdent .

더 많은 뉴스
심층 암호
화폐 속성 강좌