AI中国网 https://www.cnaiplus.com
导读:刚刚,OpenAI 放出了三个全新的实时语音模型,其中一个翻译模型,能把 70 多种语言实时翻译成 13 种语言输出,每分钟成本 2 毛钱。同声传译这个行业,现在可能,要迎来它的终局了。OpenAI GPT-Realtime-201发了什么这次发布的三个模型,分别对应语音交互的三大场景:对话、翻译、转录。GPT-Realtime-2,是 OpenAI 目前最强的语音模型,具备 GPT-5 级别的推理能力。它能边听边想 ......刚刚,OpenAI 放出了三个全新的实时语音模型,其中一个翻译模型,能把 70 多种语言实时翻译成 13 种语言输出,每分钟成本 2 毛钱。
同声传译这个行业,现在可能,要迎来它的终局了。
OpenAI GPT-Realtime-2
01
发了什么这次发布的三个模型,分别对应语音交互的三大场景:对话、翻译、转录。
GPT-Realtime-2,是 OpenAI 目前最强的语音模型,具备 GPT-5 级别的推理能力。它能边听边想,在对话中实时解决复杂问题。可以理解为:一个能打电话的 GPT-5。
GPT-Realtime-Translate,实时语音翻译。支持 70 多种语言输入,翻译成 13 种语言输出,翻译的同时还能保留说话者的语调和情感。
GPT-Realtime-Whisper,实时语音转文字。一边说话一边出字幕,适合做实时字幕、会议记录。
三个模型,三个场景
三个模型都通过 Realtime API 对外开放,开发者可以用 WebRTC、WebSocket 或 SIP 接入。
02
能干活的嘴GPT-Realtime-2 是 OpenAI 推出的第二代实时语音模型,也是目前 Realtime API 中推理能力最强的一个。
OpenAI 对它的定位是:让语音 Agent 从「能聊天」变成「能干活」。
它的几个关键升级:
GPT-5 级推理:能在语音对话中处理复杂的多步推理任务,不再只是简单的问答
更好的工具调用:可以精准地调用外部工具,比如查数据库、调 API,这意味着语音 Agent 可以真正「做事」了
自然的对话处理:能处理打断、话题切换,不会因为你插了句嘴就丢了上下文
128K 上下文窗口:之前的 gpt-realtime 只有 32K,现在翻了四倍
更像人的声音:语音合成的自然度和表现力都有提升,能更好地理解和执行系统指令
用过 ChatGPT 语音模式的应该都很有感受,相比于直接的 chat,语音版的智能很差,几乎不怎么思考,更不会调用工具。
因为工具调用需要时间,语音场景又对延迟极度敏感,所以之前索性就做了一个很简单的版本。能聊天就行,干活就别指望它了。
但现在,这个问题解决了。
GPT-Realtime-2 能边聊边想边调工具了,你说出一个需求,它可以完成日历查找、更新完 CRM,直接动嘴就把事儿办了。
03
定价文本 token 的价格是 $4/$16(输入/输出,每百万 token)。
音频 token 则是 $32/$64。
GPT-Realtime-Translate 的翻译功能单独计价,每分钟 $0.034,大约人民币 2 毛 5。
这个价格后面会详细说,因为它对同传行业,可能会是毁灭性的冲击。
04
实际案例OpenAI 在博客里,提到了几个已经在用的企业:
德国电信正在基于 GPT-Realtime-Translate 打造客服系统,让客户用自己最舒服的语言沟通,模型负责实时翻译。
Priceline在做一个旅行语音助手,旅客落地后可以直接用语音管理行程,语言不通也没关系,模型实时翻译。
Vimeo也在合作中,具体做的是视频相关的实时语音场景。
05
视频 DemoOpenAI 同步放出了一段 4 分钟的演示视频,展示了翻译和语音 Agent 两个场景。
先看翻译功能。
Demo 里一个人用法语发言,模型实时把法语翻译成英语输出,音频直接从笔记本电脑捕获,没有任何后期编辑。
效果可以说是,非常惊艳。
模型会一边听一边翻译,等关键词(比如动词)出现后立即开始输出,听起来像两个人在自然对话。
如果你中途突然切换成德语,模型也能无缝跟上,毫无卡顿。碰到 GPT、OpenAI、computer use 这类技术术语,也一样能准确处理。
再看语音 Agent。
Demo 中对着手机上的个人助手说一句:
“我马上有个客户会议,能帮我看一下日程吗?”
AI中国网 https://www.cnaiplus.com
本文网址:




