查看内容

OpenAI推出GPT-RealTime语音模型，升级功能并降价，语音大战再升级
===2025/8/31 20:59:34===

在AI技术日新月异的今天，OpenAI再次引领潮流，于近日凌晨正式推出了专为开发人员设计的语音转语音模型——GPT-RealTime。与此同时，OpenAI还对其API功能进行了全面升级，新增了远程MCP服务器支持、图像输入功能以及SIP电话呼叫支持。据OpenAI官方介绍，GPT-RealTime是其迄今为止最先进的语音合成模型，该模型在遵循复杂指令、精确调用工具以及生成自然、富有表现力的语音方面取得了显著进步。GPT-RealTime不仅能够流畅地朗读重复的字母和数字，还能无缝切换语言，甚至能够捕捉到笑声等非语言信号，为用户带来更加真实、生动的对话体验。除了技术上的突破，OpenAI还为用户带来了两个全新的语音选项——Cedar和Marin，这两个语音将在Realtime API中独家提供，为用户带来更多样化的选择。在定价方面，OpenAI也展现出了极大的诚意。通用版Realtime API和全新的GPT-RealTime模型即日起向所有开发者开放。GPT-RealTime的定价策略为每百万token音频输入32美元，缓存输入每百万token仅需0.4美元，而每百万token音频输出的价格为64美元。相较于之前的gpt-4o-realtime-preview版本，GPT-RealTime的价格下调了20%，这无疑将吸引更多开发者加入到GPT-RealTime的应用开发中。OpenAI此次还增加了对对话上下文的细粒度控制，允许开发者设置智能token限制，并一次截断多个回合，这一改进将显著降低长会话的成本，为开发者提供更加灵活、高效的开发环境。自去年10月OpenAI发布Realtime API公开测试版以来，已有数千名开发者使用该API并提出了宝贵的建议。此次GPT-RealTime的推出，无疑是对这些开发者反馈的积极回应。然而，尽管GPT-RealTime受到了广泛关注和期待，但也有一些开发者对其表现提出了质疑。有用户认为，虽然GPT-RealTime在语音合成方面取得了显著进步，但其声音仍然带有一定的机械感，且旧的语音角色在表现力上只是略有提升。为了提升GPT-RealTime的性能，OpenAI在音频质量、理解用户指令以及遵循指令等方面进行了大量改进。GPT-RealTime能够产出更自然的高质量语音，并能遵循细粒度的指令，如“快速专业地说话”或“用法
=*=*=*=*=*=
当前为第1/2页
下一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页