GPT-5.4发布:OpenAI首个大一统模型,简直是龙虾原生
===2026/3/6 14:58:37===
-5.4的成绩达到82.7%,而GPT-5.4 Pro达到89.3%,比GPT-5.2提升17个百分点。
这意味着模型能够持续搜索网页、筛选信息并整合结果,尤其适合处理需要多轮检索的问题。
第三是多工具调用能力。
在Toolathlon基准测试中,GPT-5.4取得54.6%的准确率,高于GPT-5.2的45.7%。
这个测试的任务通常需要多步骤操作,例如读取邮件附件、上传文件、评分作业并记录到表格中。
这种按需检索工具的能力是降低Agent运行成本的关键,它解决了过去模型在面对复杂指令时容易“迷路”或者Token爆炸的问题。
此外,对于对延迟要求较高的场景(在这种场景中,人们倾向于不进行推理操作),GPT-5.4 比其前辈版本有了进一步的改进。
细节之处的全面进化
除了上述支柱能力,GPT-5.4在办公细节上也进行了大量打磨。
比如它在创建和编辑电子表格、PPT方面的表现,其表格建模准确率从68.4%跃升至87.3%。
在演示文稿生成测试中,人类评审也更偏好GPT-5.4的结果,认为其视觉多样性和审美更强。
同时,视觉能力的提升也带动了文档解析的进步。
在MMMU-Pro视觉推理测试中,GPT-5.4取得81.2%的准确率,高于GPT-5.2的79.5%。
更重要的是,它现在支持高达1024万像素的原图输入,对高密度、高分辨率的图像理解更加精准。
视觉能力的提升也带来了更强的文档解析能力。
在OmniDocBench测试中,GPT-5.4的平均错误率从0.140下降到0.109。
最令人欣慰的是错误率的下降。
从官方介绍中能初步感觉到,GPT-5.4是个极其讲求事实的模型,其事实错误概率比前代降低了33%,大大缓解了用户对模型幻觉的焦虑。
在效率方面,GPT-5.4引入工具搜索机制。
过去模型在使用工具时,需要在Prompt中包含所有工具定义。如果工具数量很多,Prompt就会变得非常庞大。
现在模型可以先获取工具列表,然后按需查询具体工具定义。
在实现相同准确率的情况下,将总Token使用率降低了47%。
这种成本控制手段说明OpenAI正试图让大模型大规模商业化变得更加现实,毕竟对于企业来说,省钱和好用同等重要。
更好用了,但更省钱了吗?
从OpenAI
=*=*=*=*=*=
当前为第4/5页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页