查看内容

GPT-5.4发布：OpenAI首个大一统模型，简直是龙虾原生
===2026/3/6 14:58:37===

-5.4的成绩达到82.7%，而GPT-5.4 Pro达到89.3%，比GPT-5.2提升17个百分点。这意味着模型能够持续搜索网页、筛选信息并整合结果，尤其适合处理需要多轮检索的问题。第三是多工具调用能力。在Toolathlon基准测试中，GPT-5.4取得54.6%的准确率，高于GPT-5.2的45.7%。这个测试的任务通常需要多步骤操作，例如读取邮件附件、上传文件、评分作业并记录到表格中。这种按需检索工具的能力是降低Agent运行成本的关键，它解决了过去模型在面对复杂指令时容易“迷路”或者Token爆炸的问题。此外，对于对延迟要求较高的场景（在这种场景中，人们倾向于不进行推理操作），GPT-5.4 比其前辈版本有了进一步的改进。细节之处的全面进化除了上述支柱能力，GPT-5.4在办公细节上也进行了大量打磨。比如它在创建和编辑电子表格、PPT方面的表现，其表格建模准确率从68.4%跃升至87.3%。在演示文稿生成测试中，人类评审也更偏好GPT-5.4的结果，认为其视觉多样性和审美更强。同时，视觉能力的提升也带动了文档解析的进步。在MMMU-Pro视觉推理测试中，GPT-5.4取得81.2%的准确率，高于GPT-5.2的79.5%。更重要的是，它现在支持高达1024万像素的原图输入，对高密度、高分辨率的图像理解更加精准。视觉能力的提升也带来了更强的文档解析能力。在OmniDocBench测试中，GPT-5.4的平均错误率从0.140下降到0.109。最令人欣慰的是错误率的下降。从官方介绍中能初步感觉到，GPT-5.4是个极其讲求事实的模型，其事实错误概率比前代降低了33%，大大缓解了用户对模型幻觉的焦虑。在效率方面，GPT-5.4引入工具搜索机制。过去模型在使用工具时，需要在Prompt中包含所有工具定义。如果工具数量很多，Prompt就会变得非常庞大。现在模型可以先获取工具列表，然后按需查询具体工具定义。在实现相同准确率的情况下，将总Token使用率降低了47%。这种成本控制手段说明OpenAI正试图让大模型大规模商业化变得更加现实，毕竟对于企业来说，省钱和好用同等重要。更好用了，但更省钱了吗？从OpenAI
=*=*=*=*=*=
当前为第4/5页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页