查看内容

GPT-5.4发布：OpenAI首个大一统模型，简直是龙虾原生
===2026/3/6 14:58:37===

cBook Neo同周发布…… “天爷啊，我的笔记本电脑正在经历一场存在主义危机！！” 三大能力提升，系OpenAI首个原生支持电脑操作的通用模型在具体能力层面，GPT-5.4的升级可以概括为三个方向：深度知识工作（Knowledge Work）原生计算机使用（Computer Use）高阶编程与调试（Coding）这三种能力基本覆盖了当前大多数数字工作的核心流程，而GPT-5.4都做得挺出色。我们一一来看。深度知识工作（Knowledge Work）首先是知识工作能力。在衡量AI处理44种职业知识工作能力的GDPval基准测试中，它平局+获胜的综合得分83.0%。多说几句嗷，GDPval评测主要是用来测试模型在真实职业场景中的表现，它评测涉及44种职业，覆盖了美国GDP贡献最高的9个行业。具体任务上并不只是简单问答，它要求模型完成真实工作产物，例如销售演示文稿、会计表格、排班表、制造流程图甚至短视频。所以在大量知识工作任务中，GPT-5.4的结果已经能够与专业从业者持平，甚至超过他们。此外，OpenAI特别强化了GPT-5.4在办公文档领域的能力。例如在内部投资银行建模测试中，GPT-5.4的平均得分达到87.3%，而GPT-5.2为68.4%。在人类评审的PPT生成测试中，评委有68%的时间更偏好GPT-5.4生成的结果，原因包括视觉效果更好、版式更丰富以及图片使用更合理。从应用角度来看，这些能力对应的场景非常直接。包括写报告、做财务模型、制作演示文稿、分析商业数据等工作，都是典型的知识型任务。 GPT-5.4正在朝着这类任务进行专门优化。原生计算机使用（Computer Use） GPT-5.4最引人关注的一项能力是原生计算机操作，这是GPT-5.4区别于以往所有模型的核心标志。模型可以通过截图理解软件界面，然后执行鼠标点击和键盘输入等操作。包括发送邮件、创建日历事件、填写表单、操作网页等……都可以通过这种方式完成。在WebArena浏览器任务测试中，GPT-5.4取得67.3%的成功率，高于GPT-5.2的65.4%。在Online-Mind2Web测试中，仅通过截图观察完成网页操作时，GPT-5.4
=*=*=*=*=*=
当前为第2/5页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页