GPT-5.4发布:OpenAI首个大一统模型,简直是龙虾原生
===2026/3/6 14:58:37===
cBook Neo同周发布……
“天爷啊,我的笔记本电脑正在经历一场存在主义危机!!”
三大能力提升,系OpenAI首个原生支持电脑操作的通用模型
在具体能力层面,GPT-5.4的升级可以概括为三个方向:
深度知识工作(Knowledge Work)
原生计算机使用(Computer Use)
高阶编程与调试(Coding)
这三种能力基本覆盖了当前大多数数字工作的核心流程,而GPT-5.4都做得挺出色。
我们一一来看。
深度知识工作 (Knowledge Work)
首先是知识工作能力。
在衡量AI处理44种职业知识工作能力的GDPval基准测试中,它平局+获胜的综合得分83.0%。
多说几句嗷,GDPval评测主要是用来测试模型在真实职业场景中的表现,它评测涉及44种职业,覆盖了美国GDP贡献最高的9个行业。
具体任务上并不只是简单问答,它要求模型完成真实工作产物,例如销售演示文稿、会计表格、排班表、制造流程图甚至短视频。
所以在大量知识工作任务中,GPT-5.4的结果已经能够与专业从业者持平,甚至超过他们。
此外,OpenAI特别强化了GPT-5.4在办公文档领域的能力。
例如在内部投资银行建模测试中,GPT-5.4的平均得分达到87.3%,而GPT-5.2为68.4%。在人类评审的PPT生成测试中,评委有68%的时间更偏好GPT-5.4生成的结果,原因包括视觉效果更好、版式更丰富以及图片使用更合理。
从应用角度来看,这些能力对应的场景非常直接。
包括写报告、做财务模型、制作演示文稿、分析商业数据等工作,都是典型的知识型任务。
GPT-5.4正在朝着这类任务进行专门优化。
原生计算机使用 (Computer Use)
GPT-5.4最引人关注的一项能力是原生计算机操作,这是GPT-5.4区别于以往所有模型的核心标志。
模型可以通过截图理解软件界面,然后执行鼠标点击和键盘输入等操作。
包括发送邮件、创建日历事件、填写表单、操作网页等……都可以通过这种方式完成。
在WebArena浏览器任务测试中,GPT-5.4取得67.3%的成功率,高于GPT-5.2的65.4%。
在Online-Mind2Web测试中,仅通过截图观察完成网页操作时,GPT-5.4
=*=*=*=*=*=
当前为第2/5页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页