logo
GPT-5.4发布:OpenAI首个大一统模型,简直是龙虾原生
===2026/3/6 14:58:37===
cBook Neo同周发布……   “天爷啊,我的笔记本电脑正在经历一场存在主义危机!!”   三大能力提升,系OpenAI首个原生支持电脑操作的通用模型   在具体能力层面,GPT-5.4的升级可以概括为三个方向: 深度知识工作(Knowledge Work) 原生计算机使用(Computer Use) 高阶编程与调试(Coding)   这三种能力基本覆盖了当前大多数数字工作的核心流程,而GPT-5.4都做得挺出色。   我们一一来看。   深度知识工作 (Knowledge Work)   首先是知识工作能力。   在衡量AI处理44种职业知识工作能力的GDPval基准测试中,它平局+获胜的综合得分83.0%。   多说几句嗷,GDPval评测主要是用来测试模型在真实职业场景中的表现,它评测涉及44种职业,覆盖了美国GDP贡献最高的9个行业。   具体任务上并不只是简单问答,它要求模型完成真实工作产物,例如销售演示文稿、会计表格、排班表、制造流程图甚至短视频。   所以在大量知识工作任务中,GPT-5.4的结果已经能够与专业从业者持平,甚至超过他们。   此外,OpenAI特别强化了GPT-5.4在办公文档领域的能力。   例如在内部投资银行建模测试中,GPT-5.4的平均得分达到87.3%,而GPT-5.2为68.4%。在人类评审的PPT生成测试中,评委有68%的时间更偏好GPT-5.4生成的结果,原因包括视觉效果更好、版式更丰富以及图片使用更合理。   从应用角度来看,这些能力对应的场景非常直接。   包括写报告、做财务模型、制作演示文稿、分析商业数据等工作,都是典型的知识型任务。   GPT-5.4正在朝着这类任务进行专门优化。   原生计算机使用 (Computer Use)   GPT-5.4最引人关注的一项能力是原生计算机操作,这是GPT-5.4区别于以往所有模型的核心标志。   模型可以通过截图理解软件界面,然后执行鼠标点击和键盘输入等操作。   包括发送邮件、创建日历事件、填写表单、操作网页等……都可以通过这种方式完成。   在WebArena浏览器任务测试中,GPT-5.4取得67.3%的成功率,高于GPT-5.2的65.4%。   在Online-Mind2Web测试中,仅通过截图观察完成网页操作时,GPT-5.4
=*=*=*=*=*=
当前为第2/5页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页