GPT-5.4发布:OpenAI首个大一统模型,简直是龙虾原生
===2026/3/6 14:58:37===
的成功率达到92.8%。
此外,在OSWorld-Verified基准测试中,GPT-5.4在桌面操作任务中的成功率达到75.0%,已经超过人类平均水平(72.4%)。
这些数据背后代表的是一种新的交互模式,也算是没落下最近的龙虾狂热潮。
高阶编程与调试
第三个关键能力来自编程。
而且强调的是“高阶编程”。
GPT-5.4吸纳了此前最强的编程模型GPT-5.3-Codex的能力。现在的它不仅支持Token输出速度提升1.5倍的/fast模式,还加入了一个名为“Playwright(Interactive)”的实验性技能。
它允许AI在帮你写网页或者应用时,开启一个窗口进行视觉化调试。
比如你给它一个简单的需求去做模拟游戏,它能一边生成美术资产、一边写逻辑,甚至一边运行自动测试来验证游戏状态是否正常。
在SWE-Bench Pro测试中,GPT-5.4取得57.7%的成绩,略高于GPT-5.3-Codex的56.8%,同时延迟更低。
内部测试还显示,GPT-5.4在复杂前端任务中的表现明显优于此前模型。生成的界面设计更加美观,功能结构也更完整。
为了展示这一能力,OpenAI演示了一个由GPT-5.4生成的浏览器主题公园模拟游戏。
模型从简单提示词出发,生成游戏资源、构建场景、编写逻辑,并通过自动浏览器测试不断迭代。
这种“边造边测”的能力,已经非常接近一个人类高级全栈工程师的工作流。
一种趋势不言而喻:
UI交互正在取代繁琐的API对接,成为AI操作世界的新主流路径。
emmmm,这可能会让很多中间件失去价值。
整体定位:AI数字员工
看完上述能力的整合,你就能读懂OpenAI在官方博文里透露出的野心。
OpenAI在发布文章中多次提到:
GPT-5.4的目标是成为能够完成真实工作的Agent系统。
如果说之前的GPT模型版本还是一个需要你盯着看的辅助工具,那么GPT-5.4已经开始尝试成为一个能独立负责整块业务的数字员工。
这种“AI数字员工化”体现在三个维度的飞跃。
首先是电脑操作能力。
模型可以通过截图理解软件界面,并通过鼠标和键盘指令进行操作。
这使得AI能够直接在电脑环境中执行任务。
其次是浏览器任务能力。
在BrowseComp测试中,GPT
=*=*=*=*=*=
当前为第3/5页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页