查看内容

GPT-5.4发布：OpenAI首个大一统模型，简直是龙虾原生
===2026/3/6 14:58:37===

的成功率达到92.8%。此外，在OSWorld-Verified基准测试中，GPT-5.4在桌面操作任务中的成功率达到75.0%，已经超过人类平均水平（72.4%）。这些数据背后代表的是一种新的交互模式，也算是没落下最近的龙虾狂热潮。高阶编程与调试第三个关键能力来自编程。而且强调的是“高阶编程”。 GPT-5.4吸纳了此前最强的编程模型GPT-5.3-Codex的能力。现在的它不仅支持Token输出速度提升1.5倍的/fast模式，还加入了一个名为“Playwright（Interactive）”的实验性技能。它允许AI在帮你写网页或者应用时，开启一个窗口进行视觉化调试。比如你给它一个简单的需求去做模拟游戏，它能一边生成美术资产、一边写逻辑，甚至一边运行自动测试来验证游戏状态是否正常。在SWE-Bench Pro测试中，GPT-5.4取得57.7%的成绩，略高于GPT-5.3-Codex的56.8%，同时延迟更低。内部测试还显示，GPT-5.4在复杂前端任务中的表现明显优于此前模型。生成的界面设计更加美观，功能结构也更完整。为了展示这一能力，OpenAI演示了一个由GPT-5.4生成的浏览器主题公园模拟游戏。模型从简单提示词出发，生成游戏资源、构建场景、编写逻辑，并通过自动浏览器测试不断迭代。这种“边造边测”的能力，已经非常接近一个人类高级全栈工程师的工作流。一种趋势不言而喻： UI交互正在取代繁琐的API对接，成为AI操作世界的新主流路径。 emmmm，这可能会让很多中间件失去价值。整体定位：AI数字员工看完上述能力的整合，你就能读懂OpenAI在官方博文里透露出的野心。 OpenAI在发布文章中多次提到： GPT-5.4的目标是成为能够完成真实工作的Agent系统。如果说之前的GPT模型版本还是一个需要你盯着看的辅助工具，那么GPT-5.4已经开始尝试成为一个能独立负责整块业务的数字员工。这种“AI数字员工化”体现在三个维度的飞跃。首先是电脑操作能力。模型可以通过截图理解软件界面，并通过鼠标和键盘指令进行操作。这使得AI能够直接在电脑环境中执行任务。其次是浏览器任务能力。在BrowseComp测试中，GPT
=*=*=*=*=*=
当前为第3/5页
下一页-上一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页