中国电子:推理力跃升10倍,理论性能对标GPT5与Claude4Opus
== 2025-7-11 20:12:56 == 热度 188
(以下内容从海通国际《中国电子:推理力跃升10倍,理论性能对标GPT-5与Claude 4 Opus》研报附件原文摘录)事件:2025年7月9日,xAI正式发布其最新旗舰大模型Grok4,并于北京时间7月10日上午11点举行全球直播发布会。该模型在xAI自研的Colossus超级计算机上训练,跳过3.5版本,直接命名为Grok4。相较前代,Grok4在推理性能、多模态能力和上下文处理能力上均实现跃升。Grok4现已开放API访问,月费定价为30美元,重载多智能体版本Grok4Heavy定价300美元;未来将于8月推出编程模型、9月上线多模态智能体版本,并于10月支持视频生成模型。点评:训练强度大幅跃升,工具融合显著提升智能边界。Grok4的训练规模远超前代模型,计算资源投入为Grok-2的100倍、Grok-3的10倍,核心依托xAI自建的20万张GPU超算集群。训练过程中广泛引入RL技术,特别是在“人类最后考试”(HLE)基准中,工具融入训练显著提升了模型在复杂推理任务中的表现,不仅推理准确率高于不使用工具的版本,其scaling曲线也更具效率——即单位算力带来的智能提升更大。在实际测试阶段,模型得分可较训练期进一步提升10个百分点,显示出极强的泛化与工具适应能力。专业能力全面开花,Grok-4向真实世界任务稳步迈进。除了通用能力,Grok4在垂直专业场景中也展现出强劲实力。在LiveCodingBench编程测试中几乎实现满分,xAI亦宣布将于8月推出更快、更强的专用代码模型Grok4Code。在药物研发领域,Grok4是当前唯一在RKG基准中突破10%准确率的模型,显现出其在复杂结构推理与分子生成方面的潜力。此外,在自动化零售(AutoRetailBench)等真实世界任务中,Grok4亦取得第一名成绩,表明其不仅在实验环境中具备领先性,更有望在工业级落地中实现实际价值。关键技术全面升级,推理、多模态与上下文处理能力跃升。Grok4在多个核心维度上实现显著突破,特别是在上下文理解、推理能力和多模态交互方面展现领先性能。其上下文窗口扩展至25.6万tokens,远超GPT-4-turbo与Claude3Opus,显著提升长文档处理与连续推理能力
=*=*=*=*=*=
当前为第1/3页
下一页-
=*=*=*=*=*=
返回新闻列表
返回网站首页