马斯克发布 Grok 4 模型：推理能力较前代提升 10 倍，各学科测试接近满分

刚刚，xAI 发布了新一代大模型 Grok 4，包括 Grok 4 和 Grok 4 Heavy 两个型号。

据介绍，Grok 4 的推理能力相较于前代提升了 10 倍，在 SAT 和 GRE 各学科等高难度考试中取得了接近满分的成绩。

马斯克在发布会上称，「这是世界上最好的 AI」。

「数字生命卡兹克」快速总结了 Grok 4 发布会上的一些关键信息：

这次发了两个模型，Grok 4 和 Grok 4 Heavy。
训练量是 Grok 2 的 100 倍，在强化学习上的计算量是现有任何模型的 10 倍。
在人类最后的考试（Humanity's Last Exam， HLE）中，Grok 4 在 HLE 上拿到 38.6%；Grok 4 Heavy 借助多智能体进一步拉到 44.4%，刷新了最高纪录。
官方同时公布 GPQA、AIME25、HMMT25、USAMO25 等学科赛题，Grok 4 Heavy 在其中 4 项夺冠，尤其在 AIME25 与 HMMT25 获得 100% / 96.7% 的近满分表现。
全程都在聊知识，隐隐感觉到不妙，一实测，果然，代码能力拉垮了。
Grok 4 在训练阶段就深度整合了工具使用能力，将工具（如代码解释器、搜索引擎等）直接纳入训练流程，最终效果更好。
设计了一个名为「Vending-Bench」的商业模拟场景，AI 需要像人一样经营自动售货机业务，测试结果：Grok 4 平均净资产 $4684.15，是第二名 Claude 4 的两倍，证明 Grok 4 比其他模型的长任务能力更牛逼。
ARC-AGI v2 评测记上，达到了 SOTA，Grok 4 准确率 15.9%，第二名 Claude 4 为 8.6%，几乎翻倍。同时，单位成本推理效率业界最佳。
定价方面：

Free：只能用 Grok 3，不给用 Grok4；
SuperGrok（30 美元/月）：Grok 4、128 k Token、更多接口额度；
SuperGrok Heavy（300 美元/月）：独享 Grok 4 Heavy、提前试用新特性、专属技术支持。

xAI 后续发布计划：8 月推代码模型、9 月上线多模态智能代理、10 月发视频生成模型。

超 9000 人的「AI 产品市集」社群！不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者，飞书扫码加群：

进群后，你有机会得到：

最新、最值得关注的 AI 新品资讯；
不定期赠送热门新品的邀请码、会员码；
最精准的AI产品曝光渠道

01 Grok 4 在基准测试上的表现

达到人类博士后水平

得益于计算能力的增强、强化学习的训练，Grok 4 的推理能力相较于前代提升了 10 倍。从 Grok 2 到 Grok 4，采用的技术范式不同，分别为下一个 token 预测、预训练计算、预训练 + RL、RL 计算。

其中，Grok 2 到 Grok 3 预训练阶段的计算量提升了 10 倍，Grok 3 reasoning 首次引入了 RL 微调，带来了深度推理能力。Grok 4 reasoning 的强化学习再度提升了 10 倍的计算量，这意味着显著的推理能力提升。

另外因为调用工具能力的提升，Grok 4 进一步放大了自身智慧。因此可以在各类高难度 Benchmark 上实现远超 SOTA 的成绩。

接下来是重头戏：Grok 4 的基准测试结果。

首先是 HLE（Humanities Last Exam，人类最后的考试），包括数学、化学和逻辑学。在上周六泄露的基准测试结果中，Grok 4 在 HLE（Humanities Last Exam，人类最后考试）上的标准得分是 35%，使用推理技术后提高到 45%，但多数网友持质疑态度。

在今天的直播中，xAI 研究人员表示，以往的 SOTA 模型在使用工具（with tool）的情况下，成绩最高可以达到 41.0%。

如今，Grok 4 进一步提升了这一基准测试成绩。

具体来讲，与其他 SOTA 模型（o3、Gemini 2.5 Pro）相比，在使用工具的情况下，Grok 4 的成绩为 38.6%，Grok 4 Heavy 的成绩飙升到了 44.4%。如果让大模型在测试时花费更多时间思考，并恰当的使用更多外部工具，则 HLE 的分数还能进一步提升到 50.7%。

关于其他更多基准测试结果，包括 GPQA（研究生级别的 Google 验证问答基准测试）、AIME25（美国数学竞赛邀请赛）、LCB（Jan-May）（编程竞赛 / 在线算法竞赛）、HMMT25（高中生团队数学竞赛）和 USAMO25（美国顶级高中生数学竞赛）。从下图可以看到，Grok 4 Heavy 均取得了最新 SOTA。

相比之下，人类面对 HLE 测试也几乎答不上几个题。马斯克多遍强调：Grok 现在在所有学科都达到了博士后水平，没有例外。它没有发现新科学或是新的物理定律，但这只是一个时间问题。

「如果 Grok 在今年内没有发现实用的新科学技术，我会感觉很意外，」马斯克表示。

大模型性能评估平台 Artificial Analysis 的全套基准测试成绩表明，Grok 4 已经成为当前领先的 AI 模型，总成绩达到了 73 分，领先于 o3、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1 0528。

想象一下我们现在处在的位置，我们正处于智能发展的大爆炸过程中，这是人类历史上前所未见的。是时候看看 Grok 4 具体能做些什么了。

我们来看一两个 demo，比如「基于物理原理的 HTML 动画，模拟两个黑洞碰撞并产生引力波的 30 秒可视化效果」：

Grok 4 几乎完整地呈现了从两个黑洞接近到最后合并结束的引力波模拟效果。动图的一边是推理过程和计算的步骤和代码，查阅的论文每一篇都有链接。

02 多语言、语音、角色功能等方面能力提升

除了各大语言基准成绩的提升，Grok 4 在其他方面同样得到了加强。

其中，Grok 4 的语音能力相较于上代速度快了 2 倍，端到端延迟更低；支持 5 种语音；单日用户总停留时长提升了 10 倍。

新增的 Grok 角色 Eve 和 Sal 现已可在 iOS 版 Grok 中使用，Sal 支持多种性格，Eve 可以唱歌和低语。

在 ARC-AGI 基准测试集中，它专门设计用于评估人工智能系统通用推理能力，被视为通向 AGI 的重要试金石，旨在检验模型是否能像人类一样灵活解决从未见过的新问题。

在这个直指 AGI 核心能力的超难基准上，Grok 4 同样取得了最新 SOTA，其中在 ARC-AGI-2 上达到 15.9%，几乎将之前的商业 SOTA 翻了一番，并超越了当前的 Kaggle 竞赛 SOTA。

在 Vending-Bench 基准测试中，它专注于评估智能体在真实物理世界中执行复杂操作任务的能力，其核心目标是解决传统模拟环境（如 Habitat、AI2-THOR）与真实世界间的「Sim2Real Gap」（仿真到现实的鸿沟），推动机器人技术在开放场景中的实际应用能力。

可以看到，Grok 4 相较于 Claude Opus 4、Human、Gemini 2.5 Pro、o3 取得了领先。

Grok 4 可通过 API 调用，提供 256K tokens 的上下文窗口。目前已经开放使用，版本号为 grok-4-0709，价格与 Grok 3 相同。

根据 Artificial Analysis 的测试，xAI 的 API 当前以每秒 75 个 token 的速度提供 Grok 4 服务，速度虽不及 o3（每秒 188 个 token），但优于 Claude 4 Opus Thinking（每秒 66 个 token）。

最后是游戏体验，DannyLimanseta 在 4 小时内用 Grok 4 制作了一款 FPS 射击游戏，Grok 不仅可以用于制作游戏，还能实际运行游戏，洞察优秀游戏的要素并提出改进建议。看着效果真的挺不错。

03 付费会员价格昂贵，

接下来计划发布多款模型

下一步，xAI 预计将发布代码模型、多模态智能体以及视频生成模型，看起来新产品发布要达到月更的速度。

目前，Grok 4 已经上线，不过需要付费使用，而且价格相当昂贵。其付费模式分为年付和月付两种，其中 SuperGrok 是每年 300 美元（折合人民币约 2154 元），SuperGrok Heavey 则是每年 3000 美元（折合人民币 21540 元）。

官网链接：https://grok.com/

转载原创文章请添加微信：founderparker

展开阅读全文

更新时间：2026-04-05

标签：游戏前代满分各学科模型能力测试基准成绩人类工具两个代码

1 2 3 4 5

马斯克发布 Grok 4 模型：推理能力较前代提升 10 倍，各学科测试接近满分

01

Grok 4 在基准测试上的表现

达到人类博士后水平

02

多语言、语音、角色功能等方面能力提升

03

付费会员价格昂贵，

接下来计划发布多款模型

AYANEO FLIP 1S DS & KB 正式发布，旗舰翻盖掌机体验全维度进化

《模拟城市：我是市长》炎炎夏日主题建筑曝光

百亿年入“打脸”监管卡游“二进宫”利润被“金主”坑了

“暑”于南海，当然好玩，首批233场活动，天天有精彩

实机试玩！魔域口袋版版本前瞻直播

触乐怪话：做个有海的梦吧

特朗普警告无效，普京坚信乌克兰即将总崩溃，控制8州目标将实现

《恐龙小当家》全新demo今日上线多项玩法优化更新！

“抱冬瓜睡觉”突然走红，医生紧急提醒！

小暑养生 | 清热解暑、健脾祛湿、养心安神、护阳防病

【朝医科普】夏日警惕“隐形杀手”——预防一氧化碳中毒

夏季当心“冰箱杀手”！记得这样预防感染

警惕！这些日常习惯正悄悄“杀死”你的心脏，现在改还不晚

医生发现：每天坚持走路的老人，过不了几个月，身体或迎来5变化

洗头后这个惯性动作，会加重脱发

记录破得有点快，两款RTX5050游戏本不足5000元，最低4559

大模型测评报告：DeepSeek、豆包位于满意度第一梯队

未来已来！中国，或将成为全球乃至人类历史上第一个“电力

最新乙女游戏《Honey Vibes》亚洲繁体中文版预定于202

3元“皮肤号”暑假热销，可绕过未成年人游戏时长限制，有

亚洲杯对手解析之韩国队：中国女篮两个方面占优，有望轻松

WTT女单孙颖莎等6人晋级16强，男单3人，包括双人也取得好

服务型游戏吸走玩家时间！分析师称其威胁大于XGP

《我的世界》创始人：买游戏若不算拥有盗版便不算偷

腾讯代理、育碧研发，FPS游戏《彩虹六号》国服开启预约