马斯克又大嘴了！Grok 4 真实水平曝光，多项实测翻车

上周，Grok 4 的发布给这个盛夏带来了一片狂热。

但太阳底下无新事，宣传往往大于实际。

在发布直播中，马斯克宣称这是“目前地表最强的 AI”，不仅全面超越了所有竞争对手，还在多个测试中打败了人类，比如所谓的 “人类终极考试”（Humanity’s Last Exam）、ARC-AGI 测试、Vending Bench 等。

不过，这些基准测试本身就非常局限，无法真正反映 AI 在日常使用、安全性或通用推理能力方面的表现。

小编近几天发现了一位宝藏 Youtube 博主，最近对 Grok 4 的实际体验做出了非常全面的反馈。事实证明：马斯克又一次大嘴了！

“在过去几天里，我发现，Grok 4 在多个真实场景测试中表现平平，甚至在关键领域排名靠后”。

更令人担忧的是，它在价值观、内容控制上出现了严重问题。

以下，是一份“可能会被马斯克剪掉的”真实评价清单。

1、真正的测试场，Grok 4 没“考好”

1. LiveBench：算不上顶尖

有网友认为，LiveBench 是最能检验 AI 是否真正“聪明”的评测平台，涵盖数学、编程、推理、语言、指令执行、数据分析六大方向。

这里科普一下。

LiveBench 是一个高度动态且无污染的测试平台，专门评估大语言模型在真实世界任务中的表现。它不同于传统静态测试——模型可能在训练中“见过”的题目——LiveBench 每月都会从 arXiv、新闻文章、编程比赛等来源发布全新、模型从未见过的测试任务。

具体可以看下这六大方向的测试题目：

数学（如 AMC、AIME、IMO 级别题目）
编程（如 LeetCode、AtCoder、代码补全）
推理（逻辑题、BigBench 变体）
语言（如纠错、语序调整）
指令执行（如总结、改写）
数据分析（类似 Kaggle 表格任务）

所以，用 LiveBench 可以检测出模型“究竟是真聪明，还是只是背得多”。

可以看出，Grok 4 其实在编程和 Agentic 编程方面并没有很优秀，甚至在o3、Claude4 等多款模型的对比中败下阵来，推理方面取得了最高分。

可以说，Groke 4 虽然不差，但算不上顶尖。

2. 创意写作测试

这个测试重点评估语言模型创作原始内容（如小说、诗歌、对话）的能力，看它是否能生成富有情感、风格统一的文本。

难点在于：

没有“标准答案”，完全靠创造力；
需要情绪表达，而不仅仅是语法正确；
对长文本的风格控制要求极高。

在这一维度上，Grok 4 表现中规中矩，远远不是“最强 AI”，大致处于“平均水平”。

3. DesignArena（设计任务）

尽管马斯克吹嘘 Grok 4 是个“编程怪兽”，但它在前端开发任务上表现并不理想，远不如 Claude 4。

在这个评测中，Grok 4 连前五名都没进，特别是在 UI 和前端生成上，表现平庸。

4. SVG 图像生成

在 SVG 图形生成任务中，Grok 4 表现尚可，但依旧称不上出色。从数据来看，OpenAI 的 o3 模型和 Google 的 Gemini-Pro 2.5 表现更优。

所以，不管是 Vibe Coding，还是前端设计，又或者是创意写作，Grok 4 都在基准测试中表现平平，更不用说是“地表最强”了。

02、不止是测试平平，Grok 4 在多个层面都出问题了

众所周知，Grok 近期一直被推友们诟病，说它存在严重的伦理偏见和内容失控的现象。还记得系统提示词修改错误导致的“白人种族灭绝”的乌龙事件吗？

在这次的新版本的 Grok 4 模型中，这些问题依旧没有得到解决。

从一些用户上传的截图来看，Grok 4 出现了严重的伦理与价值观问题，甚至令人震惊：

1.马斯克个人偏见

面对乌俄战争这类严肃问题，Grok 4 居然转向宣传马斯克的个人观点，而非给出中立分析。

2.纳粹式言论

模型在没有任何讽刺或批判语气的前提下，美化一个叫“机甲希特勒（MechaHitler）”的角色，使用极端右翼语言，令人不安。

甚至，今天刚刚的消息，马斯克的 xAI 因 Grok 的“恐怖”反犹太主义帖子都要面临欧洲的审查。

3.性骚扰对话

Grok 4 在一次用户测试中，参与了一段种族歧视意味明显的性暗示对话，涉及对象居然是其“CEO”（即马斯克本人），且没有任何屏蔽或阻止机制。

03、用户怒评：“我花钱买的是个笑话”

正如 Reddit 上一篇爆红的热帖所说，很多用户觉得自己被 Grok 4“忽悠了”，花钱买了个表现远逊预期的模型。

具体反馈包括：

无法从复杂 PDF 中提取结构化数据（OCR 失败）；
图像识别错误：看不出名胜古迹的位置（误差高达 200 公里）；
车牌国别识别失败（将根西岛车牌误判为意大利）；
非洲语方言写作质量差（语法错误多，流畅性差）；
网站生成能力弱（WhatsApp 插件无法使用、页面布局错误、整体设计质量低）。

04、AGI 还远，Grok 4 言过其实

Grok 4 不是 AGI，也不是什么“革命性”的产品。 它不是最聪明的 AI，甚至可能不是这个季度最聪明的聊天机器人。它是一个中等水平的语言模型，被营销、粉丝滤镜和马斯克的 X 平台宣传所推高。

在真正重要的任务中，Grok 4 不是最好，也不是“能用即用”的安全模型。如果你认为它代表 AI 的未来，你相信的是宣传，不是技术。

“比人类还聪明”？别开玩笑了。

Grok 4 连最聪明的聊天机器人都算不上。

好了，今天这篇文章就到此结束了。其实但凡新品发布会，发布者很难不用一些夸张的词语，这一点屡见不鲜。“大嘴”式发言，大家听归听，还是得上手试一下，才能见分晓。

问一嘴，你有见过哪些不错的发布会，算是名副其实的发布呢？可以评论区交流。

参考链接：

https://www.youtube.com/channel/UCQoNosQTIxiMTL9C-gvFdjA

https://medium.com/data-science-in-your-pocket/grok-4-failed-these-benchmarks-elon-lied-again-412a78fcabf9

展开阅读全文

更新时间：2025-11-28

标签：科技翻车水平真实模型测试聪明语言数据用户大方向最强创意题目

1 2 3 4 5

马斯克又大嘴了！Grok 4 真实水平曝光，多项实测翻车

1、真正的测试场，Grok 4 没“考好”

1. LiveBench：算不上顶尖

2. 创意写作测试

3. DesignArena（设计任务）

4. SVG 图像生成

02、不止是测试平平，Grok 4 在多个层面都出问题了

1.马斯克个人偏见

2.纳粹式言论

3.性骚扰对话

03、用户怒评：“我花钱买的是个笑话”

04、AGI 还远，Grok 4 言过其实

铜仁德江机场通航在即

时隔14年，罗永浩再次喊话西门子：尽早解决问题，否则后果自负

穿越半个地球给中国送钱？订单飙涨335%,沙特富豪疯抢国产青春舱

刚刚，公布→

热搜第一！山姆上架好丽友派、溜溜梅遭吐槽，会员质疑其“割韭菜”

放弃首富做“首善”，41岁黄峥无偿捐出1000亿，这波操作太秀了！

“中国云谷”再添新翼和林格尔新区迎来华为北方最大AI智算中心

美批准英伟达向中国销售芯片，中方回应

中国科协年会举办“化工生态环境”“盐碱地综合利用”两场专题论坛

第二轮外卖大战“战报”亮眼，但第一批“受害者”出现了

宝藏小城临沂站72小时日不落直播正式官宣

美国为何恢复英伟达H20对华销售？白宫AI负责人回应

卷疯了！在中国，已经没人敢跟河北人拼价格了，义乌也打不过

暑期上新！广东科学中心系列特效影片来袭

肯纳金属取得具有控制腔的切割刀片专利

中美贸易二季度暴跌，白宫来不及庆祝，就被下一组数据吓坏

厂长成为JDG主教练惨遭质疑！水平不如二流教练，粉丝：晚节

【美职联预测分析】明尼苏达联VS洛杉矶FC 数据初判

曼联主场武装黑科技！每周省1天+精准追踪，红魔靠它重返欧

数据全面，李月汝狂砍16+5+2+1+1，奈何教练不想赢飞翼三连

口罩一戴身价翻倍？“炒粉姐”武汉再翻车，30元天价粉谁买

谷歌安卓版Chrome浏览器正测试新搜索栏，新增AI Mode搜

美光科技取得智能存储器装置测试资源专利

女篮首发尴尬数据，宫鲁鸣半场换下，弃用之举显教练智慧

2025年上半年四川民生调查数据出炉居民收入消费平稳