Meta 彻底翻车！Llama 4 实测拉胯，官方承认“有问题”，DeepSeek？

在2025年4月8日凌晨1点半，Meta生成式AI团队负责人Ahmad Al-Dahle在社交媒体上发表了一篇长文，对前两天刚刚开源的Llama 4所遭遇的质疑进行了官方回应。

Ahmad提到，Llama 4在开发完成后便立即发布，因此不同服务中的模型表现可能会存在一些差异。Meta会尽快修复这些问题以提升性能，并坚决否认在测试集上进行了预训练。

此外，Meta在发布中特别提到了DeepSeek，声称其新开源的Llama 4 Maverick在代码方面的能力可与其新发布的V3模型媲美，这一内容也被国内多家知名媒体用作标题。然而，从目前来看，Meta的首次反击并没有取得预期的效果，大家期待他们后续的优化以及正在训练的2万亿参数的教师模型。

Ahmad在声明中表示，他们很高兴能够让大家使用Llama 4，并且听到了很多用户在使用这些模型时取得的良好成果。然而，他们也接收到了一些关于不同服务中模型质量不一的反馈。由于模型一发布就立即上线，团队预计所有公开应用的实现需要几天时间来进行相应的优化和调整。他们将继续修复潜在问题，并与合作伙伴完成整合工作。此外，有人指责Llama 4是在测试集上进行训练的，这种说法完全没有根据，他们对此予以否认。根据团队的评估，用户所感受到的质量差异主要源于应用实现还需稳定化处理。他们坚信Llama 4模型代表了一项重要的技术进步，并期待与社区的合作，以充分发挥其价值。

事实上，Llama 4在开源的当天就受到了一些对其性能的质疑。有用户指出，相比于Grok 3、DeepSeek V3以及Sonnet 3.5/7，其代码生成能力明显不如前者。

无论是Scout还是Maverick模型，在使用详尽的提示词时，实际编码的效果似乎都很差。考虑到Meta公司所付出的努力，我对这个拥有4000亿参数的模型（即使是混合专家模型）表现如此不理想感到非常惊讶。与DeepSeek V3相比较，其差距明显。

我们对不同平台上提供的Scout和Maverick进行了测试，结果显示这两款模型表现不尽人意，甚至不如一些参数规模较小的模型。

在处理基础编程任务时，它们经常出现错误，并且在遵循指令方面的能力也很有限。Maverick的排名与谷歌的Gemini 2.5相近，这让人感到担忧。这些模型给人的印象仿佛仍停留在GPT-3.5的时代。我们欣慰的是，Meta已经意识到这些问题并正在采取措施进行改进。

能够提前使用Llama 4确实令人兴奋，但有一个关键点需要注意：一个强大的模型的实际表现依赖于其应用的实现情况。

在实验室中的测试结果，并不一定能反映出用户在实际操作中所体会到的效果。正是这种过度宣传与现实应用之间的差距，才是真正需要我们努力去弥补的地方。

考虑到许多运行时环境都是开源的，或许在未来发布产品之前，你们可以确保所有修复措施都已经到位，以避免出现类似的混乱局面。说“是你的使用方式不对”听起来并不太令人愉快。

一些网友也对Meta进行质疑，认为其存在刷榜行为。他们指出，“质量参差不齐”这一说法并不准确，因为在他们看到的每一项基准测试中，Llama 4的表现都非常糟糕，除非所参考的是LMSYS的“1417 eon”测试结果。

他们也在问，Meta开放了哪个API给LMSYS？因为目前LMSYS模型列表中的表现也并不理想。

Llama 4的表现令人失望，显然在这方面你们的工作做得相当糟糕。与其误导公众，不如坦诚承认错误。虽然不确定是否真的在测试集上做了手脚，但考虑到它在基准测试中取得的高分与现实应用中表现的差强人意，这种可能性看起来是相当大的。

在聊天机器人领域的大语言模型排行榜上，Meta 的 Llama 4 Maverick 在编程能力方面居于首位。然而，我发现它在处理许多复杂或中等难度的编程任务时表现不佳，远不如 DeepSeek V3 - 0324、Claude 3.5/3.7 Sonnet 或 Gemini 2.0 Pro。因此，有网友对此提出质疑，认为可能存在 Meta 夸大排名的情况。

从发布的时间来看，Meta 显然没有做好充分准备。这款作为开源领域 ChatGPT 先驱之一的 Llama 4，竟选择在美国周六晚上（国内是周日凌晨3点）进行发布，这显得不合常理。以往，Llama 系列的发布通常安排在美国的周二或周三上午10点左右，发布 Llama 4 的时机显得有些心虚。

与此同时，DeepSeek 的崛起给 Meta 带来了巨大的压力，导致他们的用户和口碑正面临严重流失，于是急需一款强有力的产品来扭转局面。今年春节期间，DeepSeek 的热潮让人瞩目，Meta 甚至专门组建了一个“作战研究室”来研究其模型，但最终的结果却不尽如人意。

此外，由于关税政策的影响，Meta 的股价遭遇重创，他们同样迫切需要发布一些积极的消息来提升股价，但目前的情况却恰恰相反。

展开阅读全文

更新时间：2025-10-05

标签：翻车基准模型团队参数效果能力情况质量测试官方用户科技

1 2 3 4 5

Meta 彻底翻车！Llama 4 实测拉胯，官方承认“有问题”，DeepSeek？

神十九将回家！神舟二十号要出征了，未来空间站首次迎国外航天员

【高质量发展】蒙阴县自然资源和规划局：共筑世界地质公园可持续发展未来

6620mAh！华为新机定了：4月25日即将开售

SHEIN已获得英国批准在伦敦IPO；字节否认游戏业务独立上市；

沪渝蓉高铁沪宁段二标上海特大桥跨宝钱公路现浇连续梁合龙

智库报告：中美贸易战为印度电商出口带来巨大机遇

徒步党狂喜！天玑9400+双蓝牙连接跨越10公里！

快卸载！快卸载！快卸载！

出口转内销后第一个卖空了库存的企业诞生了

李嘉诚打破沉默，美军公然前往巴拿马，澳方紧随其后想要撕毁协议

券商板块：大胆预判今日走势，周五（4月11号）早评策略分析

双旗舰芯片+DeepSeek上车，9.98万元的零跑B10要火？

4月11日零点上市公司重大利好利空公告

卖一台4000元的电动车，爱玛、雅迪、九号的商家，各自能赚多少钱

A股V型反转炸裂！证券股掀涨停潮，期指飙升15点暗藏降息密码

【高质量发展】蒙阴县自然资源和规划局：共筑世界地质公

何以中国丨新疆这个“大饺子”竟是千年前的助眠黑科技

长期运动可以促进大脑清理代谢废物丨一周科技

马信真到三甲集镇和经济开发区调研项目建设企业生产情

美国三大股指集体低开英伟达、特斯拉等科技巨头走低

收官战可以打！NBA官方：撤销爱德华兹昨日对阵篮网领到的

大阪世博会中国馆开馆，官方合作伙伴古井贡酒连续六届亮

深科技：密切关注国际贸易政策变化并推进业务发展