Meta 彻底翻车!Llama 4 实测拉胯,官方承认“有问题”,DeepSeek?

在2025年4月8日凌晨1点半,Meta生成式AI团队负责人Ahmad Al-Dahle在社交媒体上发表了一篇长文,对前两天刚刚开源的Llama 4所遭遇的质疑进行了官方回应。

Ahmad提到,Llama 4在开发完成后便立即发布,因此不同服务中的模型表现可能会存在一些差异。Meta会尽快修复这些问题以提升性能,并坚决否认在测试集上进行了预训练。

此外,Meta在发布中特别提到了DeepSeek,声称其新开源的Llama 4 Maverick在代码方面的能力可与其新发布的V3模型媲美,这一内容也被国内多家知名媒体用作标题。然而,从目前来看,Meta的首次反击并没有取得预期的效果,大家期待他们后续的优化以及正在训练的2万亿参数的教师模型。


Ahmad在声明中表示,他们很高兴能够让大家使用Llama 4,并且听到了很多用户在使用这些模型时取得的良好成果。然而,他们也接收到了一些关于不同服务中模型质量不一的反馈。由于模型一发布就立即上线,团队预计所有公开应用的实现需要几天时间来进行相应的优化和调整。他们将继续修复潜在问题,并与合作伙伴完成整合工作。此外,有人指责Llama 4是在测试集上进行训练的,这种说法完全没有根据,他们对此予以否认。根据团队的评估,用户所感受到的质量差异主要源于应用实现还需稳定化处理。他们坚信Llama 4模型代表了一项重要的技术进步,并期待与社区的合作,以充分发挥其价值。

事实上,Llama 4在开源的当天就受到了一些对其性能的质疑。有用户指出,相比于Grok 3DeepSeek V3以及Sonnet 3.5/7,其代码生成能力明显不如前者。


无论是Scout还是Maverick模型,在使用详尽的提示词时,实际编码的效果似乎都很差。考虑到Meta公司所付出的努力,我对这个拥有4000亿参数的模型(即使是混合专家模型)表现如此不理想感到非常惊讶。与DeepSeek V3相比较,其差距明显。


我们对不同平台上提供的ScoutMaverick进行了测试,结果显示这两款模型表现不尽人意,甚至不如一些参数规模较小的模型。

在处理基础编程任务时,它们经常出现错误,并且在遵循指令方面的能力也很有限。Maverick的排名与谷歌的Gemini 2.5相近,这让人感到担忧。这些模型给人的印象仿佛仍停留在GPT-3.5的时代。我们欣慰的是,Meta已经意识到这些问题并正在采取措施进行改进。


能够提前使用Llama 4确实令人兴奋,但有一个关键点需要注意:一个强大的模型的实际表现依赖于其应用的实现情况。

在实验室中的测试结果,并不一定能反映出用户在实际操作中所体会到的效果。正是这种过度宣传与现实应用之间的差距,才是真正需要我们努力去弥补的地方。


考虑到许多运行时环境都是开源的,或许在未来发布产品之前,你们可以确保所有修复措施都已经到位,以避免出现类似的混乱局面。说“是你的使用方式不对”听起来并不太令人愉快。


一些网友也对Meta进行质疑,认为其存在刷榜行为。他们指出,“质量参差不齐”这一说法并不准确,因为在他们看到的每一项基准测试中,Llama 4的表现都非常糟糕,除非所参考的是LMSYS的“1417 eon”测试结果。

他们也在问,Meta开放了哪个API给LMSYS?因为目前LMSYS模型列表中的表现也并不理想。


Llama 4的表现令人失望,显然在这方面你们的工作做得相当糟糕。与其误导公众,不如坦诚承认错误。虽然不确定是否真的在测试集上做了手脚,但考虑到它在基准测试中取得的高分与现实应用中表现的差强人意,这种可能性看起来是相当大的。


在聊天机器人领域的大语言模型排行榜上,MetaLlama 4 Maverick 在编程能力方面居于首位。然而,我发现它在处理许多复杂或中等难度的编程任务时表现不佳,远不如 DeepSeek V3 - 0324Claude 3.5/3.7 SonnetGemini 2.0 Pro。因此,有网友对此提出质疑,认为可能存在 Meta 夸大排名的情况。


从发布的时间来看,Meta 显然没有做好充分准备。这款作为开源领域 ChatGPT 先驱之一的 Llama 4,竟选择在美国周六晚上(国内是周日凌晨3点)进行发布,这显得不合常理。以往,Llama 系列的发布通常安排在美国的周二或周三上午10点左右,发布 Llama 4 的时机显得有些心虚。

与此同时,DeepSeek 的崛起给 Meta 带来了巨大的压力,导致他们的用户和口碑正面临严重流失,于是急需一款强有力的产品来扭转局面。今年春节期间,DeepSeek 的热潮让人瞩目,Meta 甚至专门组建了一个“作战研究室”来研究其模型,但最终的结果却不尽如人意。

此外,由于关税政策的影响,Meta 的股价遭遇重创,他们同样迫切需要发布一些积极的消息来提升股价,但目前的情况却恰恰相反。

展开阅读全文

更新时间:2025-04-16

标签:翻车   基准   模型   团队   参数   效果   能力   情况   质量   测试   官方   用户   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top