Meta的Maverick AI模型在基准测试中的排名已明显低于竞争对手

本周早些时候，Meta因使用其 Llama 4 Maverick 模型的未发布实验版本在众包基准测试 LM Arena 上取得高分而陷入困境。此事促使 LM Arena 的维护人员道歉，并修改了他们的政策，并使用未经修改的原版 Maverick 进行评分。事实证明，它的竞争力并不强。

截至周五，未经修改的 Maverick 模型“
Llama-4-Maverick-17B-128E-Instruct”的排名低于OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 和Google的 Gemini 1.5 Pro 等模型。这些模型中有许多甚至都是几个月前推出的。

为什么表现不佳？Meta上周六发布的图表中解释道，其实验性的 Maverick 模型
Llama-4-Maverick-03-26-Experimental 已“针对对话性进行了优化” 。这些优化显然在 LM Arena 中表现出色，因为该平台要求人类评分员比较各个模型的输出，并选择他们更倾向于哪个模型。

由于各种原因，LM Arena 从来都不是衡量 AI 模型性能的最可靠指标。然而，根据基准定制模型——除了具有误导性之外——也使得开发人员难以准确预测模型在不同环境下的表现。

Meta 发言人在一份声明中表示，Meta 尝试了“所有类型的自定义变体”。

“‘
Llama-4-Maverick-03-26-Experimental’ 是我们测试过的聊天优化版本，在 LMArena 上也表现良好，”该发言人表示。“我们现在已经发布了开源版本，并将观察开发者如何根据自身用例定制 Llama 4。我们非常期待看到他们最终的成果，并期待他们持续的反馈。”

展开阅读全文

更新时间：2025-10-15

标签：基准模型变体实验性不佳发言人评分期待版本测试科技

1 2 3 4 5

Meta的Maverick AI模型在基准测试中的排名已明显低于竞争对手

“诺贝尔奖风向标”盖尔德纳奖揭晓，8位科学家斩获殊荣

杭州这条重要高铁，年底具备通车条件

AI写诗会取代人类吗？胡丘陵讲演“诗歌创作与青少年成长”

美国千防万防，没想到这一天来的这么快！特朗普估计也坐不住了吧

无锡600万资产家庭只有40800，为何感觉身边遍地富豪？

结婚不再需要户口本

还在吹美国离不开中国制造？这些潜藏在中国的美国货，你可曾知道

身价425亿！中国首富张一鸣捧出了个河北女首富

4月10日央行开展659亿元7天期逆回购操作

特朗普关税战的幕后操盘手是谁？

沙老大累跌220元！关税大战愈演愈烈，废钢何时探底？

我国这次赔大了！花费七年时间打造沙特高铁，到头来居然亏损40亿

铜陵有色成交额突破10亿元公司回应生产销售计划稳步推进

4月9日A股猛料：隔夜美国再加税50%！中概股重挫！汇率跌破7.4！

4月9日晚，现货黄金站上3080美元/盎司，日内上涨3.3%

期待值拉满！相约福建最美四月天~

西北农林科技大学与西安海关共建国门生物安全宣传教育

凯乐航空科技（珠海）有限公司成立，注册资本200万人民币

GPU-Z更新v2.65版本：支持AMD Radeon RX 9070 GRE等新显

港股迎来全线大涨！港股科技ETF涨6%，小米集团、腾讯控股

汉朔科技IPO发行价27.5元/股，4.57万股遭“弃购”

贵阳市“科技云”推介暨科技政策宣讲会花溪大学城专场

智汇季华，融创未来！市女科协走进季华实验室共话科技与产

WCBA总决赛四川女篮G3还魂，G4天王山之战双方都期待“奇