Meta的Maverick AI模型在基准测试中的排名已明显低于竞争对手

本周早些时候,Meta因使用其 Llama 4 Maverick 模型的未发布实验版本在众包基准测试 LM Arena 上取得高分而陷入困境。此事促使 LM Arena 的维护人员道歉,并修改了他们的政策,并使用未经修改的原版 Maverick 进行评分。事实证明,它的竞争力并不强。

截至周五,未经修改的 Maverick 模型“
Llama-4-Maverick-17B-128E-Instruct”的排名低于OpenAI 的 GPT-4o、Anthropic 的 Claude 3.5 Sonnet 和Google的 Gemini 1.5 Pro 等模型。这些模型中有许多甚至都是几个月前推出的。

为什么表现不佳?Meta上周六发布的图表中解释道,其实验性的 Maverick 模型
Llama-4-Maverick-03-26-Experimental 已“针对对话性进行了优化” 。这些优化显然在 LM Arena 中表现出色,因为该平台要求人类评分员比较各个模型的输出,并选择他们更倾向于哪个模型。

由于各种原因,LM Arena 从来都不是衡量 AI 模型性能的最可靠指标。然而,根据基准定制模型——除了具有误导性之外——也使得开发人员难以准确预测模型在不同环境下的表现。

Meta 发言人在一份声明中表示,Meta 尝试了“所有类型的自定义变体”。

“‘
Llama-4-Maverick-03-26-Experimental’ 是我们测试过的聊天优化版本,在 LMArena 上也表现良好,”该发言人表示。“我们现在已经发布了开源版本,并将观察开发者如何根据自身用例定制 Llama 4。我们非常期待看到他们最终的成果,并期待他们持续的反馈。”

展开阅读全文

更新时间:2025-04-15

标签:基准   模型   变体   实验性   不佳   发言人   评分   期待   版本   测试   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top