多知8月6日消息,谷歌发起的首届大模型对抗赛引发了广泛关注。此次比赛于8月5日至7日在 Kaggle Game Arena 举行,汇聚了包括 DeepSeek、Kimi 等在内的八款顶尖 AI 模型,竞争将在策略游戏(如国际象棋和其他游戏中)中展开对决。
第一轮比赛,Grok 4 表现最好,Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的战绩分别击败 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晋级半决赛。
Kaggle Game Arena是谷歌推出的一个全新的、公开的基准测试平台。此次参赛的模型包括 OpenAI 的 o4-mini、DeepSeek-R1、Kimi K2Instruct、Gemini2.5Pro(谷歌)、Claude Opus4(Anthropic)、Grok4(xAI)及 Gemini2.5Flash 等,每一款模型都代表了当前 AI 领域的最前沿技术。组织方特别邀请了世界顶级国际象棋专家进行解说,为比赛增添了专业性与观赏性。
截至目前,大语言模型在象棋对弈中暴露出的问题包括:全局棋盘视觉化能力不足、棋子间互动关系理解有限……
至于Grok 4 表现最好,马斯克的解释是:“国际象棋很简单,Grok 没花费太多力气。”
马斯克认为,毫无疑问,Grok 的推理能力就是强。
更新时间:2025-08-08
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号