红杉中国推出全新AI基准测试xbench

新榜讯 5 月 26 日,红杉中国重磅宣布推出全新的 AI 基准测试 xbench,同时发布相关论文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。据悉,这是首个由投资机构发起,联合国内外十余家高校以及研究机构的数十位博士研究生共同打造的 AI 基准测试,其采用双轨评估体系与长青评估机制。xbench 不仅能评估并推动 AI 系统能力提升上限及技术边界,还将重点量化 AI 系统在真实场景中的效用价值,并长期追踪 Agent 产品的关键突破。

展开阅读全文

更新时间:2025-05-28

标签:科技   红杉   基准   中国   测试   双轨   系统   重磅   效用   上限   边界

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top