红杉中国正式开源AI基准测试xbench评测集

观点网讯:6月18日,红杉中国在中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch,旨在服务大模型和AI Agent开发者,避免静态评测集常见的过拟合问题,确保工具长期有效。

该开源举措将基于AI发展动态更新评测集,采用“黑白盒”机制提升模型评估准确性。红杉中国表示,这有助于推动AI技术创新,并为开发者提供可靠基准支持。

免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。

本文源自观点网

展开阅读全文

更新时间:2025-06-19

标签:科技   红杉   基准   中国   正式   测试   观点   开发者   模型   本文   技术创新   举措   静态

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top