清华大学告诉你中文AI谁最强

作者手机内常用的AI软件

AI大模型方兴未艾，国内互联网巨头纷纷下场推出自己的AI大模型，那么谁家大模型最强？

笔者从去年开始使用ChatGPT以及微软edge浏览器自带的bing AI，深感国外大模型对中文的支持以及本地化做的仍然不足，所以十分关注国内厂家的AI产品。很荣幸的是我很早拿到了讯飞星火和百度文心一言的内测资格，实话实说，初期的星火和文心一言比bing AI都难用数倍，之后我对字节系的豆包APP更是常常吐槽。

没想到到了今年年初，悄然发现，我已经很久很久没用国外大模型，除了需要做一些涉外种种工作时会偶尔用到Copilot（原Bing AI，ChatGPT 4 Turbo大模型）外，我已经习惯国内大模型，它们的进化速度令人欢喜鼓舞，但你要问我谁最好，实话实说，个人用起来PC端更习惯星火，移动端偏向豆包（云雀大模型），图画偏向天工（天工大语言模型）。

但这只是基于我自己习惯的主观看法，清华大学用更加严谨和复杂的统计方法，以量化的方式评比出了他们心目中最佳中文AI大模型。

2024年3月，清华大学基础模型研究中心携手中关村实验室发布《SuperBench大模型综合能力评测报告》。

这份报告网罗了目前国内外最具影响的十四个AI大模型。通过综合能力评测，该报告认为百度文心一言是目前（或者说截至今年三月份之前）针对中文语言理解、数学能力等领域最好的AI大模型。

最引人关注的无疑是各大模型对中文的处理能力，也就是中文理解方面。文心一言（文心一言4.0，下同）在推理和语言评测中分数遥遥领先，其他模型与之相比差距较为明显，最令笔者震惊的是，我最习惯使用的讯飞星火竟然挂车尾。要说明的是，在不考虑中文的前提下，语言能力上文心一言降到第三，不及谷歌的Claude-3和GLM4，但仍领先ChatGPT 4的Turbo版和网页版。

所有人都在期待ChatGPT 5的发布

数学能力方面，文心一言与Claude-3并列第一，这一成绩体现了文心一言在数学逻辑和推理方面的强悍实力，并让人眼前一亮。此外，文心一言还在安全方面排名第一。

其它大模型也非吴下阿蒙，它们各有各的强项和优势，比如ChatGPT 4 Turbo版和网页版就分别拿下了代码编写第一、第二；智能力方面Claude-3和ChatGPT 4也是领先对手包揽前三，其中阿里的通义千问2.1是国内表现最好的智能力大模型，文心一言反而排名靠后。

总的来说，国内AI大模型方面基本接近美国水平，可以说和美国组成AI大模型领域的第一梯队，远远甩开其它国家的竞争对手。

不过我们还是要证实差距，美国AI大模型在方向创新上还远远强于我们，比如Meta，又比如ChatGPT 5，我们现阶段仍是在国外大模型背后亦步亦趋，带领行业走出自己的创新道路短时间内仍然艰难，需要从业者们继续努力。

展开阅读全文

页面更新：2024-05-05

标签：清华大学中文天工星火美国最强模型习惯能力语言国内

1 2 3 4 5

清华大学告诉你中文AI谁最强

上架即封神！3k Star 的开源游戏模拟器，Delta 冲上 App Store 免费榜

华为Pura70再成爆款，带火国产供应链，摆脱“苹果依赖症”正当时

人民日报点名叫停，上千万用户上当受骗！中国移动开始慌了！

不是，Pura70性能直逼8G2？别想了！还得Mate70出手

美国商务部长：尽管华为的芯片取得突破性进展，但仍落后美国多年

一笑泯恩仇，周鸿祎相隔14年后主动和马化腾握手言和，评论笑死

手机千万不要这样充电，否则离报废不远了，人人都在犯

苹果公布2023供应链名单：这些中国大厂被剔除新增8家

9 个舍不得卸载的黑科技 app

Pura 70只是开胃菜，纯血版Mate 70才是真正的大餐？

4.22收评：再次预判正确，做好准备，明天周二会这样走！

一季度安徽各市财政收入出炉：四市负增长、芜滁差距扩大

闹大了！高铁出差错，广州南不停开到深圳，1000多乘客无法下车

社保卡过期了？！别点！人社部专门提醒

刚刚，财政部重磅发声！

美国商务部长：尽管华为的芯片取得突破性进展，但仍落后美

大华股份出售美国子公司，将彻底撤出美国市场

数码宝贝最强团队皇家骑士，其成员实力差距却是天差地别

一生受益的10个好习惯

“五一”假期旅游市场预热国内长线游和出境游热度飙

这下美国尴尬了！还停止光刻机维修？阿斯麦回应，一点面子都

美国人眼中，中方想建自己的空间站，必须要获得“6个国家

Kimi、文心一言、豆包等8款AI模型哪个更适合你？附测试

三星小公主死亡事件：千亿财阀爱女，以极离奇的方式，死于美

人民币大涨痛击空头，做空日元真相大白！美债违约美国赖账