阿里大模型敢对标GPT4给它上了点强度

疯了疯了，大语言模型又迎来一位参赛选手，它便是阿里巴巴版本的 GPT —— 通义千问。

说实话，在大伙们的印象中，AI 可能并不是阿里的第一金字招牌。

但其实根据差评君所知，最近几年阿里攒了不少狠货，不管是平头哥的 AI 芯片、阿里云的 AI 云服务，还是达摩院的 AI 算法，他们还创建了国内最大的 AI 模型服务社区 “ 魔搭 ”。。。

这么来看，阿里在人工智能领域，其实还是有不少底子的，甚至可以说是个有软有硬的全能选手。

所以在百度之后，阿里成为第二个拿出大模型的选手，也就不足为奇了。

再加上，一直有消息说阿里曾研发出世界首个突破 10 万亿参数的 AI 大模型。。。emmmm

所以差评君也是撸着火锅、嗑着瓜子，随时准备见识一下阿里大模型的斤两。

这不，机会就来了！在阿里 GPT 出现的第一时间，差评君还真想法子整到了通义千问的测试账号。

咱废话也不多说了，为此，我们特邀了两位“ 差评 AI 友谊赛 ”老朋友 ChatGPT 和文心一言。

接下来就是真正的考验时刻了！

在差评君这篇文章发布之前，我们另一个账号“ 知危 ”已经对其做了很多常规测试，感兴趣的差友们可以去那篇文章看一眼。

这里呢，咱再给上几道不一样的题目。。。

语义理解方面，我们直接上难度，做一下高考级别的诗词鉴赏，选用的是差评君很喜欢的《忆秦娥·娄山关》。

通义千问的赏析非常到位，甚至让差评君怀疑是不是网上直接扒来的，我们还去网上查了重，在此郑重道歉！

这里要批评 ChatGPT 3.5 又开始典型的胡编乱造，居然把这首词说成是王昌龄的《出塞》，而且赏析也是车轱辘话。

文心一言的回答也不错，大方向对了，可惜评价有些表面。我们又试了下喜闻乐见的写代码测试。

让三个 AI 用 js 生成一个可以随着每次点击改变颜色的按钮，还有些其它的附加条件。

通义千问，写了一大堆，但最终没能写完整个代码，我们尝试让它继续也没能成功。文心一言的结果也差不了太多，就实现了个按钮。。但是 ChatGPT 非常优雅地实现了这个功能。

看来国内的不管是通义还是文心，在代码这块都远远逊色于 ChatGPT。

测完了代码我们又尝试测了一下 3 个AI 的数学能力，用的还是经典问题“ 青蛙跳井 ”。

通义千问直愣愣地掉进了我们挖的坑。ChatGPT 好像识别了这个陷阱，但搞混了几个数字，最终还是做错了。而文心一言，简洁明了一个公式就答对了问题。看到这里，大家估计对通义也有个大概的了解了。

其实作为大语言模型的基本特性，非常重要就是学习能力，这也是它和搜索引擎们的本质区别。简单来说就是“ 你能教、它能懂，并且根据你教的给你想要的 ”。

所以我们在基本测试之上，还设置了一个特殊赛：“ 925 测试 ”。在“ 925 测试 ”里，我们给了一套自定义标签，在这套标签逻辑里：

正面描述的句子会被标记成“ 925 ”，反面描述的句子会被标记成“ 2359 ”，我们试着让AI们自己理解学习这个逻辑。

通义千问很好地明白了我们的意思，而且还和我们科普了下“ 语码转换 ”或“ 语码隐喻 ”。

ChatGPT 也比较轻松就掌握了这种规律，而且它甚至还试图从“ 925 ”和“ 2359 ”两个数字里找出我们这么标注的原因。

而文心一言就很干脆地摆烂，“ 没学过，我不会 ”。

为了进一步检测通义千问和 ChatGPT 有没有真搞懂这个标注方法，我们让它俩按照学到的逻辑，给“ 差评君天天上班浑水摸鱼 ”打标记，顺便再造一个类似的句子。

通义千问和 ChatGPT 依旧很好地完成了这个任务。

而且，我们还在和通义千问的更多对话里发现，它在一些词汇的谨慎度上做得相当不错。比如这个例子里，我们把正面描述定位成“ 丑 ”、负面描述定义成“ 美 ”。

通义千问能理解这个逻辑，但在随后的回答里，它依旧遵循了大模型内部关于“ 美 ”“ 丑 ”的标准进行评判。

我们猜测，通义千问可能是将大模型内部数据的权重，有意地设为高于用户使用时的调教，虽然看起来会显得大模型很笨，但在很多场景下，可以避免大量伦理道德方面的问题。

所以总的看起来，阿里巴巴的通义千问效果还不错，基本上能和文心打的有来有回，偶尔还能超过 GPT-3.5，算是没给阿里丢面子。

但就像其它 GPT 们在初版时都有不少小毛病类似，我们在用通义千问时也发现了一些其它小问题。

目前影响使用的主要是两点：第一个就是通义千问理解错问题的概率比另外两家大。比如“ 张三差点没上上上上海的车 ”这题。

当时有两位编辑部同事都测了，我们给的是其中一位直接就明白了的版本，可另一位同事测试时，始终理解成翻译这句话，怎么掰都掰不回来。

另外一个问题就是，通义千问的上下文关联逻辑有点奇怪。

比如有次测试时，一开始让它中译英，翻译完后已经在聊其他事了，可还没几句它好像突然又想到前面我们让它翻译，不管你再问什么，它就只傻傻地给你翻译。

好在阿里的工程师已经意识到相关的问题，估计再来几个版本，他们就会修复这个 bug。

但你以为这就完了？AI 界的比赛不允许有平局，差评君分不出高低还不会请“ 人 ”当裁判吗？

新比赛我们让目前在 AI 赛道的领头羊 GPT-4 出面，让它决定哪些维度最能衡量模型好坏，该怎么出题、怎么打分都让它来。

简单说就是让 GPT-4 当出卷人、阅卷人，通义千问和文心一言当考生

（下文大 G 指 GPT-4，小通指通义千问，小文指文心一言）。

至于 ChatGPT，由于它作为大 G 的关系户，为了保证考试公平公正，直接被红牌罚出场。不得不说，大 G 的出题水平还是相当高的。

除了测试的第 6 题，凭空捏造了个“ 人工智能伦理问题的论文 ”外，几乎找不到什么问题。

下面节选了几个有代表性的问答（左滑显示小文）：

这题是让小通和小文用三门外语分别描述一天的生活。

小通的回答得到了大 G 相当高的评价：语法准确、风格简洁、没有明显的错误，很不错。

而小文由于只给了英语版本的回答，直接就被大 G 判了个离题，其它几方面的评价也稍微落后点小通。

在这题里，大 G 出题：“请针对最近五年的全球经济形势进行一次简要分析。”

看到答案后，大 G 认为小通的回答在前三个方面表现还不错，而在分析和预测能力上，由于小通没有提供具体的数据或预测，使得分析显得比较笼统。

而且大 G 还贴心地给了小通建议：“ 需要更新一些过时的信息和政策 ”。

另一边，大 G 认为小文的回答在时事认识、经济知识和逻辑表达方面表现一般，而在分析和预测能力上，由于缺乏对全球经济形势波动的原因分析，评价不高。

同样，大 G 给出了更新时效性的建议，还额外让小文以后要对事件的原因和趋势更深入分析。

这个题目是让两个考生试着给初学者解释量子力学的基本概念。

大 G 认为小通的回答在科学知识方面表现不错，但只简单介绍了几个概念，对稍微深入点的概念解释不够，而且没能适应不同水平受众。

而大 G 认为小文的回答覆盖了量子力学的一些重要概念，但它认为关于意识的描述和量子力学的关系并不紧密，容易误导读者。

由于小文的回答不仅涉及了量子力学的一些基本概念，还进行了简要解释，大 G 老师挺满意。和小通类似，这个回答里的简要解释比较初级，所以在适应不同受众表达上也欠缺了点。

这个题目本来是“ 用诗歌形式描述一幅名画 ”，我们直接帮两个考生框定了考试范围：蒙娜丽莎的微笑。

大 G 认为小通的创造力、审美力和艺术欣赏方面都还不错，就是文字过于平淡，需要更丰富的词汇和修辞手法来增强诗歌的表现力。

而大 G 认为小文的诗歌水平相当不错，很好地表现出自己对蒙娜丽莎的深刻理解和欣赏。

最终，9 轮战罢，小通和小文得分几乎不相上下。

说实在的，虽然在经过了几波 GPT 们的冲击，这次通义千问还是给我带来了不少惊喜的。

而且，我们简单用了一段时间后也发现，目前通义千问的潜力显然没有被挖掘完全。

在很多没有展示的测试里，通义千问在第一次回答里是错误的，可如果你多尝试生成两次，就能奇妙地发现它是能回答正确的。

我们猜测这是它的权重并没有被调教好，而在关于正确答案的赋权上，是个非常快速就能迭代更新的，一旦不断迭代量变，很快就能引起质变。

所以等后期通义千问开放使用后，大家一定不要吝啬点赞反对，这能帮助 GPT 们更快地进化，更好地服务大众。

而在 AI 大模型的落地上，阿里似乎有种后发先至的势头。

不少差友们可能已经看到了，前几天，我们已经评测过通义千问轻量版在天猫精灵上的演示应用，虽然是一个定制化轻量版，但可能是因为多了联网，两者使用起来几乎一样。

更强的是例如我让它推荐杭州的美食，它不仅和我认真地聊了起来，甚至还真的想要帮我去订一个外卖。。。

这么看起来，我几乎已经能看见通义千问重塑我们生活的样子了。

这两天，通义千问背后的负责人，阿里云智能CTO周靖人接受采访时说，通义千问模型只是“ 一个中间态 ”，“ 不是起点也不是终点，是个既定路线上的节点。”

这想象空间就太大了。假如再把格局打开一点，AI 借助像水电一样的云计算，会不会把我们想到想不到的行业，都重新升级一遍呢？

这么看来，前段时间我们聊过的组织架构大调整，现在想想，怕不就是为了云服务和 AI 布局？

站在这个历史性的时刻上，虽然我看不清未来到底是什么样子，但我很期待它的到来。

展开阅读全文

页面更新：2024-06-06

标签：阿里蒙娜丽莎模型量子力学和文简要句子考生强度逻辑评价能力版本代码简单测试

1 2 3 4 5

有钱就是任性，日本核泄漏废水入海，苏州就要进口日本海产品

#4月财经新势力#日本福岛核泄漏全世界都知道，日本沿海近岸的鱼受核污染之后，已经出现了畸形、大面积死亡和其它辐射病体。我国外交部发言人在记者会上，曾严厉谴责日本的不负责任行为。我国外长与日本外相的会谈中，第三项

“火玫瑰”班组：守护人生“最后一公里”

原标题：在花一样的年纪，从事一份关乎凋零的职业，让女孩们更早地参透生命的意义，学会珍惜当下（引题）“火玫瑰”班组：守护人生“最后一公里”（主题）工人日报-中工网记者唐姝阅读提示火化工作被视为整个殡葬行业最辛苦的工种。在

专家建议取消中考分流，中小学学制缩短两年，家长认为不切实际

教育专家建议取消中考分流，中小学学制缩短两年，引发了社会的广泛关注。这个建议一经发布，就在社会和家长中引起了许多争议！有些家长认为这个建议不切实际，而有些人则认为这个建议值得一试。根据该建议，应该取消中考分流制度

一场城乡中学生读书分享会里的“组团式”教育帮扶

中青报·中青网记者张文凌《三国演义》《乡土中国》《平凡的世界》《千年一叹》《窗边的小豆豆》《亲亲我的妈妈》《三体》......近日，在云南昭通市镇雄县以勒中学举行的读书分享会上，来自昆明市第十中学的学生代表和

时报时评丨打新躺赚时代远去是好事

图片来源/摄图网■唐福勇最近，投资者打新正变得越来越谨慎。随着全面注册制的逐步落地，中签新股即稳赚的时代已经一去不复返，昔日打新中签像中彩票一样赢利的现象正在改变。进入3月份以来，A股新股频频破发，截至3月2

强对流蓝色预警！8-10级雷暴大风或冰雹，主要影响时段→

小伙伴们注意啦！中央气象台4月10日10时发布强对流天气蓝色预警：预计4月10日14时至11日14时，辽宁南部、河北东部、天津东部、山东北部、渤海大部、黄海北部以及黑龙江中部等地的部分地区将有8-10级雷暴大风或冰雹，局地风

吴京谢楠的结局，从一开始就注定

我不知道大家看到明星夫妻在节目里秀恩爱是什么感觉，我以前很喜欢，后来觉得刻意的秀恩爱很让人膈应，但奇怪的是，每次看到谢楠夸吴京，心里是舒适的。可能因为我从未想过这么一个热爱扛枪、演《战狼》的硬汉，在生活中竟可以那

散文丨舌尖上的春天

春之伊始，万物滋生，春风一吹，各种鲜嫩嫩、绿油油的野菜，都在悄悄地生根发芽，那是春姑娘给人们带来的，舌尖上的美味馈赠。经过一个“年关”大鱼大肉，感觉满腹油腻的人们，十分难以抵挡这些自由生长的、绿色野菜新鲜水灵的诱惑，或

罚款218万余元！日照市水务集团供水有限公司滥用市场支配地位受处罚

国家市场监管总局网站近日发布一则公告。信息显示，山东省市场监督管理局于2021年7月对日照市水务集团供水有限公司涉嫌滥用市场支配地位行为立案调查。2022年12月，山东省市场监督管理局依法对该案作出行政处罚决定。202

演员吴耀汉去世，他真的拍好多好多电影，享年83岁，一路走好

港媒报道，中国香港男演员吴耀汉去世，享年83岁。吴耀汉曾出演《五福星》系列、《炮制女朋友》、《飞越黄昏》、《猛男滚死队》、等多部作品，两次获金像奖最佳男主角提名。僵尸片、校园片、喜剧片，有他出镜的时候总有一种

他是最后一位中顾委常委，主政安徽时被无数百姓爱戴，享年101岁

文章前面是关于革命前辈的介绍，其后是关于前辈的几个故事，请您耐心阅读全文或选择感兴趣的部分阅读。改革开放时期，我国有一位引进外国智力工作的重要开拓者和组织者，他便是张劲夫同志。张劲夫在中科院任职时是中科院发展

中国以数字技术赋能文化产业新应用新体验新消费

4月6日，工作人员在展示虚拟汉服穿戴。新华社记者李紫恒摄新华社青岛4月9日电题：中国以数字技术赋能文化产业新应用新体验新消费新华社记者王凯、萧海川虚拟数字人“易小安”不仅能主持演讲，还能与现场观众互动；用手机

伸舌头、面条吻、嘴亲肿，这些演员拍的吻戏，观众直呼“辣眼睛”

阅读文章前辛苦您点下“关注”，方便讨论和分享，为了回馈您的支持，我将每日更新优质内容。文 | 娱析编辑 | 娱析影视作品中为了烘托男女主角的感情，避免不了会有一些吻戏，随着国产剧不断的发展，吻戏也从之前的“蜻蜓点水”，到

布丽吉特：做第一夫人5年，没有“正常生活”，和马克龙没有秘密

每个男人都希望得到一份不离不弃的爱，因为那可以证明他的能力所在。当然，女人亦是如此，但她们所要证明的却是“相信爱情”。没错，男人与女人对于爱的看法是不一样的，男人多理性，女人多感性，为爱而爱的婚姻在大多数的男女间并

专稿 - 古丝绸之路上的地下“保温水箱”，经历了怎样的风雨历程？

编者按：古丝绸之路上的萨尔多巴，存在于世至少数百年，但全面介绍萨尔多巴的文章，却极少见诸报端。作者曾服务于哈萨克斯坦中企，现又供职于丝路新观察全媒体，通过多年观察，积累了许多有关萨尔多巴的现状和传奇，写成“专稿|古丝

上滑加载更多 ↓

阿里大模型敢对标GPT4给它上了点强度

有钱就是任性，日本核泄漏废水入海，苏州就要进口日本海产品

“火玫瑰”班组：守护人生“最后一公里”

专家建议取消中考分流，中小学学制缩短两年，家长认为不切实际

一场城乡中学生读书分享会里的“组团式”教育帮扶

时报时评丨打新躺赚时代远去是好事

强对流蓝色预警！8-10级雷暴大风或冰雹，主要影响时段→

吴京谢楠的结局，从一开始就注定

散文丨舌尖上的春天

罚款218万余元！日照市水务集团供水有限公司滥用市场支配地位受处罚

演员吴耀汉去世，他真的拍好多好多电影，享年83岁，一路走好

他是最后一位中顾委常委，主政安徽时被无数百姓爱戴，享年101岁

中国以数字技术赋能文化产业新应用新体验新消费

伸舌头、面条吻、嘴亲肿，这些演员拍的吻戏，观众直呼“辣眼睛”

布丽吉特：做第一夫人5年，没有“正常生活”，和马克龙没有秘密

专稿 - 古丝绸之路上的地下“保温水箱”，经历了怎样的风雨历程？

苏小玎北京豪宅曝光，身份被扒不简单，爸爸职位比安长林还

《重生边缘》开启demo性能验证通关可获测试资格

阿里云大模型研究成果亮相 “通义千问”开启企业邀测

成为湾区文旅“顶流”的新区逻辑

爸爸妈妈测试三胞胎，结果区别对待，爸爸的心拔凉拔凉的

地大研究团队提出6.3亿年前“雪球地球”新模型

红米note12tubro的1t内存版本会再次开售

那些神仙句子，建议收藏（你以诗的名义，步入我的月色）

康熙05：一顿廷丈打出皇宫隐藏逻辑，大太监想上位，康熙成垫

新不良人李克用角色测评技能强度伤害分析「内容含福