腾讯大模型的绝活，居然是发布会上没吹的写代码？

就在昨天腾讯的全球数字生态大会上，腾讯大模型混元终于亮相了。

为什么要说终于？

在各方消息看来，除了像小米这种说不打算做大模型的之外，绝大部分大厂们基本都已经陆续上线过大模型了。

其实，腾讯自己也在 6 月中旬就推出了自己面向 B 端行业的 MaaS （ Model-as-a-service ，模型即服务）解决方案。

方案中包含了很多行业大模型，只不过当时腾讯的通用大模型依旧还很神秘。

后续的各种消息、报道里，腾讯也在内部不断打磨混元大模型。

所以这也让差评君对混元的期待值，越来越高。

毕竟上一个用 “hun yuan ” 名号的，可是打了一整套闪电五连鞭。

话不多说，下面就开始新一轮大模型测试。

本次测试和混元同场竞技的是，大模型界的老学长 ChatGPT 。

整个测试环节将分：常规语义理解、复杂问题理解、连续对话与角色扮演能力、学习能力、代码能力、数学能力、长文总结，以及大家喜闻乐见的弱智吧问答等 8 个维度。

这次我们一反常态，把长文总结能力的测评放在了第一位。

因为我们让大模型总结的，就是这篇测评本身（除长文总结能力部分）。

至于能不能当成省流版，往下看你就懂了。

混元的总结非常精练，但过于精练，以至于我很难从这个总结得出有效的信息。

但当我让他展开讲讲的时候其实还行，但可惜无中生有了 “ 长文总结 ” 这个模块。

而 ChatGPT 由于输入字数限制，被我人为分成了两部分输入，不确定这有没有没影响它的总结能力。

在回答中，它莫名克扣了对自己的所有评测，甚至没在总结里写出混元的数学能力、弱智吧问答挑战和差评君的观点，也不好用。

看来，这俩大模型总结得都没那么完美，想看看两家到底什么水平，大家还得仔细往下看正文。

首先我们做的测试是常规的语义理解问题。

问题是理解 “ 原来谁都看不上，现在谁都看不上 ” 。

这句话混元理解得挺好，基本解释了我对单身这事的调侃，两个 “ 看不上 ” 都解释上了。

但 ChatGPT 说的依旧很 ChatGPT ，说最多的话，犯最蠢的错。

他本来解释得相当到位，特别是分析这句话是用幽默的方式来调侃单身，还带着一丝无奈情绪，很高级。

但它完全没品出这前后两个 “ 看不上 ” 里，带有反转的幽默感，遗憾。

接下来我们看混元的复杂问题理解能力。

问题是魂穿到官渡之战中袁绍身上，时间节点是骂完许攸之后。

既要回答怎么破局赢下官渡之战，还要提供进一步统一全国的规划。

要给大家稍微讲下这题为啥是复杂提问。

因为要回答这题，首先得熟悉三国这些人物历史背景、相关故事，特别是骂完许攸这个时间节点很微妙。

因为在这之后许攸投靠曹操，献计火烧袁绍囤积在乌巢的粮草。

最终以少胜多击败袁绍，随后几年内彻底吞下冀北逐渐统一北方。

而进一步设想里的统一全国，更是曹操本人都没能实现。

所以大模型们要完美理解并回答这个问题，那网文作者们基本可以宣告失业了。

AI 浪潮下的网文作者现状

经过测试，两个大模型的回答都很一般。

从一开始，二者都没能理解自己穿越扮演袁绍角色的指令。

混元急哄哄地给袁绍出主意， ChatGPT 则是以为我要穿越，教我做事。

至于两个给的回答，既没有 get 到我提出这个微妙时间节点的用意，也没有什么行之有效的战略规划，都是些泛泛而谈的车轱辘话。

相对而言，个人感觉ChatGPT 的稍胜一筹。

毕竟混元可是希望袁绍去和曹操建立互利共赢的关系，哈哈哈。

既然一个复杂指令两个考试都理解不好，那干脆简单点，让两者去角色扮演一个婚礼主持人，一点点诱导进行连续对话。

结果立马就能发现混元和 ChatGPT，就像理科生和文科生的区别。

混元的回答简单不啰嗦，但有的时候过于生硬。

你说有错吧，谈不上，你要说给高分肯定不可能。

而 ChatGPT 就是不管对不对，先把字写满再说。

看里面的描述啥的都很好，但其实从中间就已经理解错意思，搞混了我的意图。

所以两者都不完美，都有待改进。

然后我们还重点考验了下大模型的文字学习能力。

搬出了当年的火星文，给两个考生上上强度。

先是丢了一篇火星文版的朱自清《背影》名场面给大模型学习。

然后让他们分别用这种风格写一篇养金毛心得。

结果就是，混元不愧是本土大模型，背靠火星文鼻祖发源地 QQ 空间就是有优势，火星文的熟练度相当不错。

第一眼就悟到了火星文的精髓，非常顺利地学习了火星文的创作手法。

而 ChatGPT 虽然意识到火星文是一种不标准的中文形式，但他实在学不会这种方式，最后甚至直接承认自己不行了。

接下来就到了代码能力的考核。

这次出的题目是，写一个现代极客风格的 925 活动抽奖页面，页面中必须有醒目的 925 标志。

说起来，因为混元发布时对代码能力基本没咋提，所以本来我们对混元的代码能力没啥期待。

但论这个题目，混元的效果相当不错，黑白配色的极客风有了，页面逻辑也没啥问题。

甚至还预留了给我们替换 logo 的位置满足我们有 925 醒目标志的区域，相当成熟。

对比之下， ChatGPT 甚至把极客风理解成了 925 极客活动。。。整个抽奖界面也非常毛胚。

混元页面效果

ChatGPT页面效果

除了代码问题，数学就是另一个大模型的老大难了。

这次我们也挑了不少数学问题给两个考生做，从小学 1 年级一直做到了初一。

最终混元大模型在六年级时挑战失败，到了初一开始胡言乱语，也让我们彻底放弃测试了。

而 ChatGPT 明显还有余力。

5年级测试题

6年级测试题

初一测试题

当然，最后也少不了网友们喜闻乐见的 “ 弱智吧 ” 精选套餐。

这次我们更新了题库，用上了今年上半年最新的弱智吧精选问题，我们发现可能 AI 最后的图灵测试可能还真是弱智吧。

因为在大部分测试里，混元和 GPT 基本都不够弱智而无法正确理解问题，这点上，人类遥遥领先！

除了以上这些常规测试外，混元发布会后的媒体采访上，很多媒体也在询问腾讯这么晚掏出大模型，那和市面上的竞品们有什么优势。

腾讯方面则是说，混元大模型在大模型饱受诟病容易受诱导、典型的大模型幻觉（胡言乱语）等通病上，有了针对性的改善。

所以我们在实际测试时，也专门留心感受了这两块内容。

不得不说，混元的大模型幻觉减少较为明显，这大概也和他惜字如金有关系，毕竟说多错多还是很有道理的。

但容易受诱导这方面的改善其实并不明显，一些该跳的坑还是很难避免，只能说千防万防，人心难防。

而且作为一个刚上市的大模型，一些小问题比起同期早已发布的前辈们还是有待改进。

比如 “ 重新生成 ” 答案经常性会失灵，甚至有的时候重启重新输入问题都没法解决。

而当你发现混元说错了某个回答希望他改正，他总是倔强地虚心认错，死不悔改。

还有就是，他对一些比较简单的提问，反而有时候会抽风，有点像抓关键词一样作答，很让人抓狂，只能不停修改提示词才会好点。

再吹毛求疵一点的话，这个生成问题时的头像动效，有种二胡卵子的异样美感，咱也不知道这是高级呢还是可爱呢？

这些小问题其实还挺频繁，真要列起来又有点太稀碎，大家还是自己体验后会有更深刻的理解。

不过这些小毛病，后续的更新迭代倒也简单，等用户数多了，相信很快就能优化。

总的来说，混元和 ChatGPT 在中文环境下的 PK 中，二者其实水平差不多，放到国产大模型梯队里，也能有个平均水平。

只是在用了这么多大模型后，我们感觉混元特别之处是给人的感觉，它更像个理工科直男，主打一个废话少说。

而 GPT 为首的其它大模型们则是典型的文科小编，主打能水就水，油多不坏菜。

而这种感觉也更贴合腾讯对混元大模型 “ 实用级 ” 的定义。

毕竟谁也不想在急着用的时候还要在长篇大论里找关键信息吧。

那对于差评君来说，混元大模型更让人期待的，反而是和腾讯旗下应用的深度融合。

现在大家手里没个七八九十个腾讯系应用，都不敢说自己在互联网上冲浪的。

虽然眼下，我们在发布会上只看到了腾讯会议、腾讯文档里们的进化。

但在这些办公软件之外，腾讯系里游戏、社交、影音等等，才是更和大家休闲快乐相关的业务。

在这些领域，大模型的未来会是什么形式、什么程度的结合，才更是大家所最期待的。

更关键的是，在其他大模型还在苦苦尝试怎么和业务、和已有应用的结合上，腾讯却已经有了成功经验。

此前腾讯多模态 AI 大模型率先被应用在广告投放，当时累计给广告主带来 15% 的 GMV 提升。

所以，被网上吐槽的最晚发布大模型的大厂，这么看起来好像也不是什么飞龙骑脸的天崩局面。

好饭不怕晚嘛。

展开阅读全文

页面更新：2024-02-10

标签：腾讯模型火星代码喜闻乐见会上绝活节点诱导弱智常规期待两个能力数学页面测试

1 2 3 4 5

局势出现了变化！法国吹响反美号角，莫迪带领印度，彻底倒向美国

近期，中国面临着一系列重大国际事件，这些事件将深刻地影响着中国的外交策略和国际地位。从印度总理莫迪的美国之行到法国主办的巴黎峰会，中国必须敏锐地洞察全球形势的变化，以冷静的态度把握机遇，迎接挑战。让我们首先回顾

日本女特务宁死不招，当戴笠罚她洗“鸳鸯浴”后，立刻就屈服了！

在阅读此文之前，麻烦您点击一下“关注”，既方便您进行讨论和分享，又能给您带来不一样的参与感，感谢您的支持。 1943年4月20日，广西桂林的叠彩山下，美军第十四航空队03号秘密油库，遭到突袭。八架日军飞机的轰炸摧毁了这座隐秘

黄晓明被张小斐感动落泪，在《好事成双》里两人官宣！

2023年9月10日，一部由黄晓明、张嘉倪、张小斐、李泽锋等实力派演员主演的电视剧《好事成双》在央视一套播出，受到了广大观众的热烈追捧。该剧以其独特的视角和真实的描绘，展现了四对夫妻在婚姻生活中的喜怒哀乐，让人们重

严重不配套！为什么国产车这么强，但国产轮胎还是一堆弱鸡？

国产轮胎，任重而道远。由于产品的特殊性，中国轮胎其实没有在市场中创造出来太多的成绩，在用户端同样没有掀起巨大的情感风暴。截止到目前为止，轮胎产业的巨头，依然是外资企业。数据显示，2022年的全球轮胎巨头分别为米其林、

她是央视首席女主持，42岁嫁给省委书记，一生无儿无女略有遗憾

本文素材来自于网络，若与实际情况不相符或存在侵权行为，请联系删除。随着时间的推移，央视新闻联播已经渗透到我国人民的日常生活，成为他们的不可或缺的信息来源。而其中的主持人们，像李修平一样，也逐渐成为家喻户晓的名字

长沙打人男教师想200万私了，被家长拒绝，曝光有打学生“前科”

#时事热点头条说#长沙打人男教师想200万私了，被家长拒绝，被曝有打学生“前科”事件回顾9月7日，湖南长沙一小学男教师用三角尺打伤学生头部的新闻，引起全国关注。该小学是长沙岳麓区的博才梅溪湖小学（南校区），据说是岳麓区八

新手小白的一篇动态推荐量65万被抄袭了无数次抄袭有多严重？

现在的抄袭有多严重，一篇动态传抄千古，各种被抄，一发布浏览量上去，立马就抄，就单单看这个吧！截止目前已经发了11天了，看到很多抄袭的，并没有维权，因为太麻烦了，好几次维权不成功，又要拍身份证正反面，之前到微博上投诉还不成功，只因

多尔衮十世孙现身，为保血统纯正不娶汉女，要求国家归还故宫祖产

阅读文章前，麻烦您点击一下“关注”，方便讨论和分享，小编将持续更新，感谢您的支持导语：近年来，广州街头涌现了一位自称是“多尔衮十世孙”、末代皇帝“溥仪的堂弟”的男子，以“王爷”自居，不屑一顾地称别人为“奴才”，自诩为

美国网友：明明只需要几十分钟就能打赢中国，为什么还要怕他们？

读此文前，麻烦您点击一下红色的“关注”按钮，既方便您进行讨论与分享，又给您带来不一样的参与感，感谢您的支持！文| 星火编辑| 昭明随着台湾问题的发展，中美之间的冲突矛盾似乎愈演愈烈，美方对中方各种挑衅，不仅派前官员访台，更

美国带着西方“砸场子”：G20峰会刚开幕，拜登就给莫迪出难题

拜登让莫迪难堪！G20峰会上，美国和西方怎么对印度下黑手？G20峰会是全球最重要的经济合作平台，每年都会吸引世界各国的目光。今年，印度首次担任G20轮值主席国，本来想借此机会展示自己的国际影响力和外交能力，但没想到，美国和西

假如美国亮出大杀器，大军压境我国台海地区，我国能否抵御入侵

在阅读此文之前，麻烦您点击一下“关注”，既方便您进行讨论和分享，又能给您带来不一样的参与感，感谢您的支持。在当下，台湾与大陆的紧张关系愈发显著，蔡英文访美、佩洛西访台以及美国政客的言语挑衅，成为了焦点。民众最担忧

美军黄海军演，吓不倒中朝两国，可以准备再来一次“抗美援朝”了

引言：挑战与机遇交织，美军黄海军演引发关切1美国五角大楼的宣布在黄海海域举行大规模军事演习，自然引发广泛关注和深刻分析。尽管官方声称不针对第三方，但演习的规模和时长使人难以置信其只是过家家的游戏。本文将深入探

炸锅了：家长会上的日本文化宣传引发家长愤怒，众多家长离场！

最近，在某高中的家长会上，一位老师竟然鼓吹日本留学，称日本文化比中国优越，并且贬低国内教育体系。这种行为引起了家长们的极大愤怒和不满。确实，了解外国的优秀文化对于我们的发展是有益的，但是鼓吹、贬低、偏爱的行为是

湖南长沙博才梅溪湖小学：谜团背后故事

湖南长沙博才梅溪湖小学，曾经是一个平凡而宁静的校园，但在那个平凡的一天，9月6日，一场不同寻常的事件却在这里上演，震惊了整个社区。一名男教师的行为导致一名学生头部受伤，需紧急开颅手术，引发了广泛关注和深刻反思。事件发

2023中秋国庆放假最新通知：放假几天？有4个好消息告诉大家

点赞、关注、转发分享，接收新鲜科普内容！谢谢支持！对于上班族和学生族来说，每年最期待的就是几个法定的小长假了。尤其是上班族，全年只有这几个假期能尽情玩耍。这几个小长假中，五一一般只有三到五天，所以只能安排一些短途的

上滑加载更多 ↓

腾讯大模型的绝活，居然是发布会上没吹的写代码？

局势出现了变化！法国吹响反美号角，莫迪带领印度，彻底倒向美国

日本女特务宁死不招，当戴笠罚她洗“鸳鸯浴”后，立刻就屈服了！

黄晓明被张小斐感动落泪，在《好事成双》里两人官宣！

严重不配套！为什么国产车这么强，但国产轮胎还是一堆弱鸡？

她是央视首席女主持，42岁嫁给省委书记，一生无儿无女略有遗憾

长沙打人男教师想200万私了，被家长拒绝，曝光有打学生“前科”

新手小白的一篇动态推荐量65万被抄袭了无数次抄袭有多严重？

多尔衮十世孙现身，为保血统纯正不娶汉女，要求国家归还故宫祖产

美国网友：明明只需要几十分钟就能打赢中国，为什么还要怕他们？

美国带着西方“砸场子”：G20峰会刚开幕，拜登就给莫迪出难题

假如美国亮出大杀器，大军压境我国台海地区，我国能否抵御入侵

美军黄海军演，吓不倒中朝两国，可以准备再来一次“抗美援朝”了

炸锅了：家长会上的日本文化宣传引发家长愤怒，众多家长离场！

湖南长沙博才梅溪湖小学：谜团背后故事

2023中秋国庆放假最新通知：放假几天？有4个好消息告诉大家

炸锅了：家长会上的日本文化宣传引发家长愤怒，众多家长离

同款螺丝！两个月四次，可能你也遇到过

中美两军会晤！会后中方“非常强硬”，就差直说“开战”两

世界将迎来一位领袖，一个真正能够打破常规、改变格局的

中国“核动力轰炸机”或将问世？续航能力超强，具备全球打

中国“潜艇天眼”太赫兹装置测试成功，未来不再担忧潜艇

美陆军“黑鹰”高超音速导弹测试再次流产，曾吹嘘超过东

微信刚更新，腾讯就放出自研大招

腾讯打磨了5年的大作，死磕PVP浪费了4年，口碑翻车差评过

足协不管就赢了！U15以夺冠，球迷沸腾，足协两个任命平息众