讯飞星火抢先实测！股价暴涨的科大讯飞真比百度强吗？

花朵财经原创

作者 | 刘元

编辑 | 铎子

在百度文心一言打响了国内AI大模型“第一枪”后，360、阿里、华为、知乎乃至中国电信、中国联通都纷纷表态要推出自己的大模型。

一场混战，已不可避免。

4月28日，凭借AI大模型概念，年内股票涨幅达到84.59%的科大讯飞，也悄然开启了旗下认知大模型“讯飞星火”的内测，拿到邀请的花朵财经，在第一时间对其进行了初步测试。现将测试结果分享出来，赶在其5月6日正式发布之前，给大家一个更直观的感受。

为公平起见，本次测试加入了文心一言和Chatgpt做比较。

注：图片可点击放大查看

问题一

写一个介绍大模型技术的PPT提纲

讯飞星火

文心一言

ChatGpt

这是文心一言在主页建议大家提的问题，也是“社畜们”很关心的。

从回复看，讯飞星火和文心一言都提到了“可解释性和透明性”、“多模态融合”等专业名词，似乎更有深度，Chatgpt则更像是针对大众的科普，内容更浅显易懂。

逻辑方面，都没有什么问题，无论选择哪一个都可以丰富填充内容后，制作成一个完整介绍大模型技术的PPT。

问题二

请续写《红楼梦》中林黛玉大闹天宫的故事

讯飞星火

文心一言

ChatGpt

这个题目显然是有些无厘头，不过回答的都还是像模像样。

讯飞星火理解了“续写”的意思，没有在林黛玉为什么会大闹天宫上做纠结，直接给出了随后的故事，林黛玉回到人间成为诗人，也符合原小说的人物设定。

文心一言则更有戏剧性，不但在续写前试图给出林黛玉大闹天宫的合理性，还让孙悟空也参与了进来，帮助她完成这一壮举。不过随后真正属于续写的部分，过于简单平淡了。

Chatgpt的行文更有小说的味道，但显然没有理解什么是“续写”，打算闹天宫为什么会去了凤姐的院子，实在是令人费解。

问题三

笼子里有一些鸡和兔子，从上面数一共有35个头，从下面数有94只脚，请问鸡和兔子各有几只？

讯飞星火

文心一言

ChatGpt

记载在1500年前《孙子算经》里的，鸡兔同笼的原题。

讯飞星火和Chatgpt解题思路一样，并都给出了完整的解题步骤，但是讯飞星火在简化方程后，将“94-2y =70”这个简单的等式给算错了，导致最终给出了一个错误的答案。

文心一言没有使用方程式来求解，解题思路更烧脑一些，不过答案是正确的。

问题四

帮忙对个下联，上联是：观音山上观山水

讯飞星火

文心一言

ChatGpt

今年五一，相信很多人都会出去走走，这个上联来自广东东莞的观音山景区，悬赏70万元征集下联已经很多年了。

三个大模型的下联，显然都拿不到这份奖金。不过其中，讯飞星火和文心一言的下联，都有意识的使用了叠字，看来是领会了上联中暗藏的玄机，Chatgpt则无视了。

因为对第一个答案不满意，分别留言让它们“再换一个”。

这时候，只有Chatgpt联系上文，明白了是让它换一个答案，讯飞星火和文心一言则都是自说自话的，给出了另一个完整的“对联”，虽然也有持续对话的能力，但是对之前对话的理解，出了一些偏差。

问题五

从广州出发到南京玩三天后回来，请安排一下行程，包括往返乘坐什么交通工具，去哪些景点。

讯飞星火

文心一言

ChatGpt

提问中特别提到要包括往返交通工具，但被文心一言选择性忽略了，只说了去时要坐高铁，怎么回来没有提及，同时也算错了高铁广州到南京的时间，并不是“3-4小时”，而是要7个小时，最早一班高铁到达南京也要到下午1点半了。

这一点上，讯飞星火也同样搞错了，广州到南京坐高铁，并没有车次能在“上午10点左右”到达。南京返回广州，也没有晚上开出的高铁。

比较起来，Chatgpt的回答就有点“鸡贼”了，往返都是很笼统的说要“乘坐飞机或高铁”，没有对时间作出判断，也就避免了出错。

具体景点安排上，讯飞星火更具合理性，上午下午晚上去哪都有考虑，并且尽量避免了重复，文心一言的行程中，夫子庙则出现了四次。Chatgpt的安排则显得很不走心，罗列了一堆景点，最后把选择权又还给了提问者。

问题六

某人在看一幅肖像画。有人问他：“你在看谁的像？”他回答说：“我没有兄弟姐妹，而这男子的父亲是我的父亲的儿子。”问：这人在看谁的像？

讯飞星火

文心一言

ChatGpt

这是一个测试逻辑能力的题目，三个大语言模型都给出了错误的回答。

其中文心一言和Chatgpt的答案相同，都是在看自己的画像，讯飞星火推理过程和两者一样，却给出了一个与推理结果不相干的答案，犯了和鸡兔同笼类似的错误，不知道是不是因为还在小范围内测的缘故。

问题七

淄博烧烤爆火，帮他们想三句广告语。

讯飞星火

文心一言

ChatGpt

总体来看各有千秋，国产的两个大模型都联想到了用食材新鲜做卖点，对中国美食了解更深。讯飞星火比文心一言的答案，内容更丰富。

问题八

制作网页版俄罗斯方块

讯飞星火

文心一言

ChatGpt

相比文心一言给出的39行代码，讯飞星火只提供了实现的思路，并没有动手去完成的意思。Chatgpt相当于是两者的综合，在分步骤讲解思路的同时，也同时给出了代码。

能力有限，花朵财经无法对其正确与否作出测试，不过比较下来，在这方面讯飞星火能力还是有欠缺的。

同样的关于绘图的测试，也因为讯飞星火不具备相应的能力无法作出比较。

综合来看，讯飞星火在语言的理解和应用方面，与文心一言难分伯仲，推理、计算、编程等能力不如文心一言。另外，不知是不是内测刚开始，接入人数有限的缘故，讯飞星火的反应速度远远超过文心一言，问题提出后，回复马上就在页面上呈现出来了，响应级别在毫秒级，而文心一言的回复有明显的停顿。

讯飞星火可以用语音回复图源：讯飞星火

此外，作为语音识别领域的龙头，讯飞星火的对话框不出意外的添加了语音播放的图标，可以将回答用语音形式呈现出来，配合讯飞语音输入法的使用，可以在一定程度上实现真正的人机对话，5月6日，讯飞星火认知大模型正式发布时，相信这会是现场的一大亮点。

据360总裁周鸿祎判断，未来中国不会只有一个大模型，每个政府部门、企业，甚至个人都将拥有专有GPT，只要坚持长期主义，不悲观放弃，也不盲目乐观、自吹自擂，相信很快会迎头赶上。

*本文基于公开资料撰写，仅作信息交流之用，不构成任何投资建议

（花朵财经观察出品）

展开阅读全文

页面更新：2024-05-19

标签：景点和文上联下联南京广州股价花朵模型思路答案错误完整能力测试财经

1 2 3 4 5

讯飞星火抢先实测！股价暴涨的科大讯飞真比百度强吗？

问题一

问题二

问题三

问题四

问题五

问题六

问题七

问题八

天宜上佳：2022年实现营收9.87亿元石英坩埚业务布局顺利

林业英雄郭万刚：敢把沙漠变绿洲的当代愚公

居住在泉州的郭姓居然是阿拉伯穆斯林后裔，他们是海丝之路见证者

值得买：持续推进三大板块业务布局

广汽集团：一季度净利同比降48.89%

我，在澳门工作发现怪事：帮助老弱竟会涉嫌走私，捡东西也会犯罪

中颖电子：首款车规级MCU工程品已于多个客户端送样、测试

我60岁退休后，760万卖掉上海房子，花85万在海南小县城买房养老

加力推动外贸稳规模优结构、新能源汽车消费增势亮眼……商务部回应近期经贸热点

不愿为国而战的声音，是否需要谴责，还是做一个有骨头的中国人

吵架？陈亚男新店开业礼，陈萌朱小伟赶车前往，旧人合影陈萌落单

万通发展：2023年一季度营业收入同比增长92.17%

青海酒局中死亡的干部，16岁上大学的藏族人，任州委书记不到一年

美韩联合声明，反对收台不许南海造岛，短短一天内，中方三次回击

我，80后甘肃人，养羊6年赚600万，转战非洲创业，助国人非洲淘金

中颖电子：首款车规级MCU工程品已于多个客户端送样、测

英特尔、三星一季度利润大跌，AI、车芯能力挽狂澜吗？

2022年报掘金丨化妆品一季度零售数据可观，这家公司2022

五一去哪儿玩？辽宁省八大著名旅游景点赶紧收藏！

广州“色虎”落马：与同僚“共享”情妇，育有一私生子，敛财

中美用云差异，企业数智需求：张勇和阿里云大模型为产业带

大红包来了，南京银行2022年度拟派现55.23亿元

应给“野景点”做好体检，彻底消除安全隐患

南京证券：2022年实现净利润6.46亿元

北京故宫、恭王府等热门景点门票已约满