讯飞星火抢先实测!股价暴涨的科大讯飞真比百度强吗?

花朵财经原创

作者 | 刘元

编辑 | 铎子


在百度文心一言打响了国内AI大模型“第一枪”后,360、阿里、华为、知乎乃至中国电信、中国联通都纷纷表态要推出自己的大模型。

一场混战,已不可避免。

4月28日,凭借AI大模型概念,年内股票涨幅达到84.59%的科大讯飞,也悄然开启了旗下认知大模型“讯飞星火”的内测,拿到邀请的花朵财经,在第一时间对其进行了初步测试。现将测试结果分享出来,赶在其5月6日正式发布之前,给大家一个更直观的感受。

为公平起见,本次测试加入了文心一言和Chatgpt做比较。

注:图片可点击放大查看

问题一

写一个介绍大模型技术的PPT提纲

讯飞星火

文心一言

ChatGpt

这是文心一言在主页建议大家提的问题,也是“社畜们”很关心的。

从回复看,讯飞星火和文心一言都提到了“可解释性和透明性”、“多模态融合”等专业名词,似乎更有深度,Chatgpt则更像是针对大众的科普,内容更浅显易懂。

逻辑方面,都没有什么问题,无论选择哪一个都可以丰富填充内容后,制作成一个完整介绍大模型技术的PPT。

问题二

请续写《红楼梦》中林黛玉大闹天宫的故事

讯飞星火

文心一言

ChatGpt

这个题目显然是有些无厘头,不过回答的都还是像模像样。

讯飞星火理解了“续写”的意思,没有在林黛玉为什么会大闹天宫上做纠结,直接给出了随后的故事,林黛玉回到人间成为诗人,也符合原小说的人物设定。

文心一言则更有戏剧性,不但在续写前试图给出林黛玉大闹天宫的合理性,还让孙悟空也参与了进来,帮助她完成这一壮举。不过随后真正属于续写的部分,过于简单平淡了。

Chatgpt的行文更有小说的味道,但显然没有理解什么是“续写”,打算闹天宫为什么会去了凤姐的院子,实在是令人费解。

问题三

笼子里有一些鸡和兔子,从上面数一共有35个头,从下面数有94只脚,请问鸡和兔子各有几只?

讯飞星火

文心一言

ChatGpt

记载在1500年前《孙子算经》里的,鸡兔同笼的原题。

讯飞星火和Chatgpt解题思路一样,并都给出了完整的解题步骤,但是讯飞星火在简化方程后,将“94-2y =70”这个简单的等式给算错了,导致最终给出了一个错误的答案。

文心一言没有使用方程式来求解,解题思路更烧脑一些,不过答案是正确的。

问题四

帮忙对个下联,上联是:观音山上观山水

讯飞星火

文心一言

ChatGpt

今年五一,相信很多人都会出去走走,这个上联来自广东东莞的观音山景区,悬赏70万元征集下联已经很多年了。

三个大模型的下联,显然都拿不到这份奖金。不过其中,讯飞星火和文心一言的下联,都有意识的使用了叠字,看来是领会了上联中暗藏的玄机,Chatgpt则无视了。

因为对第一个答案不满意,分别留言让它们“再换一个”。

这时候,只有Chatgpt联系上文,明白了是让它换一个答案,讯飞星火和文心一言则都是自说自话的,给出了另一个完整的“对联”,虽然也有持续对话的能力,但是对之前对话的理解,出了一些偏差。

问题五

从广州出发到南京玩三天后回来,请安排一下行程,包括往返乘坐什么交通工具,去哪些景点。

讯飞星火

文心一言

ChatGpt

提问中特别提到要包括往返交通工具,但被文心一言选择性忽略了,只说了去时要坐高铁,怎么回来没有提及,同时也算错了高铁广州到南京的时间,并不是“3-4小时”,而是要7个小时,最早一班高铁到达南京也要到下午1点半了。

这一点上,讯飞星火也同样搞错了,广州到南京坐高铁,并没有车次能在“上午10点左右”到达。南京返回广州,也没有晚上开出的高铁。

比较起来,Chatgpt的回答就有点“鸡贼”了,往返都是很笼统的说要“乘坐飞机或高铁”,没有对时间作出判断,也就避免了出错。

具体景点安排上,讯飞星火更具合理性,上午下午晚上去哪都有考虑,并且尽量避免了重复,文心一言的行程中,夫子庙则出现了四次。Chatgpt的安排则显得很不走心,罗列了一堆景点,最后把选择权又还给了提问者。

问题六

某人在看一幅肖像画。有人问他:“你在看谁的像?”他回答说:“我没有兄弟姐妹,而这男子的父亲是我的父亲的儿子。”问:这人在看谁的像?

讯飞星火

文心一言

ChatGpt

这是一个测试逻辑能力的题目,三个大语言模型都给出了错误的回答。

其中文心一言和Chatgpt的答案相同,都是在看自己的画像,讯飞星火推理过程和两者一样,却给出了一个与推理结果不相干的答案,犯了和鸡兔同笼类似的错误,不知道是不是因为还在小范围内测的缘故。

问题七

淄博烧烤爆火,帮他们想三句广告语。

讯飞星火

文心一言

ChatGpt

总体来看各有千秋,国产的两个大模型都联想到了用食材新鲜做卖点,对中国美食了解更深。讯飞星火比文心一言的答案,内容更丰富。

问题八

制作网页版俄罗斯方块

讯飞星火

文心一言

ChatGpt

相比文心一言给出的39行代码,讯飞星火只提供了实现的思路,并没有动手去完成的意思。Chatgpt相当于是两者的综合,在分步骤讲解思路的同时,也同时给出了代码。

能力有限,花朵财经无法对其正确与否作出测试,不过比较下来,在这方面讯飞星火能力还是有欠缺的。

同样的关于绘图的测试,也因为讯飞星火不具备相应的能力无法作出比较。

综合来看,讯飞星火在语言的理解和应用方面,与文心一言难分伯仲,推理、计算、编程等能力不如文心一言。另外,不知是不是内测刚开始,接入人数有限的缘故,讯飞星火的反应速度远远超过文心一言,问题提出后,回复马上就在页面上呈现出来了,响应级别在毫秒级,而文心一言的回复有明显的停顿。

讯飞星火可以用语音回复 图源:讯飞星火

此外,作为语音识别领域的龙头,讯飞星火的对话框不出意外的添加了语音播放的图标,可以将回答用语音形式呈现出来,配合讯飞语音输入法的使用,可以在一定程度上实现真正的人机对话,5月6日,讯飞星火认知大模型正式发布时,相信这会是现场的一大亮点。

据360总裁周鸿祎判断,未来中国不会只有一个大模型,每个政府部门、企业,甚至个人都将拥有专有GPT,只要坚持长期主义,不悲观放弃,也不盲目乐观、自吹自擂,相信很快会迎头赶上。

*本文基于公开资料撰写,仅作信息交流之用,不构成任何投资建议

(花朵财经观察出品)

展开阅读全文

页面更新:2024-05-19

标签:景点   和文   上联   下联   南京   广州   股价   花朵   模型   思路   答案   错误   完整   能力   测试   财经

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top