诗词信手来，AI成李白

如果让你穿越成为一名诗人，你会选择谁？

喜欢豪迈的可能会选择辛弃疾、喜欢婉约的没准会选择秦观，但在众多著名诗人中，李白可能是呼声最高的，毕竟无论是名气、才气还是仙气来说，李白都是首屈一指。不过也正因为“诗仙”的级别太高，千百年来我们都是高山仰止，可望而不可及。如果给你一个能够成为“诗仙”的机会，你心动不心动？

没错，今天它来了——在10月26日举办的2021人工智能计算大会(AICC 2021)上，浪潮信息宣布对全球最大中文AI巨量模型“源1.0”进行开放开源，这样每个人都有机会成为自己心目中的那个“李白”。

神奇的AI诗词背后，是巨量模型在加持

“自然语言处理”这个问题一直是人工智能领域的热门，而这次开源的全球最大中文AI巨量模型“源1.0”也正是基于此。说到这里，可能不少人都会想起IBM曾经的Waston智能计算机，早在10年前的2011年，Waston就在一档名为《危险边缘》（Jeopardy）的答题比赛中击败人类获得了冠军；随后在2018年，IBM Project Debater计算机更是对垒人类冠军Noa Ovadia和辩论专家Dan Zafri，并取得了一胜一败的成绩，双方打成平手。

但这毕竟是外语，准确的说是英语。许多人都说汉语博大精深，的确在表意能力上含义更丰富一些，特别是谈到古诗、对联等韵律形式的时候，对于汉语的运用要更高一些。因此汉语的“自然语言处理”应用起来也更为复杂，也就需要更庞大的数据库支持智能训练。

这也正是全球最大中文AI巨量模型“源1.0”的价值所在。“为了训练源1.0，我们研发了容量为5TB的、业界最大规模的中文高质量数据集。为了这个数据级的获取，我们清洗了接近860TB的互联网数据，也经过一系列的粗滤、精滤，专家评审等过程”，在谈到为“源1.0”模型进行数据准备的时候，浪潮人工智能研究院首席研究员吴韶华感慨万千。

当然海量数据只是“源1.0”实现的必要条件之一，结合这些数据浪潮信息还需要基于强大的AI平台进行计算。为此，“源1.0”大模型总共用了2457亿的参数，使用了具备2128块GPU的高性能算力集群，计算量达到了4095 PD（PetaFlop/s-day）的规模，实现了业界最高。在大会现场，香港中文大学（深圳）校长讲座教授黄恺也将“源1.0”与业界著名的英文语言模型GPT-3进行对比，并给出了自己的判断。

在他看来，作为后起之秀的“源1.0”无论在参数量还是在性能、无论在覆盖范围还是应用生态上都要高于后者——“源1.0”的参数量比GPT-3多出40%，语料库总体积达到 5TB，是GPT-3 的近10倍；浪潮信息推出了深度学习并行计算框架Caffe-MPI、TensorFlow-Opt等多种应用，针对大型服务器进行优化，减少多GPU场景下性能损失。

正如我们在使用翻译软件的时候需要考虑准确度一样，在“自然语言处理”中精度也是大家关注的焦点。据悉，“源1.0”实现了中文权威的自然语言处理任务CLUE零样本学习和小样本学习的榜单上分别排名第一。在零样本学习榜单中，“源1.0”超越业界最佳成绩18.3%，在文献分类、新闻分类，商品分类、原生中文推理、成语阅读理解填空、名词代词关系6项任务中获得冠军；在小样本学习的文献分类、商品分类、文献摘要识别、名词代词关系等4项任务获得冠军。在成语阅读理解填空项目中，源1.0的表现已超越人类得分。

“比人类的表现更好”，这对于人工智能来说已经是非常积极的评价了，上一次获得这个公开评价的还是在围棋界大杀四方的谷歌AlphaGo。很显然，对于“吟诗作赋”、“奋笔疾书”这类文字工作来说，“源1.0”也同样具备类似的地位和能力，也成为了文化领域的“AlphaGo”。

水到渠成，以“智算”迎接行业发展挑战

相对于获得多项应用的“第一”，“源1.0”的价值还在于其象征意义。

对于“源1.0”的拥有者浪潮信息来说，以往许多人提到这个名字的第一印象就是计算力的提供者，这种印象也得益于浪潮信息多年来获得的种种成就，比如蝉联中国服务器市场占有率第一名，比如提出了“计算力就是生产力”的行业论断。正因为如此，大众对于浪潮信息的定义更多是一家“偏硬”的厂商，这也就让“源1.0”的开源变得让人出乎意料，也让我对未来浪潮信息的发展方向产生了好奇。

“源1.0”的开源是否意味着软件及应用在浪潮信息的比重会增加呢？对此，浪潮信息副总裁、浪潮信息AI&HPC产品线总经理刘军从两个方面给出了回答。“为什么是浪潮做，为什么浪潮能做好，为什么浪潮会选择来做这个？因为浪潮已经站在了这个制高点，从产业发展的策略以及我们自身竞争优势和能力储备来说，浪潮信息已经实现了对于算力、算法、数据三驾马车协同的创新，也有更多的产业的用户、研究者与合作伙伴，大家可以携手进行巨量模型的开发，使得人工智能产业更加迅速、更加健康的发展”。

这是一个水到渠成的过程。在中国市场，浪潮信息是最早在AI领域进行重度投入的企业，也是AI服务器出货量的第一名。而正如刘军所说，浪潮信息看到了算力、算法的价值，也通过技术研发与生态建设打造了属于自己的AI生态圈。这次“源1.0”的开源同样可以视为是对生态系统的新一轮建设，可以让更多的开发者与用户加入到“源1.0”社区当中，而这也正是刘军口中说的“责任感与使命感”。

或许这也是AI领域的“时势造英雄”。说到时势，如今的AI发展已经不再是只考虑硬件研发的初级阶段，伴随着开发者队伍的壮大，如何为开发者提供有价值的、有发挥空间的平台，如何在双方的互动中实现良性增长，这也是众多AI公司都在考虑的问题。

行业变革在即，计算系统创新刻不容缓

如果你参加的行业会议足够多，那么你可能在多种场合都听到过“摩尔定律终结”之类的论调。尽管连当年提出这一观点的摩尔本人都认为“摩尔定律”不应该有这么长的生命力，但至少在目前看来整个行业的确已经不再像当初预想的那样发展，因为人工智能带来了“多元化、巨量化、生态化”的三大趋势，这也将开创未来行业发展的新格局。

多元化表现得最为明显。如果倒数5年，整个算力中心市场还都是在x86架构统治下，我们还在考虑如何让CPU和GPU协同发挥最大的效能。但是伴随着多元算力的发展，如今包括x86、ARM、RISC-V、FPGA、GPU等一众算力都可以承担AI计算的重任，比如最近热门的苹果笔记本就是ARM应用的最佳体现。

而为了应对多元化算力的挑战，浪潮信息不仅要解决x86架构的应用问题，更需要为AI服务器进行稳定性、可靠性等应用的全面适配，还要保障算法框架与应用优化、大规模算力部署时的能效控制等多种问题。尤其是对于AI专用芯片的出现也让原有的算力架构进行了转变。

“我们能造出性能强大的火箭发动机，但要想造出安全、高性能的运载火箭，还要在循环、控制、结构等很多领域做大量的工作。芯片到计算系统同样如此，需要完成体系结构、信号完整性、散热、可靠性等大量系统性设计工作。”中国工程院院士、浪潮首席科学家王恩东给出了生动的比喻。

巨量化同样是未来行业的一大特性，这也是由人工智能数据应用的特性来决定的。正如我们刚刚谈到的全球最大中文AI巨量模型“源1.0”那样，出色的人工智能应用必然需要海量的数据进行训练，就比如在如今的互联网平台每天都承载着数万亿次的调用量，数百万小时的语音识别，超过百亿张图像识别，超过万亿句自然语言理解等等。如此巨量的算力调用对算力中心的应用支撑能力带来了极大的挑战，也需要算力提供商与时俱进的提供解决方案。

生态离散化则是AI应用的第三个重点，如果从最终效果来考量，它也是决定企业AI战略成败的关键。目前，AI芯片架构五花八门，指令集不同，无法兼容，而面向芯片的编程库又跟芯片绑定，灵活性差；小公司只做了其中一个环节，这造成生态的纵向不通；大公司希望构建封闭的系统，这造成了生态的横向不通……因此对于产业来说，生态离散化已成为制约人工智能技术上水平、应用上规模、产业上台阶的瓶颈所在。

当然对于这些问题，王恩东院士也给出了专业性的建议，他表示一方面要“重视智算系统的创新，加大人工智能新型基础设施建设，把从技术到应用的链条设计好，从体系结构、芯片设计、系统设计、系统软件、开发环境等各个领域形成既分工明确又协同创新的局面”，而另一方面则是要“开放标准建设，通过统一的、规范的标准，将多元化算力转变为可调度的资源，让算力好用、易用。”

应该说，“源1.0”的开源已经为浪潮信息乃至整个AI产业的生态应用开了一个好头，我们也有了属于中国人自己的、最大的巨量模型。未来在“多元化、巨量化、生态化”的态势下，AI产业需要的也是越来越多的相关模型，通过前沿的AI芯片创新技术分享，推动开放合作、共享共赢的产业AI应用落地，推动整个社会AI应用的普惠化和全覆盖。

那些曾经只能在影视作品中看到的AI场景，应该不会太远了吧。

展开阅读全文

页面更新：2024-06-21

标签：汉语自然语言巨量人工智能李白样本中文浪潮诗词芯片模型生态领域产业数据系统科技信息

1 2 3 4 5

诗词信手来，AI成李白

TOP500榜单发布了，却越来越没劲

超级补能、高阶智能、飞行汽车……小鹏办了一个天花板级的发布会

ITSM国产厂商第一！云智慧开启ITSM应用新时代

1MORE Stylish真无线耳机体验，音质和续航完美

你的第一部5G手机来了，它的名字你可能想不到

Apple iOS 13内置超清壁纸提取，提前感受IOS13的魅力

米家精修/棘轮螺丝刀对比开箱，各显神通

小米黑鲨游戏手机DC调光引来国产手机跟随，和PWM调光有啥区别？

智米变频落地扇2S简单开箱试用，产品精致，体验舒畅！

RedmiBook 14 内置壁纸分享，这里风景独骚

诺基亚9发布，为情怀买单，但是这一点让买家受不了

微信视频太丑？视频聊天实时美颜，妹子必备分享

中兴发布5G手机天机10Pro，高层透露暂时不做折叠手机

蓄势已久，中兴Blade V10 发布，性价比堪比红米

Redmi K20芯片骁龙730详解：新一代次旗舰芯片游戏拍照大幅提升

Redmi K20芯片骁龙730详解：新一代次旗舰芯片游戏拍照

燕郊中兴科技园西侧空地发生火灾，消防站竟然就在旁边

中兴新支点操作系统版本升级，华为鸿蒙发布前的国产领导

新风口有哪些？国务院通过《新能源汽车产业发展规划》

苹果发布新品手机，华为芯片成为对比对象，5G只字不提

全栈自研优势尽显，做中国最强领航辅助驾驶系统

科技潮玩圈“头号网红”，埃安LX科技进化，价值全面提升

小米10外观曝光，这些信息不能错过

中国电池企业的首个“电池日”，曝出了哪些“黑科技”

接连否定要造车的华为，在新能源汽车领域留了什么王牌？