AI芯片专题学习笔记


1. 芯片种类

a) 芯片按照用途分类包括计算芯片、存储芯片、感知芯片、通信芯片、能源芯片等等,

a) 其中最为受益于当下AI+浪潮的是计算芯片,存储芯片次之。

b) 作为AI浪潮中的“金铲子”,AI计算芯片主要包括图形处理器(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、神经拟态芯片(NPU)等。

2. 哪些芯片会受益此轮AI+?

人工智能深度学习需要非常强大的并行处理能力,芯片厂商正在通过不断研发和升级新的芯片产品来应对挑战。

目前GPGPU是绝对主流的AI计算加速芯片,IDC报告显示其占据9成左右市场份额,其他计算芯片大部分都不能够满足当下巨量数据的并行运算。

3. 国内AI芯片市场规模:高速增长

a) 传统 GPU 的基本需求源于视频加速、 2D/3D 游戏等,随着数字化和人工智能的发展,云游戏、数字孪生、元宇宙、工业数字化等产业成为高性能渲染 GPU 新的增长点。

b) 近期人工智能技术突破使 AI 大模型成为竞争焦点,全球互联网科技巨头相继布局研发大模型, 带动下游应用如 StableDiffusion 等图像、视频 AI 创意工具在 C 端使用时的推理算力需求增长,未来随着大模型的不断迭代及商业落地更加成熟,消费级显卡市场有望迎来量价齐升。

c) 紫光股份的AI服务器供不应求,截至目前接收到的关于英伟达芯片的订单量已经是2022年的2倍。

d) AI算力是Chatgpt的核心基座,AI芯片占据算力服务器最大价值量,也是最为核心产品。

e) 2021年,我国AI芯片达到427亿元,同比增长124%。在政策、市场、技术等合力作用下,中国人工智能芯片行业将快速发展,

f) 预计2023年我国AI芯片市场规模将达1600亿元,复合增速100%以上。

g) 国内市场:国内可以规模化买H800和A800的产品的公司最多十几家,主要系大型互联网企业的采购。浪潮、曙光等应该是无法购买。估计一块芯片价格10万人民币,叠加企业要做ChatGPT这种大模型需要芯片1万张起步,能拿出10亿规模的现金流,主要还是大型的互联网企业。个人预期各企业将会有囤货需求,按每家企业2万张的平均需求来计算,在训练方面,国内将会有接近200亿人民币的采购规模。在推理芯片方面,预计采购量将是100亿。总的来看,整个国内对英伟达的采购需求大概为300亿人民币。

h) 海外市场:海外需求偏市场化,不太需要提前存货。预计今年也有一个更大规模增长。微软、谷歌和Bing等大企业对大模型的采购需求将增加英伟达芯片的出货量,预期今年将增长30%-50%。

4. 国内AI芯片

a) 第一梯队:有成熟产品、批量出货的企业,主要包括寒武纪、华为海思、百度昆仑芯、燧原科技,这四家有2-3代更多的产品,技术能力、软件能力都有一定积累。

b) 第二梯队:包括壁仞科技,它去年发布的产品规格很高,但主要还是停留在纸面数据,实测数据、实际性能方面业界和第三方评测机构评价没有那么高,它本身的性能是不及A100的,而且软件层面也还有很多工作要做,目前它只是做了一个软件的雏形,从使用角度来讲离成熟的生态软件、规模化的出货、客户端的个适配还有很长的路要走,现在它也面临着制裁问题、实体清单问题,对于这样的初创企业是生存层面的问题。像天数智心、摩尔线程、沐曦也都陆续有产品推出,但技术能力不及壁仞,只是停留在推理层面,不像第一梯队的企业有更成熟的产品经验,但这几集也都至少是以做AI芯片起家的,专注于该领域。

c) 第三梯队:包括海光、景嘉微,他们以前不是做GPU的,现在过来做GPU。景嘉微也是做GPU芯片的,但在商用端没有多少使用,实际产品性能不是特别清楚。海光是做X86CPU起家的,GPU的技术能力还有待市场的认可和检验。

5. 国内芯片多大程度上替代英伟达A100?

a) 由于国际环境的影响,芯片国产替代这个态势是不可逆转的,国内的超算中心、智算中心都有一个国产化指标。从流出的硬件指标上看,寒武纪思元590已经优于A100。但是好马尚需配好鞍,目前英伟达CUDA在人工智能业界具有绝对性的影响力,建立软件生态不是一朝一夕就可以实现的。

b) 在软件生态方面,华为早在2018年就发布了CANN1.0,而且在大部分双一流理工科院校以训练营的形式铺开了,目前CANN的态势还比较好。

c) 寒武纪则需要下很大力气把Neuware生态做好,不然思元590的硬件对于客户来说比较浪费。

d) 另外英伟达还对GPT-3这样的大型语言模型还有非常多的优化,比如Nemo Megatron,目前国内一些团队正在开始做这方面的工作,如Colossal AI,但他们依然是基于CUDA生态的。所以按照当下的软件生态格局而言,类CUDA的海光DCU对于进行模型训练的用户更为友好一些。

6. 海光

a) 海光深算系列DCU脱胎于AMD CDNA,现已形成自主可控,同时可以运用ROCm软件栈的强大丰富生态。ROCm是一项开源计划,现有大部分CUDA上运行的应用,都可以迁移到ROCm。量子化学领域的CP2K,天气预报领域的WRF,药物研究领域的GROMACS,生物信息学领域的HMMER等软件都获得了ROCm完整的并行高性能计算支持。也就意味着在英伟达数据中心级GPU可能断供的情况下,海光深算系列可以无缝承接目前国内超算和数据中心的大部分GPU运算能力,在芯片战发生时为我国的科学和技术研究撑起保护伞。

b) 海光Z100 FP32算力约为21TFlops,显存带宽为1TB/s,网上一些消息称将在一年后量产的思元590 FP32算力达到80TFlops,显存带宽为2.7TB/s。单从FP32算力和显存带宽上看,思元590的确有优势。当然,同为国产替代,也要考虑思元590最终采购单价和软件生态的成熟程度。A100在业界的大规模使用,是全球AI产业认可英伟达软件生态,并在英伟达产品体系内根据产品性能价格比做理性决策的结果,不然大家就去上更高端的H100了。

c) 从我们专业的角度,在当前海光无论是从产品还是盈利能力,都要远优于寒武纪的。目前看,海光应该是国内唯一一家在高端芯片领域实现盈利的公司,公司产品在21年开始爆量,快速均摊了成本,净利率大幅提升。从目前国内采购情况看,海光今年爆发已经没有悬念。

d) 在寒武纪思元590尚未量产的这一年内,海光Z100在性能上是国产自主可控GPGPU的领跑者。寒武纪思元590实现量产的过程中,海光也有机会通过Chiplet技术进一步提升产品硬件实力,与思元590一较高下,并且海光仍然有软件栈和生态的巨大优势。

e) 针对海光,技术人员也有看好的,参数也足够支撑训练,但可能由于海光因产能等因素,可能更侧重满足国有算力的需求。同时,集团层面是否对接,不清楚。海光被拉入了黑名单,其实也有一定的担心,就是在阿里云上了之后,可能会给自己引火烧身,所以这方面也是我们考量的一个因素。最后反正就没采海光后期的供货,可能也会成问题,这也是我们考量的原因之一

f) 海光训练产品的算力规模不足以支持做数据中心。海光DCU Z100训练算力较小,不到100TFLOPS,只适合一些推理场景,不足以支持大模型的训练,因此没有能力去替代寒武纪、华为和英伟达的产品。目前来看海光缺少大算力技术基础。第一,海光的X86授权CPU技术积累,对做GPU没有帮助。第二,海光的AMD授权软件生态也不足以在大算力的超算领域和英伟达的扩大生态竞争。因此,要做大算力产品还有很长的路要走。从产品层面来讲,海光离传统做AI芯片的企业还是有较大的技术差距。

g) 思元百度飞桨认证的工作做得比较早,在2020年就开始了。海光DCU则是在2021年10月才拿到的百度飞桨生态兼容性认证,飞桨上的所有训练模型海光DCU都支持。相比之下,思元在这其中支持的训练模型约为四成,对推荐系统、视频分类、语音合成、生成对抗网络四个大类均未适配,余下五个大类,除字符识别所有模型全数支持外,其他的四个大类中的模型支持不足半数。特别是在当下最为热门的CHATGPT相关的自然语言处理大类,海光DCU支持9种模型,而寒武纪MLU只支持其中3种。海光DCU使用国际通用的ROCm软件栈,这一类CUDA架构使得海光与国际通用的大部分AI模型适配较好,只是在部分模型上并行性有些影响。成都超算中心在成立的两年来与百度飞桨合作,根据国际开源项目AlphaFold2研发了国产DCU蛋白质预测模型。此外,还根据中科院成都山地所具体需求,在海光CPU+DCU异构硬件生态上为其研发的“山地灾害风险模拟与险情预报系统”赋能,实现数十万平方公里范围内所有数千条小流域精细化全过程模拟。在从硬件的自主可控到软件的自主可控这条路上,看起来海光DCU走得更远一些。

h) 海光信息成立于2014年,主营产品包括CPU和DPU(属于GPGPU),营收规模和增速都位居国产CPU企业的前排。

i) 由于x86架构在服务器CPU的市占率超9成,海光信息CPU兼容x86指令集,使得其具备较高的应用兼容性、较低的迁移成本,有望受益于x86完备的生态体系。

j) 该公司在2021年实现首次盈利,背靠中科曙光、AMD两家巨头。

k) 国产高性能计算龙头企业中科曙光,是海光信息的第一大股东,也是海光信息的优质客户源。曙光服务器中应用海光产品的比例超过30%,为海光芯片的放量打下了深厚基础。

l) 海光信息的x86授权来自全球第二大x86处理器供应商AMD公司。2016年,AMD和海光信息合资成立了成都海光微电子技术有限公司和成都海光集成电路设计有限公司,授权海光微电子x86指令集和Zen架构,AMD获得2.93亿美元的授权费。

m) 海光集成电路购买海光微电子的IP授权,以此为基础开发CPU。海光集成电路与海光微电子的股权结构保证了公司在规避了英特尔的x86授权限制的同时,又使得海光x86 CPU成为内资公司开发的产品,满足了国家产业政策和创新的需求。

n) 其产品基于AMD Zen1架构,产品性能起点较高。对比英特尔在2020年(与海光7285 同期)发布的6款至强铂金系列产品(能够反映英特尔2020年发布的主流CPU产品的性能),在典型场景下,海光7285已接近国际同类高端产品水平。

7. 寒武纪:

a) 公司是国内稀缺的AI算力芯片公司,公司拥有完善的智能芯片产品布局,能提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。云端产品线方面,公司已先后推出了思元290和思元370芯片及相应的云端智能加速卡系列产品、训练整机。边缘产品线方面,公司面向边缘计算场景推出的思元220芯片和边缘智能加速卡已落地多家头部企业,自发布以来累计销量突破百万片。IP授权及软件方面,公司先后推出了用于终端场景的寒武纪1A、寒武纪1M系列智能处理器,授权给客户在其产品中使用。

b) 寒武纪MLU370,主要是性能基本过关(A100的60-70%),检测合格,态度积极,愿意对接,服务贴身。今年会采购大概2000张的水平,主要用在一些CV等小模型的训练或推理上。寒武纪MLU 370没有供货的风险,后续的MLU590也许就会有了。

c) 与英伟达的差距?从技术架构或初级架构角度看,寒武纪产品主要还是ASIC架构,ASIC的劣势在于通用性会比较差,优势在于如果某些特定应用场景它把算法固化到硬件里边去,算力是可以做到比GPU更高的。这个特点也决定了它的最终的性能特点,所以我们看到公开信息或一些百度内部的测试结果,寒武纪590在做大模型的训练跑transformer、BERT等大语言模型时,性能非常接近A100,接近90%的性能。但如果跑20-30个主流的模型,我们会看到可能有些模型如果在算法层面没有做特别的固化优化的话,可能只能达到A100 50-60%的性能。关于技术路线与美国制裁

d) 寒武纪:相对来说是国内做的比较早的厂商。2021年发布的思元370,是训练和推理一体的产品,推理算力为256TOPS(INT8),训练算力为128TFLOPS。出货量在寒武纪云端产品和商用客户端,属于相对较大的。比如,在阿里云、浪潮、曙光等服务器厂商和科大讯飞等AI算法层面的公司都有批量出货。

e) 训练端产品主要是2021年发布的思元290和还未发布的思元590。思元290采用7nm台积电制程工艺,训练算力达256TFLOPS,比英伟达的V100和昆仑芯二代都要强一些,但还不足A100的水平。玄思1000加速器搭载4块思元290芯片,整机算力达到1P。下一代产品思元590,规模能达到A100水平,性能将达到预期。再下一代产品,计划对标H100,但要先解决供应的问题,因此项目节奏会推后。

8. 景嘉微

a) 公司作为国产 GPU 龙头, 信创推进+AI 爆发有望驱动业绩超预期,未来仍有较大的存量替代+增量空间。

b) GPU 芯片领域,公司是国内首家成功研制国产GPU 芯片并实现大规模工程应用的企业, 先后推出 JM5 系列、 JM7 系列、 JM9系列等高性能 GPU 芯片,联合国内主要 CPU、 整机、操作系统、行业应用等厂商开展适配与调试工作, 共同构建国产化计算机应用生态。 JM9 系列可满足高性能显示需求和人工智能计算需求, 未来有望在 AI 大模型及云计算等高端领域进一步得到应用。

c) 图形显控模块是公司研发最早、积淀最深、也是目前最核心的产品,主要应用于军工领域,从机载向更广阔的车载、船舶和通用市场等领域不断渗透。

d) 小型专用化雷达技术积累深厚、产品成熟,具有技术先发优势,研发了系列雷达产品,逐步实现由模块级产品向系统级产品转变。

9. 百度昆仑芯:

a) 目前百度已有两款产品,第一,2018年下半年发布昆仑芯一代产品,基于三星14nm,可以做训练和推理,因此主要用于推理。

b) 第二,2021年发布昆仑芯二代产品,搭载GDDR6高性显存,支持256TOPS(INT8)算力,和V100性能差不多,可以做训练和推理。两个产品都在百度云服务器上部署。

c) 第三代昆仑芯产品,预计明年上半年发布,目标达到A100性能。

10. 沐曦:

a) 沐曦集成电路成立于 2020 年,公司创始团队处于国内顶尖行列——创始人 陈维良曾任 AMD 全球 GPGPU 设计总负责人;两位 CTO 均为前 AMD 首席科学家,目前分别负责公司软硬件架构;核心成员平均拥有近 20 年高性能 GPU 研发经验。

b) 沐曦于 2022 年 7 月完成 10 亿元 Pre-B 轮融资,由混沌投资领投。

c) 沐曦首款异构 GPU 产品 MXN100 采用 7nm 制程,已于 2022 年 8 月回片点亮,主要应用于推理侧;

d) 应用于 AI 训练及通用计算的产品 MXC500 已于 2022 年 12 月交付流片,公司计划 2024 年全面量产

11. 对各大芯片在AI领域的应用点评

a) 景嘉微不是做AI芯片的厂商,景嘉微的产品目前只能用于图形处理、图像渲染,未来可能能实现光线追踪。目前景嘉微最好的JM9系列产品,大概达到英伟达GTX 1050的水平,只能算入门级GPU。

b) 第二,寒武纪。寒武纪最好的产品是思元590,这款产品在文心一言中有小规模的部署,大概几百件,并且也只是文心一言中众多业务场景的一小部分,没有实现大规模部署。我们认为寒武纪的产品只能用于大规模推理中的一小部分场景,还不能做大模型训练,还有许多需要弥补的地方。

c) 第三,华为昇腾。华为昇腾只能用于华为自身生态中的大模型业务,通用性差。比如昇腾不能做GPT-3,因为昇腾910不支持32位浮点,而目前大模型训练几乎都要使用32位的浮点,所以华为昇腾芯片只能利用华为开发的框架(如MindSpore),在加上优化好的大模型,比如盘古CV。任何公开模型都必须经过华为的深度优化才能在华为的平台上运行,而这部分优化工作华为还没有开始,所以我们现在认为华为只能运行自己闭环的大模型产品。

d) 第四,海光信息。海光的深算1号可以运行大模型,目前正在开发深算2号。深算1号相当于英伟达的P100的水平,但是性价比低,即便在openai最早训练GPT-3的时候,也采用了V100芯片。此外,海光还存在迭代问题,因为海光只拿到了AMD第一代GPGPU的授权。

e) 6万片海光GPU出现宕机的情况,是因为运行问题吗?A:对。第一,海光这代产品时AMD第一代产品,本身没有经过大规模部署和验证,所以存在硬件上的不稳定因素。第二,配合产品需要一个非常稳定软件架构,但是目前运营方开发能力不足。随着集群规模增大,出现错误的风险也增大,而企业很少遇到大规模一次性使用的场景,所以产品不够成熟

f) 寒武纪的思元590参数指标比海光的Z100要好,为什么不能进行大模型训练呢?大模型训练需要几个前提。第一,需要有充足的算力,这方面问题不大。第二,需要有较大的内存放置大模型,寒武纪的卡相对内存容量较小,但是这不是主要问题。第三,片间互联的解决方案,寒武纪要比海光差。最重要的,寒武纪对于Tensorflow和PyTorch框架支持不好,不稳定,如果要运行大模型,需要额外的开发工作量。

g) 国产芯片能达到多少?如果和英伟达比,大约是30%。对于寒武纪,硬件指标大概接近A100,价格比A100低,但是寒武纪的供应链很紧张,没法提供大规模的部署,并且开发需要大量人力配合客户开发,寒武纪不一定有意愿投入。

12. 芯片的自主可控问题

a) 不是纯粹的自主可控,因为一些核心IP都是国外的产品,并且企业依赖台积电。

b) 如果抛开流片不谈,只看设计方面,会不会受到美国限制?会,因为这里面存在几个核心的专利,比如PCIE,目前掌握在cadence和Synopsis这样的公司手里,都是美国公司。HBM基本上只来自于三星、海力士和镁光,如果美国商务部有禁令,这些企业都不能像中国企业提供产品。纯国产化在这方面的确没有相应的积累,所以会被美国卡脖子。

c) 海光是否能做到不受影响?第一个问题是海光在美国禁运产品名单中,所以海光投片只能通过第三方代理公司,导致投片价格会偏高、产能会不足。第二个问题是海光拿不到新一代架构的授权,限制了海光产品迭代,可能会与海外主流产品代差越来越大,这是海光最大的问题。

d) 海光当前的架构是买断的吗?对,这一代架构不会侵权,唯一要解决的是产能供应链的问题。

e) 昇腾、寒武纪、沐曦这三家企业会不会涉及到海外侵权的可能性?A:昇腾不涉及,因为昇腾涉及的IP都是买断的,但是昇腾面临下一代产品更迭的问题,新一代IP没法拿到海外厂家的支持,所以昇腾全部的IP都需要国内的替代,但是国内目前还非常不成熟。目前昇腾920和昇腾910差距不大,只是生产工艺使用了中芯国际的14纳米工艺。沐曦目前不在美国商务部的黑名单中,用的很多核心是国外的厂家的,所以如果沐曦严格遵守美国高端芯片的条款,短时间内不存在风险,还是可以用国外的IP和台积电。




展开阅读全文

页面更新:2024-05-14

标签:三星   芯片   华为   英伟   寒武纪   模型   生态   性能   专题   产品   公司

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top