GPU管制升级,国产何时能完成替代?

10月17日,美国商务部工业和安全局(BIS)公布新的先进计算芯片、半导体制造设备出口管制规则,限制中国购买和制造高端芯片的能力,并将中国GPU企业及其子公司列入了实体清单。

同时,据英伟达公司向美国证券交易委员会提交的最新公开文件,美国政府已经发布更新和修正后的临时最终决定。受管制的包括但不限于 NVIDIA A100、H100、A800、H800、L40、L40S、RTX 4090 以及集成这些高性能计算卡的 DGX/HGX 系统。(4090只限算力,消费仍可以)

那么大模型训练究竟需要多少算力?GPU是什么?国产gpu到底做到什么程度了?

1、大模型成本

每参数每 token 的算力需求是常数,在训练阶段一般为6FLOPs,推理阶段则为 2 FLOPS。

平均算力成本主要由 GPU 性能等决定,每FLOP 的价格,平均每2.5 年下降 40%-50%。

算力使用效率取決于软硬件优化水平等。据谷歌 PaLM 的论文,在训练阶段,缺乏优化经验或堆叠过多芯片,效率可能低至 20%,目前谷歌与 OpenAl 都能达到50%左右。前述机构推测目前推理阶段的效率在 25%左右。

gpt3训练算力需求

训练一次类似GPT3 的大模型,即1750 亿参数规模,3000亿token,需要6*1750*10^8*3000*10^8=3.15*10^23FLOP 的算力需求。

按2020年时算力水平,如果只用1片 V100,在FP16 精度的28TFLOP的理论算力下,需要训练 3.15*10^23/28/(1*10^12)/(365*24*60*60)=357 年;要缩短训练时间,就要增加硬件投入,但算力使用效率就会下降。

单次训练成本

注意,这些成本只是单次训练成本,如果就8张a100要训练32年,想要时间压缩到一个月,需要至少购买3000张以上(效率不降情况下,实际应该更多)

(h100成本为笔者估算,其余数据来自启明创投报告。)


各主流模型可能采用的卡数

GPT-4:可能由1万到2.5万块A100训练

Falcon-40B:384个A100训练

Inflection用了3500个H100训练了一个等价于GPT-3.5的大模型

LLaMA-1:2048个A100

GPT-5:可能需要3万到5万个H100(存疑)


推理成本(用户调用)

假定GPT-3.5的参数规模为 1750亿,用户调用时,输入 500 token 长度的提示词,获得 500token 的内容输出,且这一推理过程完全基于 A100 实现,算力使用效率为 25%,那么单次推理算力需求为 2*1750*10^8*(500+500)=3.5*90^14FLOP, 单次推理成本为 19.22/8/(312*9×70^12)/ (60*60) *3.5*10^14/25%=0.003 美元 / 千token, 微调过的gpt3.5-turbo售价是0.002美元/千token,原版gpt3即达芬奇3是0.02美元/千token。用a100维护微调过的3.5是亏的,基础版的3是赚的,所以在当时出现了gpt降智以及传闻3.5用的是更小一号模型的问题。

有了h100后成本下降,估算0.002美元/千token,等于3.5 售价(实际应该是有利润的,计算用的租用价格,openai拿货和维护成本应该更低些,并且 3.5 大概率是阉割版)

此外,赚钱的应该是plus会员,每月20美元,按售价算也有1千万gp3.5,50万gpt4 token,大部分用户用不完

openai目前营收每月1亿美元,但谷歌deepmind营收是在下降的,微软的coplite目前也是血亏,每个用户要贴20美元。最终会是个赢家通吃的市场。


各家厂GPU储备

Meta:2.1万块A100

Tesla:7000块A100

StabilityAI:5000块A100

GPC:2.5万块H100

Azure:1-4万块H100

CoreWeavw:3.5-4万块H100

OpenAI:可能有5万块H100

Infection:希望有2.2万块H100

Meta:已经有2.5万块H100,但是希望再买1万块

国内,虽然禁用,但短期内大订单均已经下完,1-2年内不会有大规模缺口:

百度、字节跳动、腾讯和阿里巴巴已向英伟达共订购价值10亿美元的A800处理器,将于今年交付。此外中国企业还购买了价值40亿美元的GPU,将于2024年交付。如果禁令不影响存量订单,短期内大厂应当不会有太大算力问题,有充足时间谈判或国产替代。


什么样的芯片可以,为什么说英伟达强

核心三个因素:

1、单片算力,英伟达v100 fp16精度 28,A100 fp16精度 312,h100 fp16精度 1513,此外在深度学习领域,还需要支持32、64精度,能在大模型训练时减少精度损失。(精度可以简单理解为位数位数越多训练出来的模型精度越高)

2、多芯片集群能力,gpt3最少要350g显存,1.3t内存单卡无法达到,训练时更需要多卡,且是保证运算效率的多卡集群能力,英伟达除芯片外NVLINK技术能串联多gpu也是核心能力,国内特供版a800、h800和原版很大一项差距就是互联后整体集群带宽的下降。A800的互联带宽从A100的600GB/s下降到400GB/s,H800的互联带宽从H100的900GB/s下降到450GB/s。

3、软件生态:能支持常用深度学习框架TensorFlow、PyTorch和Caffe等,以及各类库、工具、驱动程序。

英伟达gpu参数

添加图片注释,不超过 140 字(可选)


国内gpu哪家还行?看制裁清单就行

总评:底层大模型训练国产gpu暂时没这个能力,搞个微调可以。

华为昇腾(19年推出美国禁令后停产,今年又恢复)

单卡fp16还行,接近A100,但问题是不支持32、64精度,可能会存在一些精度损失。

集群能力上9月推出了Atlas 900 SuperCluster,新闻上说了拓展性强能支持万亿参数模型训练,但没有曝光互联带宽和延迟参数。

生态上PyTorch2 10月对华为有了一定支持

结论:微调或训小一点的 模型够用,但要做超大参数规模的底座有精度问题,集群能力不确定算力利用效率就不确定,对企业来说成本高


壁仞科技(创始人英伟达出来的)

单卡不错,支持到了fp32精度,且算力超过了a100,接近h100,但也不支持64

集群用,BLink互联技术,支持8卡点对点全互连,互联带宽448g/s,达不到a100、h100的水平,但已经可以对比之前阉割版的h800了

生态兼容TensorFlow、PyTorch、飞桨等主流深度学习框架

但被列实体清单,产能问题受很大影响


摩尔线程(创始人英伟达原中国区总经理)

单卡性能差了前面一截,显存32也略低,但这块是面向数据中心的,不是纯做算力显卡的,此外公司产品还包括桌面显卡MTT S10/S30/S50、第一款国产游戏显卡MTT S80,同样被列入了实体清单


寒武纪:

从参数看差华为、壁仞一些,但也算是踩了一脚门槛,同时更早就被列入实体清单

展开阅读全文

页面更新:2024-04-04

标签:亚马逊   英伟   集群   管制   精度   模型   效率   成本   参数   能力   美元

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top