GPU管制升级，国产何时能完成替代？

10月17日，美国商务部工业和安全局（BIS）公布新的先进计算芯片、半导体制造设备出口管制规则，限制中国购买和制造高端芯片的能力，并将中国GPU企业及其子公司列入了实体清单。

同时，据英伟达公司向美国证券交易委员会提交的最新公开文件，美国政府已经发布更新和修正后的临时最终决定。受管制的包括但不限于 NVIDIA A100、H100、A800、H800、L40、L40S、RTX 4090 以及集成这些高性能计算卡的 DGX/HGX 系统。（4090只限算力，消费仍可以）

那么大模型训练究竟需要多少算力？GPU是什么？国产gpu到底做到什么程度了？

1、大模型成本

每参数每 token 的算力需求是常数，在训练阶段一般为6FLOPs，推理阶段则为 2 FLOPS。

平均算力成本主要由 GPU 性能等决定，每FLOP 的价格，平均每2.5 年下降 40%-50%。

算力使用效率取決于软硬件优化水平等。据谷歌 PaLM 的论文，在训练阶段，缺乏优化经验或堆叠过多芯片，效率可能低至 20%，目前谷歌与 OpenAl 都能达到50%左右。前述机构推测目前推理阶段的效率在 25%左右。

gpt3训练算力需求

训练一次类似GPT3 的大模型，即1750 亿参数规模，3000亿token，需要6*1750*10^8*3000*10^8=3.15*10^23FLOP 的算力需求。

按2020年时算力水平，如果只用1片 V100，在FP16 精度的28TFLOP的理论算力下，需要训练 3.15*10^23/28/(1*10^12)/(365*24*60*60)=357 年；要缩短训练时间，就要增加硬件投入，但算力使用效率就会下降。

单次训练成本

V100：租用亚马逊云服务预购一年 (Savings Plans) 每小时 18.3美元。按50%算力使用效率估算，训练GPT-3 的成本约为357*(18.3/8)*365*24/50%=1430万美元。
A100：FP16 精度的312TFLOP，按亚马逊云租一年价格（8片每小时19.22美元），训练gpt3约需要135万美元
H100：FP16 精度的1513TFLOP，目前亚马逊云没查到h100租赁价，按售价3.3倍同比估算，训练gpt3约需要91.86万美元

注意，这些成本只是单次训练成本，如果就8张a100要训练32年，想要时间压缩到一个月，需要至少购买3000张以上（效率不降情况下，实际应该更多）

（h100成本为笔者估算，其余数据来自启明创投报告。）

各主流模型可能采用的卡数

GPT-4：可能由1万到2.5万块A100训练

Falcon-40B：384个A100训练

Inflection用了3500个H100训练了一个等价于GPT-3.5的大模型

LLaMA-1：2048个A100

GPT-5：可能需要3万到5万个H100（存疑）

推理成本（用户调用）

假定GPT-3.5的参数规模为 1750亿，用户调用时，输入 500 token 长度的提示词，获得 500token 的内容输出，且这一推理过程完全基于 A100 实现，算力使用效率为 25%，那么单次推理算力需求为 2*1750*10^8*(500+500)=3.5*90^14FLOP，单次推理成本为 19.22/8/(312*9×70^12)/ (60*60） *3.5*10^14/25%=0.003 美元 / 千token，微调过的gpt3.5-turbo售价是0.002美元/千token，原版gpt3即达芬奇3是0.02美元/千token。用a100维护微调过的3.5是亏的，基础版的3是赚的，所以在当时出现了gpt降智以及传闻3.5用的是更小一号模型的问题。

有了h100后成本下降，估算0.002美元/千token，等于3.5 售价（实际应该是有利润的，计算用的租用价格，openai拿货和维护成本应该更低些，并且 3.5 大概率是阉割版）

此外，赚钱的应该是plus会员，每月20美元，按售价算也有1千万gp3.5，50万gpt4 token，大部分用户用不完

openai目前营收每月1亿美元，但谷歌deepmind营收是在下降的，微软的coplite目前也是血亏，每个用户要贴20美元。最终会是个赢家通吃的市场。

各家厂GPU储备

Meta：2.1万块A100

Tesla：7000块A100

StabilityAI：5000块A100

GPC：2.5万块H100

Azure：1-4万块H100

CoreWeavw：3.5-4万块H100

OpenAI：可能有5万块H100

Infection：希望有2.2万块H100

Meta：已经有2.5万块H100，但是希望再买1万块

国内，虽然禁用，但短期内大订单均已经下完，1-2年内不会有大规模缺口：

百度、字节跳动、腾讯和阿里巴巴已向英伟达共订购价值10亿美元的A800处理器，将于今年交付。此外中国企业还购买了价值40亿美元的GPU，将于2024年交付。如果禁令不影响存量订单，短期内大厂应当不会有太大算力问题，有充足时间谈判或国产替代。

什么样的芯片可以，为什么说英伟达强

核心三个因素：

1、单片算力，英伟达v100 fp16精度 28，A100 fp16精度 312，h100 fp16精度 1513，此外在深度学习领域，还需要支持32、64精度，能在大模型训练时减少精度损失。（精度可以简单理解为位数位数越多训练出来的模型精度越高）

2、多芯片集群能力，gpt3最少要350g显存，1.3t内存单卡无法达到，训练时更需要多卡，且是保证运算效率的多卡集群能力，英伟达除芯片外NVLINK技术能串联多gpu也是核心能力，国内特供版a800、h800和原版很大一项差距就是互联后整体集群带宽的下降。A800的互联带宽从A100的600GB/s下降到400GB/s，H800的互联带宽从H100的900GB/s下降到450GB/s。

3、软件生态：能支持常用深度学习框架TensorFlow、PyTorch和Caffe等，以及各类库、工具、驱动程序。

英伟达gpu参数

添加图片注释，不超过 140 字（可选）

国内gpu哪家还行？看制裁清单就行

总评：底层大模型训练国产gpu暂时没这个能力，搞个微调可以。

华为昇腾（19年推出美国禁令后停产，今年又恢复）

单卡fp16还行，接近A100，但问题是不支持32、64精度，可能会存在一些精度损失。

集群能力上9月推出了Atlas 900 SuperCluster，新闻上说了拓展性强能支持万亿参数模型训练，但没有曝光互联带宽和延迟参数。

生态上PyTorch2 10月对华为有了一定支持

结论：微调或训小一点的模型够用，但要做超大参数规模的底座有精度问题，集群能力不确定算力利用效率就不确定，对企业来说成本高

壁仞科技（创始人英伟达出来的）

单卡不错，支持到了fp32精度，且算力超过了a100，接近h100，但也不支持64

集群用，BLink互联技术，支持8卡点对点全互连，互联带宽448g/s，达不到a100、h100的水平，但已经可以对比之前阉割版的h800了

生态兼容TensorFlow、PyTorch、飞桨等主流深度学习框架

但被列实体清单，产能问题受很大影响

摩尔线程（创始人英伟达原中国区总经理）

单卡性能差了前面一截，显存32也略低，但这块是面向数据中心的，不是纯做算力显卡的，此外公司产品还包括桌面显卡MTT S10/S30/S50、第一款国产游戏显卡MTT S80，同样被列入了实体清单

寒武纪：

从参数看差华为、壁仞一些，但也算是踩了一脚门槛，同时更早就被列入实体清单

展开阅读全文

页面更新：2024-04-04

标签：亚马逊英伟集群管制精度模型效率成本参数能力美元

1 2 3 4 5

GPU管制升级，国产何时能完成替代？

青平：“反向消费”是理性消费的回归

东南亚掀数据中心热，中美企业展开竞争

济南地铁建设在4号线首次分体始发盾构机

京东“双11”启动发起“真低价倡议”

「帮你办」曾在不同省份工作过，退休后在哪领取养老金？

“这是明智的投资”拜登呼吁支持以色列和乌克兰

中国先进硬质材料及工具国际博览会开幕

蔡甸老旧小区大变样按下居民幸福生活“升级键”

温州落地执行认房不认贷

打造“新一代世界一流汽车城”，深圳龙岗加速行动

文旅行业活力持续释放消费信心持续有力提升

零售额占全市三成多高新区电商产业领先优势明显济南高新区电商产业领先优势明显

早财经 - 央行行长潘功胜：进一步推动金融机构降低实际贷款利率；22地拟发行特殊再融资债券；中国作家海漄获雨果奖；耐克官宣：上4天休3天！

卷入“小便风波”的青岛啤酒：持续加大宣传营销力度提升品牌

中国经济数据引发外界新乐观情绪

惠州一景区发布通告，这个时间段将实行临时管制

任正非：出马应战！派华为昇腾910B，对战英伟达AI芯片

强化“根”技术研发智能芯片、开发框架、通用大模型

提示工程夭折？MIT斯坦福让大模型主动提问，自己搞懂你想

多模态GPT-V出世！36种场景分析能力，LMM将全面替代大语言

亚马逊账号清退持续爆发，申诉无门，卖家如何规避？

强化“根”技术研发智能芯片、开发框架、通用大模型

报告显示：金融系统将持续提高服务实体经济能力

从“玩具”到“工具” 大模型何以真正赋能行业？

参数图集｜趁着好天气去露营，到大自然中收获好心情