深度分析英伟达Thor,2000 TOPS是真的吗?

英伟达Thor不仅是自动驾驶SoC,在英伟达的设想中,Thor将座舱、自动泊车和自动驾驶都收入囊中,也就是真正意义上的中央计算中心或者中央服务器,也是Zonal架构的核心。这是英伟达最具野心的芯片,不仅是自动驾驶,高通的大本营——座舱也要拿下。吉利旗下的极氪已经确定采用。


英伟达Thor中央计算平台

图片来源:NVIDIA



Thor的公开资料很少,据英伟达的介绍,Thor就是英伟达Grace CPU和Hopper GPU的结合,英伟达称之为Grace Hopper架构,这两者的公开资料还是不少的,本文依据的资料主要来自英伟达Grace Hopper 架构白皮书。


英伟达的GPU-CPU Superchip可以看做是Thor的放大版。图片来源:NVIDIA



Grace Hopper超级芯片的内部框架图

Hopper实际就是英伟达的H100 GPU。图片来源:NVIDIA



图片来源:NVIDIA



来一张H100的高清大图,H100分两种,一种是SXM,另一种是PCIe。H100 SXM5的INT8算力峰值可达4000TOPS,PCIe是3200TOPS。最近还有一种FH H100,性能略高于SXM。注意H100主芯片旁边的6个紧贴着的芯片,那就是昂贵的HBM3,由韩国SK Hynix提供,目前全球只有SK Hynix能够量产HBM3,也只有英伟达一个用户。这种芯片不太严格地说也能算Chiplet晶粒,那6个芯片实际应该叫die,由于价格非常昂贵,即使英伟达也要节约着用,每个die是16GB,不过有一个是空的,H100的HBM3是80GB,之所以加一个空的,主要是考虑到热效应,少一个die,热量分布不均匀。这也是台积电CoWoS不如英特尔EMIB的地方,英特尔可以不加空die。


图片来源:NVIDIA



上表为H100算力参数升级后的数据,离英伟达第一次宣传的算力几乎没有差别,峰值INT8达到近4000TOPS,这是自动驾驶最常用的格式。特斯拉自己研制的数据中心芯片Dojo D1被英伟达H100秒杀,Dojo D1的FP32算力仅为22 TFLOPS,不及英伟达H100的1/3。BF16精度算力为362TFLOPS,而H100是1979TFLOPS。二者差距明显。这些算力都是稀疏模型下取得的,稠密模型下减半。


英伟达H100的SM(流多处理器)内部图

图片来源:NVIDIA



H100 SXM5每个GPU包含132个SM,H100 PCIe每个GPU包含114个SM。每个SM包含128个FP32 CUDA核心,128个FP64 CUDA核心,来应对FP32/FP64格式。H100 SXM5第四代Tensor核心数量是528个,H100 PCIe是456个。FP32核心会占用很大面积的die,Thor不做数据中心训练用就可以不要FP32核,或者只需要很少,2-4个就够。Tensor核心只需要H100的一半,也就是264个,Thor似乎就能做到2000TOPS了。


实际H100关键的地方不在GPU核心,而是存储,这才是H100高算力的关键。H100的成本估计在1万美元左右,售价约3万美元,而存储占的成本估计有一半,甚至会超过一半。


来源:公开信息整理



对于深度学习或者说人工智能运算,瓶颈就在存储器,最简单的解决办法就是用HBM3内存,HBM就是高宽带。


图片来源:SK Hynix



高性能AI芯片必用HBM,HBM有三个缺点,一是价格昂贵,每GB成本大约20-40美元,至少8GB起售;二是必须使用2.5D封装,成本进一步增加;三是功耗增加不少。H100 PCIe的功耗仅H100 SXM5的一半。除了数据中心用得起HBM,消费类电子和汽车是不可能的。仅此一项就占了H100 SXM5大约2500美元的成本。


HBM的成本还不是最高的,最高的成本是SRAM,也就是L2缓存,H100用的是台积电N4也就是4纳米工艺,不过这种工艺如果做SRAM并不会提高密度,N4工艺下每MB的SRAM成本大约40-50美元,也有人估计是近100美元。FH H100用的是60MB的SRAM,成本更高。这50MB的SRAM会占用大约2000美元的成本。


Thor的价格不会高于500美元,超过500美元,车厂就无力承受了,也就不可能用HBM,也不可能用高容量的SRAM,Thor顶多会用LPDDR5,SRAM容量估计2-3MB。能不能达到2000TOPS的算力,相信大家都已经很清楚了。


看完GPU再来看CPU。


图片来源:NVIDIA



英伟达的Grace超级芯片实际是两片芯片合起来的,每颗芯片有72个核心。这个核心就是Arm 的Neoverse V2。


ARM 服务器CPU架构路线图

图片来源:ARM



V系列是高性能系列。


图片来源:ARM



与Orin的A78不同,Thor的Neoverse V2就是针对服务器设计的,一般来说最少都有24核心。Grace超级芯片每个核心有64 KB I-cache 和64 KB D-cache,L2级缓存也就是SRAM可以选1或2MB,英伟达节约成本,选择的是1MB,毕竟SRAM太贵了。L3缓存是234MB,每核心是1.625MB。英伟达为Grace超级芯片配备的板载DRAM是LPDDR5,容量高达960GB,每颗芯片有480GB。Grace超级芯片的功耗为500瓦,Thor在CPU部分功耗估计不超过20瓦,估计是24核心,甚至是16核心,对应的LPDDR5估计不超过64GB,否则就成本太高了。


英伟达希望靠算力军备竞赛把对手拖下泥潭,一味追求算力或者说数字,都可能被英伟达吊打,功耗和价格是英伟达的缺点,高通未来有能力抗衡英伟达。


声明:本文仅代表作者个人观点。


更多佐思报告


报告订购及合作咨询请私信小编。

佐思2023年研究报告撰写计划

智能网联汽车产业链全景图(2022年12月版)


自主品牌主机厂自动驾驶

汽车视觉(国内)

高精度地图

合资品牌主机厂自动驾驶

汽车视觉(国外)

高精度定位

ADAS与自动驾驶Tier1-国内

环视市场研究(本土篇)

汽车网关

ADAS与自动驾驶Tier1-国外

环视市场研究(合资篇)

数据闭环研究

ADAS域控制器关键组件

红外夜视

汽车信息安全硬件

自动驾驶与座舱域控制器

自动驾驶仿真(国外)

汽车信息安全软件

多域计算和区域控制器

自动驾驶仿真(国内)

OEM信息安全

乘用车底盘域控

激光雷达-国内篇

无线通讯模组

域控制器排名分析

激光雷达-国外篇

汽车5G融合

E/E架构

毫米波雷达

800V高压平台

L4自动驾驶

车用超声波雷达

燃料电池

L2/L2+自动驾驶

Radar拆解

一体化电池

乘用车摄像头季报

激光和毫米波雷达排名

一体化压铸

ADAS数据年报

专用车自动驾驶

汽车操作系统

合资品牌车联网

矿山自动驾驶

线控底盘

自主品牌车联网

无人接驳车

滑板底盘

自动驾驶重卡

无人配送车

电控悬架

商用车ADAS

无人零售车研究

转向系统

商用车智能座舱

农机自动驾驶

线控制动研究

商用车车联网

港口自动驾驶

充换电基础设施

商用车智能底盘

模块化报告

汽车电机控制器

汽车智能座舱

V2X和车路协同

混合动力报告

智能座舱Tier1

路侧智能感知

汽车PCB研究

座舱多屏与联屏

路侧边缘计算

IGBT及SiC研究

智能座舱设计

汽车eCall系统

EV热管理系统

仪表和中控显示

汽车EDR研究

汽车功率电子

智能后视镜

智能汽车个性化

电驱动与动力域

行车记录仪

汽车多模态交互

汽车线束

汽车数字钥匙

车载语音

汽车音响

汽车UWB研究

TSP厂商及产品

汽车座椅

HUD行业研究

自动驾驶法规

汽车照明

人机交互

自动驾驶标准和认证

汽车镁合金压铸

车载DMS

智能网联测试基地

电装新四化

OTA研究

PBV及汽车机器人

造车新势力-蔚来

汽车云服务研究

飞行汽车

造车新势力-小鹏

汽车功能安全

行泊一体研究

造车新势力-理想

AUTOSAR研究

智慧停车研究

自动驾驶芯片

软件定义汽车

汽车分时租赁

座舱SOC

软件供应商

共享出行及自动驾驶

汽车VCU研究

乘用车T-Box

车企数字化转型

汽车MCU研究

商用车T-Box

智能表面

传感器芯片

T-Box排名分析

车型供应商调研

车载存储芯片

小鹏G9功能拆解

蔚来ET5/ET7智能化功能拆解

汽车CIS研究

理想L8/L9功能拆解

大疆前视双目与图达通激光雷达拆解

自动驾驶融合算法


「佐思研究月报」

ADAS/智能汽车月报 | 汽车座舱电子月报 | 汽车视觉和汽车雷达月报 | 电池、电机、电控月报 | 车载信息系统月报 | 乘用车ACC数据月报 | 前视数据月报 | HUD月报 | AEB月报 | APA数据月报 | LKS数据月报 | 前雷达数据月报

展开阅读全文

页面更新:2024-04-23

标签:英伟   座舱   月报   深度   芯片   成本   核心   来源   智能   汽车   图片

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top