Waymo计算系统猜想

​Waymo惊人的29个摄像头的传感器配置在自动驾驶圈内成为热门话题。近日,Waymo 在 Youtube 上发了一段视频专门介绍“WaymoDriver”——自动驾驶巨头的第五代无人车平台。视频主讲人是 Waymo 设计主管 YooJung Ahn(安永君),这位一手打造了“萤火虫”自动驾驶汽车的女设计师给我们分享了新平台的基本设计理念。

安永君是一位出生在首尔的韩国人,实际只是消费类产品工业设计师,并非技术人士,加入谷歌前在摩托罗拉和LG做手机工业设计,从未有过汽车外观设计经验,也正因此设计出了萤火虫那样颇为惊艳的小车。她提到了29个摄像头,还有许多匪夷所思的性能,比如摄像头可以识别500 米外的停止标识。众所周知,有效距离与像素数关联程度最高,目前车规图像传感器最高的是索尼的IMX324,像素为742万像素,也只敢说能看清160米外交通标识。

Waymo有能力自己做摄像头,但绝无能力自制图像传感器。Waymo要么吹牛,要么使用了2000万或3000万像素的手机用摄像头。这样Waymo就离车规量产的距离越来越远了。如此高的数据流量恐怕5年内都找不到车规级芯片可对应。Waymo或者说谷歌从事自动驾驶已经近11年,陆续烧掉估计超过200亿美元资金,目前仍未有得到验证的商业模式,Waymo频繁亮相说明Waymo已经着急想商业化了,但可能离商业化会越来越远。越复杂的系统,出错的机率越高,进化的成果应该是越来越简洁,早期的手机和电脑的大芯片至少有十几片,今天基本只有两三片。而Waymo的传感器却越来越复杂。

言归正传。


Waymo计算系统猜想


在Yole的报告里,指出第一代Waymo(第一代Waymo无人车应该指的是克莱斯勒大捷龙混动版)使用了8个500万像素摄像头,到目前也没有车规级的500万像素传感器,可以肯定是非车规图像传感器。帧率只有21fps,尽管如此,带宽已经达8.7Gbps。


Waymo计算系统猜想


第二代Waymo无人车应该是指捷豹I-Pace。


Waymo计算系统猜想


第二代Waymo无人车根据Yole的说法,应该采用了14个500万像素摄像头,带宽是惊人的15.3Gbps。第二代Waymo无人车的传感器(而不是摄像头)有29个才更为合理,当然也有可能Waymo独辟蹊径,有过人之处,真用了29个摄像头。

500万像素摄像头数据带宽超过1Gbps,且至少8个,这需要非常昂贵的以太网交换机芯片,大多数车规级以太网交换机芯片只能对应1路或2路2.5Gbps带宽输入。目前输入带宽最高的是博通的BCM53162,可以对应4路2.5GbE,售价高达650美元(Mouser报价,100片起)左右,14个500万像素至少需要3片。


Waymo计算系统猜想

上图为BCM53162应用图


Waymo计算系统猜想

上图为BCM53162内部框架图


博通对BCM53162似乎没有下力气推广,2019年3月就推出了BCM8956X和BCM8988X,但具体参数未对外披露。如果用了2000或3000万像素的传感器,带宽至少得是10Gbps,目前没有车规级以太网交换机能对应这么高的带宽。

Waymo应该不会使用多片交换机芯片,业内更常见的做法是FPGA做以太网交换机芯片。FPGA可以自定义接口,特别适合无人车这种还未出现成熟ASIC的领域,缺点是价格昂贵,能够支撑如此多高宽带输入的FPGA价格估计最低也在2000美元以上。

在视觉计算方面,即便是只使用了14个500万像素的摄像头,那么如果这14个摄像头都做深度学习计算的话,算力至少需要1000Tops。特斯拉的FSD单片算力接近37TOPS,已经是很高的了。需要指出算力比拼必须看精度,浮点、定点、整数、小数,FP64为双精度,FP32为单精度,FP16为半精度,还有 bfloat16介于FP32和FP16之间。通常都是浮点运算,还有更低的INT8,即整数8位精度。做训练用的多FP64FP32FP16bfloat16,做推理一般是INT8。

特斯拉的FSD是36.864TOPS,是基于INT8的,而谷歌的TPU V3是420TOPS,是基于bfloat16,如果换成INT8精度,至少可以达到600TOPS,但TPU不是针对INT8设计的,所以没有这个参数。一般来说,双精度到半精度就是4倍,但英伟达的比较特殊,它有可能分开两个针对不同精度的多核,比如英伟达的GK104,每个GK104的GPU内含1536个FP32 CUDA Core和64个FP64 Units ,单精度浮点数 理论峰值 = 2 GPU *1536 FP32 Core * 2 * 745MHz = 4.58TFlops,双精度浮点数 理论峰值 =2 GPU * 64 FP64 core * 2 * 745MHz = 0.19TFlops。英伟达的Tesla T4有2560个CUDA核对应 FP16,还有320个TURring Tensor核对应FP32,FP32算力为8.1TFLOPS(浮点),FP16精度为65.13TFLOPS(浮点),INT8精度下可达130TOPS,INT4精度下可达260TOPS。


Waymo计算系统猜想


那么Waymo有没有可能用自己的独门武器TPU V3呢?


Waymo计算系统猜想


需要指出TPU V3并非是一块芯片,而是4片芯片构成的一块板卡,谷歌还有规模更大的1024个TPU V3组成TPU V3 POD。TPU V3采用液冷,每个芯片算力有105TOPS,TPU使用bfloat16数据。因为深度学习的矩阵运算瓶颈在存储带宽,TPU V3不计成本使用了HBM内存,内存带宽3516GB/s,是特斯拉的10倍以上带宽,FSD不可能达到36.8TOPS的理想状态,某些时候,可能会下降一半。英特尔、英伟达和华为的此类高算力芯片都是不计成本采用昂贵的HBM内存,AMD的民用级产品也有奢侈使用HBM。之所以这么做就是深知瓶颈在存储而非运算单元本身。TPU V3未知其功耗,大多数人估计在200-350瓦之间,要达到1000TOPS以上,得3块TPUV3,功耗高达1千瓦,显然更是远离车规了,而成本则会非常惊人。一块TPU V3估计价格在5000美元以上,3块得1.5万美元。显然远离量产了。最重要的是TPU V3是针对训练设计的。车载需要的是推理部分。

Waymo不大可能用TPU V3,成本和功耗太高。

目前有关Waymo计算平台的唯一公开信息是2017年9月英特尔的新闻,英特尔声称自2009年以来,其一直与谷歌合作开发无人驾驶汽车,同时也与 Waymo 合作,为后者提供 Xeon 处理器、 Arria FPGA(用于机器视觉)以及千兆以太网的解决方案,以帮助Waymo 无人汽车实时处理信息。EyeQ5的算力只有12TOPS,并且在今年才量产,显然Waymo是不可能用EyeQ5的。最大可能还是Xeon 处理器加Arria FPGA。


Waymo计算系统猜想


上图为英特尔设计的无人驾驶计算平台。虽然英特尔写的是Arria 10系列FPGA,但针对深度学习加速,英特尔最常见的是Stratix10。使用FPGA做深度学习加速的典型代表是微软,从2015年末开始,微软就在其购买的几乎每台新服务器上部署Catapult FPGA板卡。这些服务器被用于微软的必应搜索、Azure云服务以及其他应用。这也使得微软成为了世界上最大的FPGA客户之一。当使用微软独创的ms-fp8数据格式(8位比特精度)时,在Stratix 10 FPGA上可以得到90 TFLOPS的峰值性能。

Stratix 10是英特尔2015年的产品。2019底,Stratix 10升级为Agilex,Agilex FPGA芯片基于第二代HyperFlex架构开发,相较于上一代的Stratix 10 FPGA,性能提升了40%,功耗降低了40%,DSP FP16半精度浮点性能最高40 TFlops(每秒40万亿次)、INT8整数性能最高92Tops,收发器数据率最高112Gbps。更高算力的有Xilinx的ACAP系列FPGA,最高达147TOPS(INT8)。

不过FPGA的功耗已经不是我们一贯印象中的那么低了,以英特尔FPGA的可编程加速卡来说,基于Stratix 10 SX FPGA(280万逻辑单元)的D5005可编程加速卡,已在HPE ProLiant DL3809 Gen10服务器中应用。TDP高达215瓦,Givena specific airflow, the Intel FPGA PAC D5005 can dissipate up to 189 W ofpower,of which up to 137 W can come from the FPGA. 英特尔称一般情况下D5005功耗189瓦,FPGA是137瓦。而英伟达的T4只有75瓦,芯片本身只有70瓦。D5005价格也比较高,高达1万美元,当然其内部还有 2 个四通道小型可插拔(QSFP)接口,接口速度高达 100G,关键它是可编程的,贵有贵的道理。不过Stratix 10 SX FPGA芯片的价格至少也在3000美元以上,英伟达的T4单芯片价格应该低于1000美元。

因此使用英伟达Tesla T4的可能性最高,Waymo可能降低了深度学习模型的精度,可能是INT2甚至INT1,T4在INT1下可达1040TOPS算力。


Waymo计算系统猜想


最后说一下Waymo的外观,这么多传感器裸露在外,特别是无人车有时行动迟缓,在路口反应不过来,很容易被追尾或剐蹭,这些精密的传感器先不用说更换的成本很高,安装传感器的复杂标定绝非一般4S店能完成的,特别是多个传感器合二为一,每一个重新安装都要标定,是单一标定还是联合标定,恐怕只有Waymo总部用昂贵仪器才能做到。这样的车保险费会高的惊人。

再有就是这些传感器裸露在外,难免会让小偷觊觎。另外这个巨大无比的车顶部分,传统车厂绝对无法接受,风阻问题就是消耗能源问题。

Waymo为无人车努力了11年,全球最顶尖的人才汇聚,烧掉至少200亿美元,直到今天,还是工程样车的模样,离车规量产依然是遥遥无期。

展开阅读全文

页面更新:2024-05-26

标签:可编程   特斯拉   英特尔   英伟   浮点   微软   以太网   功耗   精度   传感器   像素   摄像头   芯片   带宽   美元   系统   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top