碾压特斯拉D1芯片的英特尔Ponte Vecchio

周彦武

特斯拉AI日发布的训练用D1芯片对深耕人工智能训练用芯片的英特尔、英伟达和AMD不会构成任何威胁,这也是为何特斯拉在发布D1后,股票弱于大盘,而被特斯拉粉丝认为要大跌的英伟达却大涨超过5%。


D1最致命的缺点是成本,采用台积电InFo_SoW工艺的缺点就是成本太高,不同于目前流行的chiplet(小芯片或小晶粒)工艺,台积电InFo_SoW要在12英寸晶圆上一次完成,25颗D1芯片有一颗不合格,正片就报废,加上单颗D1的面积本来也不小,良率会更低。一片台积电7纳米晶圆大约5-6千美元,良率10%的话成本就是5-6万美元了。这纯粹是台积电拿特斯拉练手的产品,而英特尔、英伟达和AMD是要卖产品做生意的。但有台积电的鼎力支持,D1的理论算力的确超强,不过D1采用2D MESH这种简单的NoC连接了354个节点,通讯协议栈将会是大麻烦,AI日上也有人问到这个问题,特斯拉的工程师倒是挺实在的,回答说还没准备好,恐怕永远都准备不好。


碾压特斯拉D1芯片的英特尔Ponte Vecchio

图片来源:互联网


图上这座桥是维琪奥桥(Ponte Vecchio),建于1345年,为意大利佛罗伦萨最古老的桥梁。维琪奥桥以前是乌菲兹宫通往隔岸碧提王宫的走廊,类似于中国贵州的风雨廊桥。维琪奥桥最初以建筑师的名字命名,叫做瓦萨里长廊,是乌菲兹宫通往隔岸的碧堤王宫必经的走廊,桥上错落有致的建筑与两岸的建筑融为一体,完美统一。乌菲兹宫现在是全世界举世闻名的美术馆,但在当年,也只是美第奇家族委托瓦萨里修建的政府办公大楼,乌菲兹,就是“办公室”的意思,瓦萨里长廊也只是为美第奇大公每天上下班可以前往办公地点的长廊。这座桥据说见证了中世纪最后一位诗人但丁的爱情故事,《神曲》《新生》都因维琪奥桥(Ponte Vecchio)而现。英特尔将自己的顶级AI芯片命名为Ponte Vecchio,或许灵感来自桥的方块状构造,Ponte Vecchio有多达47个chiplet或者说方格tile构成。而特斯拉的Dojo来自日语,就是柔道馆。


碾压特斯拉D1芯片的英特尔Ponte Vecchio

图片来源:互联网


Ponte Vecchio在1.37GHz的情况下就能达到超过45TOPS@FP32的算力,而特斯拉的D1,在2GHZ下算力仅为22.6TOPS@FP32,只有Ponte Vecchio的1/3,PonteVecchio采用英特尔独家的EMIB与Foveros的封装技术,成本远低于台积电的InFo_SoW,估计只有特斯拉D1成本的1/5。


碾压特斯拉D1芯片的英特尔Ponte Vecchio

图片来源:互联网


以Ponte Vecchio为核心的美国能源部超级计算机Aurora将在年底问世。


碾压特斯拉D1芯片的英特尔Ponte Vecchio

图片来源:互联网


Ponte Vecchio有超过1000亿个晶体管,是特斯拉D1的2倍。这47个小晶粒分别是16个Xe HPC(又叫Compute Tiles计算核)内核、8个Rambo、2个XeBase、11个EMIB、2个XeLink、8个HBM2。这47个小晶粒分别来自台积电、三星和英特尔三个厂家,Compute 来自台积电,采用台积电5纳米工艺,HBM2来自三星,也有可能来自SK Hynix,不过三星的HBM2市场占有率超过80%,来自三星的可能性更大,其余都来自英特尔。


碾压特斯拉D1芯片的英特尔Ponte Vecchio

图片来源:互联网


计算核至少有8个Xe 内核,L1缓存为4MB,台积电5纳米工艺制造。


碾压特斯拉D1芯片的英特尔Ponte Vecchio

图片来源:互联网


基础核采用英特尔7纳米工艺,英特尔宣称7纳米要到2023年,这里的7纳米又是什么?实际英特尔认为自己的10纳米工艺足以和三星的7纳米相当,跟台积电还是有些差距。Ponte Vecchio目前已经有样片,软件工作还未完成,也就是A0阶段。


碾压特斯拉D1芯片的英特尔Ponte Vecchio

图片来源:互联网


Xe Link部分有两个,分别连接8个内核,采用台积电7纳米工艺,解串行最高到90G。


Rambo是什么?没错就是大名鼎鼎的《第一滴血》影片里的兰博,Rambo Cache(兰博缓存)就是为Xe HPC内核之间提供缓存共享,英特尔认为这个不同于一般的缓存,就像兰博一样开挂一样强大,所以特别命名为Rambo。

Ponte Vecchio核心技术是英特尔的Foveros和EMIB。简单地说Foveros就是纵向堆叠,EMIB就是横向连结,这两项技术全球只有台积电和英特尔掌握,只不过台积电把EMIB叫CoWoS,把Foveros叫SoIC。其中纵向堆叠技术,英特尔还领先台积电。


碾压特斯拉D1芯片的英特尔Ponte Vecchio

图片来源:互联网


英特尔11代酷睿使用Foveros技术,堆叠了四层芯片。


碾压特斯拉D1芯片的英特尔Ponte Vecchio

图片来源:互联网


堆叠两层的好处一是降低成本,运算部分需要先进制程,但基础部分不需要,可以用不那么先进的制程,比如运算部分用5纳米,基础部分10纳米或12纳米就可以。二是提高性能,降低功耗。11代酷睿基本可以直接用于车机,功耗特别低。三是加快上市速度,一些成熟的晶粒可以直接拿来或买来用,买IP的话还需要RTL设计优化和功能验证,再转换为网表文件。


碾压特斯拉D1芯片的英特尔Ponte Vecchio

图片来源:互联网

垂直设计的线宽是微米级,更短的物理距离意味着更低的功耗和更高的性能。Ponte Vecchio的线宽是36微米,这是目前最好的记录。


EMIB是Embedded Multi-dieInterconnect Bridge 的缩写。简单地说就是横向晶粒的连结。


碾压特斯拉D1芯片的英特尔Ponte Vecchio

图片来源:互联网

EMIB相比台积电的CoWoS有两个优势,一是成本优势,无需制造覆盖整个芯片的硅中介层,以及遍布在硅中介层上的大量硅通孔(TSV),而只需使用较小的硅桥在裸片间进行互联即可。同样地,由芯片I/O至封装引脚的连接和普通封装技术相比并未变化,而无需再通过TSV或硅中介层进行走线。台积电的InFo成本与EMIB相当,但只能达到5微米的L/S,EMIB可轻易达到2微米。二是减少延迟,降低干扰,特别适合5G。硅桥接只需在硅片边缘进行,不需要在中介层中使用长导线。对于模拟器件(如收发器)而言,由于不存在通用的中介层,因此对高速信号的干扰明显降低。EMIB的劣势在于它最终封装形态可能是一个四边不对等的矩形,有可能产生发热不均衡导致的应力、连接、可靠性等问题,但八代酷睿已经得到验证,这个问题似乎不存在。


将Foveros和EMIB合在一起叫CO-EMIB。


碾压特斯拉D1芯片的英特尔Ponte Vecchio

图片来源:互联网

同时可以让芯片横向拼接,同时每层横向拼接都还是可以继续叠高楼。用比较通俗的比喻来看,就是原本Foveros的一层楼只能有单一种功能,但CO-EMIB则是让一层楼可以同时隔出居住区、写字楼以及健身房等不同用途的空间,同时每层楼都还能用一样的方式一直盖上去。


而达成这个技术的关键角色,就是Omni-Directional Interconnect (ODI),作为连接大楼不同楼层的管道,我们可以把这个部件看成是楼梯间,可以通过楼梯间,直达不同楼层。


碾压特斯拉D1芯片的英特尔Ponte Vecchio

OD1的1类,单一die下的连接。图片来源:互联网


碾压特斯拉D1芯片的英特尔Ponte Vecchio

ODI的2类,不同die下的连接。图片来源:互联网


碾压特斯拉D1芯片的英特尔Ponte Vecchio

跨层之间的ODI连接。图片来源:互联网


英特尔在Ponte Vecchio的技术也将扩展到Mobileye的EyeQ6上(预计2023年上市),EyeQ6将具备高性价比、低功耗、高安全特性。而在AI和服务器领域,英特尔凭借CO-EMIB挑战英伟达的地位。

展开阅读全文

页面更新:2024-02-20

标签:三星   特斯拉   英特尔   芯片   晶粒   英伟   横向   缓存   内核   纳米   成本   来源   工艺   图片   技术   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top