国内首发第二代训练芯片,“邃思2.0”单精度张量TF32突破160T FLOPS

近日,燧原科技发布了第二代人工智能训练产品——“邃思2.0”芯片,和邃思2.0一同发布的还有基于邃思2.0的“云燧T20”训练加速卡和“云燧T21”训练OAM模组,全面升级的“驭算TopsRider”软件平台以及全新的“云燧集群”。

关于“邃思2.0”

作为国内首发的第二代人工智能训练产品,邃思2.0采用Global Foundries的12nm FinFET工艺,挑战日月光2.5D封装的极限,将9颗芯片封装在了57.5mm x 57.5mm的尺寸中。

国内首发第二代训练芯片,“邃思2.0”单精度张量TF32突破160T FLOPS

图 | 邃思2.0

计算精度方面,涵盖FP32、TF32、FP16、BF16和INT8全AI算力空间,是中国首款支持单精度张量TF32数据精度的人工智能芯片。单精度FP32峰值算力达到40T FLOPS,单精度张量TF32峰值算力达到160T FLOPS,半精度BF16/ FP16峰值算力达到160T FLOPS,整数精度INT8峰值算力达到320 T FLOPS。

存储带宽方面,邃思2.0共搭载了4颗HBM2E片上存储芯片,高配支持64 GB内存,带宽达1.8 TB/s,是中国第一个支持世界最先进存储HBM2E和单芯片64 GB内存的产品。

互联能力方面,邃思2.0拥有6个LARE卡间互联端口(燧原自研人工智能训练集群互联技术),每个端口可提供双向50 GB/s的互联带宽,因此总集群互联带宽可达双向300 GB/s,可支持数千张云燧CloudBlazer加速卡互联。

关于“云燧T20”训练加速卡和“云燧T21”训练OAM模组

云燧T20和云燧T21是基于邃思2.0开发的全高全长PCIE板卡和OAM标准模组,均支持容量为64GB/32GB的HBM2E存储,互联带宽同为300GB/s,但T21的板级功耗是400W,而T20的板级功耗为300W,因此在性能方面T21强于T20。

国内首发第二代训练芯片,“邃思2.0”单精度张量TF32突破160T FLOPS

图 | 云燧T21/T20

具体来讲,T21的峰值算力是单精度张量TF32 160T FLOPS、单精度FP32 40T FLOPS,半精度BF16/ FP16 160T FLOPS,整数精度INT8 320 T FLOPS;T20的峰值算力是单精度张量TF32 134.4T FLOPS、单精度FP32 33.6T FLOPS,半精度BF16/ FP16 134.4T FLOPS,整数精度INT8 268.8 T FLOPS。

作为国内首发产品,如何才能有说服力,当然是测试数据,燧原也做了充足的基准测试Benchmarking,并在会上公布了云燧T20和友商次旗舰和旗舰产品的对比数据。

国内首发第二代训练芯片,“邃思2.0”单精度张量TF32突破160T FLOPS

图 | 云燧T20-Benchmark VS 友商次旗舰

国内首发第二代训练芯片,“邃思2.0”单精度张量TF32突破160T FLOPS

图 | 云燧T20-Benchmark VS 友商旗舰

关于“驭算TopsRider”软件平台以及“云燧集群”

基于云燧T20和T21训练产品、GCU-LARE互联技术和新一代驭算TopsRider软件平台,燧原科技可以打造超大规模的集群产品CloudBlazer Matrix 2.0。

国内首发第二代训练芯片,“邃思2.0”单精度张量TF32突破160T FLOPS

图 | 云燧智算集群CloudBlazer Matrix 2.0

对比第一代集群产品CloudBlazer Matrix 1.0的全高全长PCIE板卡,其采用OAM标准模组的2.0产品在性能上可谓突飞猛进。散热形态从原来的液冷/风冷,全部改为液冷,最高支持板卡数量从1280张增加到8192张,单精度最高算力从原来的28P增长到1300P(1.3E),最高存储容量(HBM)从原来的20TB增加到524TB,最大总存储带宽(HBM)从原来的0.65 PB/s增长到14.7 PB/s,最大互联带宽(LARE)从原来的0.25 PB/s增长到2.5 PB/s,与此同时,评价数据中心能源效率的指标却从1.5降至了1.15。

写在最后

燧原科技是一家2018年成立的公司,成立至今3年多时间,期间获得过5轮融资,累计融资额近32亿元人民币。最新一笔融资记录为今年1月完成的18亿人民币C轮融资,由中信产业基金、中金资本旗下基金、春华资本领投。

受资本热捧的本质是“燧原科技按计划输出产品,说到做到的诚信和能力”,根据燧原科技创始人、COO张亚林公布的燧原五年产品路线图,到2023年,燧原科技将推出第三代产品——云端训练计算产品T30/T31和智算集群CloudBlazer Matrix 3.0、云端推理计算产品i30,以及云端推理计算软件平台驭算Topsrider 3.X,实现泛AI生态。

值得一提的是,发布会上,张亚林发布了“燧原产品定理”,即燧原的每一代产品必须比前一代在“平均业务”中每瓦性能提升超3倍,软件后向兼容可靠。

展开阅读全文

页面更新:2024-04-18

标签:张量   加速卡   精度   芯片   峰值   板卡   人工智能   模组   整数   集群   旗舰   融资   带宽   国内   产品   科技   游戏

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top