特斯拉使用自家芯片构建Dojo超级计算机

虽然特斯拉的全部自动驾驶功能尚未克服一些技术障碍和监管限制,但其人工智能团队在特斯拉2022年人工智能日上展示了令人印象深刻的工作。

10月1日的年度活动感觉更像是计算机科学讲座。除了创始人埃隆·马斯克(Elon Musk)和人形机器人擎天柱(Optimus)之外,特斯拉的20多名工程团队负责人还上台分享了他们在过去一年中取得的进展。

据特斯拉称,超过160,000名客户正在使用其FSD Beta软件。去年这个数字是2000人。在过去的一年中,FSD团队总共训练了超过75,000个AI模型,并出货了281个模型,这些模型实际上提高了自动驾驶性能。

根据特斯拉自动驾驶软件总监Ashok Elluswamy的说法,训练神经网络系统的方法包括自动标记,模拟和使用数据引擎,显然这是一系列的试验和错误。

培训过程要求特斯拉在一年内将培训基础设施扩大40-50%,达到美国多个培训集群的约14,000个GPU。神经网络现在在同一台自动驾驶计算机中的两个独立的片上系统(SoC)上执行,具有严格控制的端到端延迟。

该系统不仅在特斯拉汽车上运行,而且在特斯拉机器人Optimus中运行。

语言建模

值得注意的是,该团队已经达到了语言建模领域,以改善计算机视觉。Elluswamy指出,语言建模将成为未来计算机视觉的基础,计算机视觉为汽车运行自动驾驶,并预测机器人到达目的地的优化路径,例如在家中或工厂。

该系统的神经网络能够构建具有物理对象(即特斯拉术语中的占用)的3D向量空间,并通过用单词和令牌对车道和道路结构进行编码来检测它们。

特斯拉自动驾驶仪视觉团队负责人约翰·埃蒙斯(John Emmons)表示,自动驾驶仪在早期通过对图像空间实例分割进行建模来检测车道。它可以有效地检测高速公路等高度结构化的道路,但有时会导致执行复杂操作(例如在十字路口和其他道路拓扑结构更复杂的地方轮流)时完全崩溃。

为了检测车道连接,该团队为系统开发了一种车道语言,用于预测车辆和其他车辆的路线。通过将建模(车道检测)为一种具有单词和令牌的语言,以便可以利用最近的自回归架构,各种天气条件下,道路的输入图像不够清晰。

通过预测所有物体未来轨迹的一组短时间范围,可以预测和避免危险情况。这就是语义在车道检测中真正发挥作用的方式。

构建用于 AI 训练的超级计算机

工程负责人再怎么强调训练这些模型对改进的重要性也不过分,大量的训练将需要更大的计算能力和高效率。工程团队从DRAM撤退到具有高带宽和低延迟的SRAM,尽管容量适中,但有助于实现算术单元的高利用率。

该团队注意到当今大多数机器人的另一个不寻常的举动是,他们决定使用模型并行性作为训练方法。

“特斯拉努力建立'无限制'的理念,垂直整合它们的数据中心,以提取新的效率水平,优化电力输送,冷却以及系统管理。因此,Dojo 环境很早就被集成到自动驾驶仪软件中,以找出软件工作负载规模的限制。

以当前的编译器性能,单个 Dojo 磁贴可以替换六个 GPU 盒中的机器学习计算量。

超级计算机的第一次大规模部署将针对需要高算术强度的自动标记,目前在72个GPU机架上占用4,000个GPU。预计四个 Dojo 机柜将提供相同的吞吐量。

第一个由10个Dojo机柜组成的Exapod将于2023年第一季度在帕洛阿尔托部署,其自动标签容量为2.5倍。此外,特斯拉计划未来在帕洛阿尔托部署七个Exapod。

特斯拉Dojo超级计算机ExaPOD

展开阅读全文

页面更新:2024-04-25

标签:特斯拉   计算机   神经网络   车道   建模   机器人   芯片   模型   团队   语言   系统

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top