25行代码≈SOTA！OpenAI发布Triton编程语言，比PyTorch快2倍

来源：OpenAI

编辑：Pricilla 好困

【新智元导读】继Copilot后，高产似xx的OpenAI又出了新的编程语言——Triton，能够自动完成CUDA编程的各种优化。大约25行Python代码就能实现大师级性能，没有经验的小白也能写出高效GPU代码，支持Linux系统和NV显卡，项目已开源。

前段时间OpenAI才搞了个大新闻——AI编程神器Copilot。

这次，它又带来了能自动榨干GPU性能的编程语言——Triton。

速度要比PyTorch快两倍！

25行代码≈SOTA！OpenAI发布Triton编程语言，比PyTorch快2倍

Triton到底有多强？

只要25行代码就能实现接近「SOTA」的性能！

内存合并，共享内存管理，SM内调度，Triton通通帮你搞定。

此外，Triton代码开源，兼容Python。

项目负责人Philippe Tillet表示：「我们的目标是让Triton成为深度学习中CUDA的替代品」。

项目地址：https://github.com/openai/triton

不过，目前Triton 1.0仅支持Linux系统和英伟达的显卡。

AMD的显卡估计再等等也能用上，甚至也会支持CPU。

至于Windows方面……最好的Linux发行版可不是白叫的（狗头）。

网友评论

不得不说，深度学习的进展实在是太快了。

有网友就表示：这是啥？pandas的语法用的时候还得谷歌一下，请等等我……

JAX？什么是JAX？对比学习？什么是图像Transformers？GPT-3已经被取代了吗？

作者表示Triton是自己在2019年的论文中提出来的，即使跟英伟达产品「Triton推理服务器」撞名了，也依然会采用「Triton」这个名字。

这是我在读博士时开始的一个项目，而Triton是唯一能将我的博士生导师与该项目联系起来的东西。

Triton，你从哪里来

正如上文所说，Triton的历史可以追溯到2019年，作者Tillet在哈佛大学读博时发表的一篇论文。

论文地址：https://dl.acm.org/doi/abs/10.1145/3315508.3329973

深度学习方面新的研究大多都是通过结合原生框架算子完成的。

这种方法方便是方便，但通常需要创建或移动许多临时张量，从而造成神经网络性能上的损失。

本来是可以通过编写专用的GPU内核来解决这个问题，然而……

由于许多错综复杂的问题，直接用CUDA进行编程实在是太难了。

虽然已经有不少系统能够简化这个过程，但对比起cuBLAS、cuDNN 或TensorRT，要么太冗长、不够灵活，要么是生成的代码速度太慢。

Triton则简化了专用内核的开发，速度比通用库中的要快得多。

M=4096时，A100处理融合softmax的性能

Triton能够在现有的GPU上高效运行，比PyTorch实现高出2倍。

GPU编程

现有的GPU架构可以大致分为三个主要部分：DRAM、SRAM和ALU。

在优化CUDA代码时必须考虑到每一部分。

来自DRAM的内存传输必须经过合并，从而利用现代内存接口的总线带宽。

数据在被重新使用之前必须被手动存储到SRAM中，从而在检索时减少共享内存库的冲突。

计算必须在流式多处理器（SM）之间和内部仔细分区和调度，从而完成指令或线程级的并行处理，以及对专用ALU的利用。

GPU的基本架构

上面这些因素解决起来非常难，就算是经验丰富的CUDA程序员也会「双手挠头」。

不过，Triton就能自动优化这些问题。

CUDA与Triton的编译器优化

针对如何划分每个程序实例完成的工作这一点，Triton编译器使用了大量块级数据流分析。

这是一种基于目标程序的控制和数据流结构静态调度迭代块的技术。

有了Triton编译器的自动优化、简化功能，开发人员就能把精力放在并行代码的高级逻辑上。

矩阵乘法

能够为逐个元素的运算和缩减编写融合内核很重要。

但要是考虑到神经网络中矩阵乘法任务的重要性，这还远远不够。

事实证明，Triton也能很好地解决这个问题：

只需大约25行Python代码，就能够实现最佳性能。

但如果是CUDA，那只会花掉更多的精力，甚至有可能降低性能。

Triton中的矩阵乘法

手写矩阵乘法内核的一个优点是能够按需定制，从而适应其输入和输出的融合变换。

对于那些没有GPU编程知识的开发人员来说，Triton能够帮助他们对矩阵乘法内核大刀阔斧地修改。

矩阵乘法中V100 Tenser核心的性能

高级系统架构与编译器后端

能达到如此优秀的性能，是因为Triton有一个以Triton-IR为中心的模块化系统架构。

Python函数的抽象语法树（Abstract Syntax Tree，AST），能够使用常见的SSA构造算法生成Triton-IR。

Triton的架构

生成的IR代码由编译器后端进行简化、优化和自动并行化。

转换为高质量的LLVM-IR（最终转换为 PTX）后，能够在最新的NVIDIA GPU上执行。

编译器后端可以自动优化各种重要的程序。

例如，通过分析计算密集型操作中的块变量的有效范围，数据就能自动存储到共享内存中，还能使用标准活性分析技术进行分配/同步。

另一方面，Triton的自动并行化非常高效。

通过同时执行不同的内核实例跨SM，以及在SM内分析每个块级操作的迭代空间，并在不同的 SIMD单位中进行分区。

Triton的自动并行化

每个块级操作都定义了一个迭代空间，该空间被自动并行化以利用流式多处理器（SM）上的可用资源。

Triton性能高、速度快，再也不用在GPU编程时「一行代码写一天了」。

虽说目前只支持Linux，不过——

来日方长嘛。

参考资料：

https://www.openai.com/blog/triton/

展开阅读全文

页面更新：2024-03-06

标签：英伟代码神经网络高效乘法编译器矩阵内核架构显卡深度内存性能项目系统

1 2 3 4 5

神秘公司获批美国首个「脑机接口」人体测试，无需开颅2小时植入

马斯克酸了吗？他的Neuralink虽然在技术上一骑绝尘，领先其他相关公司试验于猪、猴子。但却迟迟没法开展真正的人体试验。近日，Neuralink 的竞争对手获得了FDA许可，可以将芯片植入人体进行临床试验了！据悉，这家公司名为

终结者天网？五角大楼公布AI预测系统GIDE，提前数日预判对方行动

来源：DOD 编辑：Priscilla 好困【新智元导读】近日，美国五角大楼公布了AI预测系统GIDE，能够从大量信息源中进行分析，一分钟内预判敌人数日后的行动，提前采取应对方案。但最巧合的是，五角大楼附近发生了枪击案，一名警察死亡，多人

华人博士生发布基于Transformer的视频生成器，ICML2021已发表

来源：ICML 2021编辑：LRS【新智元导读】Transformer能处理文字、图片，如今又进军视频领域！Bengio的徒孙、罗格斯大学华人博士生发布了一个视频版GPT-3，基于Transformer的视频生成器，ICML 2021已发表。 Transformer已经成了当

AI大牛纷纷离职！2021大厂AI Lab现状盘点，网友：名存实亡

来源：知乎编辑：yaxin、su【新智元导读】2021大厂AI Lab现状如何？网友总结了四个字，名存实亡。大多数人认为，国内像BAT等互联大厂的AI Lab面临最主要的现状便是定位不清，又要科研又要落地，处境尴尬。 2021年各家大厂 AI Lab

20年，1人写出70万行代码！沙盒游戏「鼻祖」13年靠玩家捐赠维生

来源：外媒编辑：yaxin Priscilla【新智元导读】20年，他一人写下70万行代码，创造出沙盒游戏「鼻祖」Dwarf Fortress。13年，他全靠玩家捐赠维生，也不愿在任何游戏平台上发售。他，开发了世界上最「现实」的游戏，却是最有理想主义

从搜狗输入法智能汪仔的进化看AI输入法的蜕变进阶之路

输入法作为普及度最高也是最经典的互联网产品之一，在PC和移动时代只是一个输入工具。但进入到AI时代之后，输入法不仅在输入效率和输入体验方面得到明显提升，而且基于AI技术和大数据的加持，还催生了如AI语音变声、AI翻译等

超级天才尹希：31岁成哈佛史上最年轻教授，却因国籍引发争议

来源：网络编辑：Isabel【新智元导读】留任北大or哈佛offer？当一个学霸面临这两种选择，他会怎么做呢？尹希选择了后者，后来，31岁的他成为哈佛史上最年轻教授的学霸，但却因国籍问题引发过不小的争议。近日，奥运赛场上不少华裔面

谷歌要抢苹果用户？将推IOS数据迁移工具，苹果：等你5年了

来源：XDA编辑：好困【新智元导读】谷歌想从苹果手里拉拢用户？你问问沙箱答应不。近日，有网友发现了谷歌的一个「惊天计划」——撬走苹果IOS的用户。苹果「危」？并不，因为他们早在五年前就开始了…… 当用户在上设置初始

30岁CTO做回码农！从52亿市值公司离职，只为热爱编程

来源：网络编辑：yaxin【新智元导读】而立之年，他选择辞任自创公司CTO，做回「码农」！十年前，他和好友成立HashiCorp，现成为「世界级」开源公司，估值52亿美元。十年功就终成名，他却选择隐身而去，一切只因热爱编程。（文末有彩蛋）他，是

华为P50悲壮亮相！拍照性能登顶，售价5000元的4G手机你会买吗？

来源：网络编辑：Emil【新智元导读】华为P50昨天正式发布，最强悍的拍照功能，更轻薄的机身、更长的待机、更好的音响、更快的响应……唯一一点，它是近期唯一的新款4G手机。买吗？迟到4个月，华为P50终于发布了。在昨晚的发布会

32岁封神！苏炳添博士重磅论文：我怎么跑这么快？

来源：zhihu编辑：yaxin、su【新智元导读】32岁，9.83秒，亚洲第一！亚洲飞人苏炳添在男子百米决赛中做到了极致。他不仅是赛场上的运动员，还是暨大体院的副教授，北体博士。为了论文，苏神亲自「跑」数据，让许多网友直呼「苏神，yyds」

不止河南！Nature封面预测未来8年，7.58亿人将经历百年一遇洪水

来源：nature编辑：Priscilla 好困【新智元导读】一场特大洪涝灾害给河南省造成了严重损失，引起了全球的关注。本周的nature封面刊登了关于全球洪水灾害事件的最新研究。预计未来全球将有119个国家受到更加严重的洪灾威胁，

亚马逊被曝用4个AI摄像头「监视」送货司机，贝佐斯：我更相信AI

来源：insider编辑：Pricilla 好困【新智元导读】亚马逊每一辆送货卡车都配备了4个AI摄像头，时刻监控着司机的一举一动。基于AI摄像头的评分系统还会每周评定司机的等级，决定司机是升职加薪，还是卷铺盖走人。在亚马逊，AI就是

盖茨夫妇，正式离婚

来源：网络编辑：Emil 小匀【新智元导读】盖茨夫妇27年的婚姻正式画上了句号。然而关于这段婚姻走向尽头的原因，至今仍然众说纷纭。 27年婚姻，彻底结束！当地时间8月2日，微软联合创始人比尔·盖茨(Bill Gates)和梅琳达·弗伦

Redmi K30至尊纪念版：致敬小米手机1的「全面」旗舰

自从Redmi K30至尊纪念版发布后，很多人在微博上开玩笑说，“友商”的小米10至尊纪念版是虚假的“旗舰”，这款手机才是“真正的旗舰”。网友这么说，自然有他们的道理。在我们看来，如果说我们之前评测的小米 10 至尊纪念版代

上滑加载更多 ↓

25行代码≈SOTA！OpenAI发布Triton编程语言，比PyTorch快2倍

【新智元导读】继Copilot后，高产似xx的OpenAI又出了新的编程语言——Triton，能够自动完成CUDA编程的各种优化。大约25行Python代码就能实现大师级性能，没有经验的小白也能写出高效GPU代码，支持Linux系统和NV显卡，项目已开源。

网友评论

Triton，你从哪里来

GPU编程

矩阵乘法

高级系统架构与编译器后端

神秘公司获批美国首个「脑机接口」人体测试，无需开颅2小时植入

终结者天网？五角大楼公布AI预测系统GIDE，提前数日预判对方行动

华人博士生发布基于Transformer的视频生成器，ICML2021已发表

AI大牛纷纷离职！2021大厂AI Lab现状盘点，网友：名存实亡

20年，1人写出70万行代码！沙盒游戏「鼻祖」13年靠玩家捐赠维生

从搜狗输入法智能汪仔的进化看AI输入法的蜕变进阶之路

超级天才尹希：31岁成哈佛史上最年轻教授，却因国籍引发争议

谷歌要抢苹果用户？将推IOS数据迁移工具，苹果：等你5年了

30岁CTO做回码农！从52亿市值公司离职，只为热爱编程

华为P50悲壮亮相！拍照性能登顶，售价5000元的4G手机你会买吗？

32岁封神！苏炳添博士重磅论文：我怎么跑这么快？

不止河南！Nature封面预测未来8年，7.58亿人将经历百年一遇洪水

亚马逊被曝用4个AI摄像头「监视」送货司机，贝佐斯：我更相信AI

盖茨夫妇，正式离婚

Redmi K30至尊纪念版：致敬小米手机1的「全面」旗舰

终结者天网？五角大楼公布AI预测系统GIDE，提前数日预判对

20年，1人写出70万行代码！沙盒游戏「鼻祖」13年靠玩家捐

华为P50悲壮亮相！拍照性能登顶，售价5000元的4G手机你会

数十亿行代码训练！OpenAI升级Codex，将书面语言转为计算

假老黄才是假的！黄仁勋没有骗了全世界英伟达「元宇宙

黄仁勋身价暴涨跻身千亿富翁！英伟达5080亿美元市值创纪

Facebook图形大神再跳槽，英伟达DLSS先驱转会英特尔

华人团队提出会创作的Paint Transformer，网友：这也要用

英特尔首款大小核处理器即将上市！显卡AI超级采样，台积电

芯片设计大佬放狠话：未来10年，芯片性能提高1000倍