H100推理能力飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

本文内容来自于网络，若与实际情况不相符或存在侵权行为，请联系删除

英伟达的最新开源软件TensorRT-LLM，近日引发广泛讨论。这款软件在H100上为大型语言模型的推理性能带来了惊人的提升，吞吐量最高可提高8倍。这一消息对于那些一直面临着部署和推理难题的开发者们来说，无疑是一个令人振奋的消息。下文将详细介绍TensorRT-LLM的特点和优势，以及它如何改变大型语言模型的推理现状。

传统上，大型语言模型的部署和推理一直是一项具有挑战性的任务，不仅难度大，而且成本高。然而，TensorRT-LLM的出现彻底改变了这一格局。这款开源软件将TensorRT的深度学习编译器、FasterTransformer的优化内核、预处理和后处理等功能封装在一个简单的Python API中，让开发者们可以轻松部署、运行、调试各种大型语言模型，同时获得顶尖性能表现。

不再需要深入的C++或CUDA专业知识，TensorRT-LLM为开发者提供了一个高度模块化的解决方案。

TensorRT-LLM通过多种方式优化了Nvidia GPU上的大型语言模型推理性能。首先，它引入了针对当前十多个大型模型的优化，让开发者们能够立即运行这些模型。其次，TensorRT-LLM作为一个开源软件库，支持在多个GPU和多个GPU服务器上同时进行推理，通过英伟达的NVLink和InfiniBand互连连接这些服务器，进一步提高了性能。

第三，TensorRT-LLM引入了全新的调度技术，称为"In-flight批处理"，允许不同模型任务独立于其他任务进入和退出GPU，有效提高了并行性能。最后，TensorRT-LLM通过优化，可以降低模型推理时的内存占用和延迟，进一步提高了性能。

支持丰富的大型语言模型生态是TensorRT-LLM的又一亮点。它使用张量并行技术将模型权重分配到多个设备上，从而简化了多GPU协同工作的过程，使得规模最大、最先进的语言模型可以实时提供响应，无需开发人员手动拆分模型或协调执行。

TensorRT-LLM还包括了一系列优化、可立即运行的大型语言模型，如MetaLlama2、OpenAIGPT-2、GPT-3、Falcon、MosaicMPT、BLOOM等，这些模型都可以通过TensorRT-LLM的Python API轻松调用，满足各行各业的不同需求。

在动态任务负载下，TensorRT-LLM也表现出色。大型语言模型通常用于多种看似不同的任务，从简单问答响应到文档摘要生成，工作负载高度动态，输出大小需求各异。

为了高效处理这些任务，TensorRT-LLM引入了"In-flight批处理"技术，将整个文本生成过程分解为多次执行迭代，从而提高GPU使用率，实际请求基准的吞吐量至少增加一倍。

此外，TensorRT-LLM还提供了H100TransformerEngine功能，可有效降低大型模型推理时的内存消耗和延迟。通过将模型权重转换为新的FP8格式，TensorRT-LLM能够量化模型，减小模型在GPU内存中的占用空间，从而在执行过程中节省时间。

这一过程无需任何代码编写，非常方便。

虽然TensorRT-LLM尚未正式发布，但用户已经可以申请抢先体验版本。英伟达也计划将TensorRT-LLM集成到NVIDIA NeMo框架中，为企业客户提供更安全、稳定、可管理的企业级AI软件平台。

Reddit上的网友对于TensorRT-LLM的推出展开了激烈的讨论。他们纷纷猜测TensorRT-LLM对LLM的硬件优化将带来何种提升，并对其潜在意义进行了热烈的争论。

有人认为这将有助于英伟达增加H100的销量，但也有人认为，对于使用RTX GPU的用户来说，TensorRT也可能带来好处。从更广泛的角度来看，随着大型语言模型的不断发展，专门为其设计的硬件优化可能成为未来的趋势。

综上所述，TensorRT-LLM的发布无疑是一次重大的技术突破，将为大型语言模型的部署和推理带来革命性的改变。不仅提高了性能，还降低了成本，让更多的开发者能够轻松应对大型语言模型的挑战。

展开阅读全文

页面更新：2024-03-04

标签：英伟模型达官吞吐量批处理权重开发者性能能力语言技术软件

1 2 3 4 5

H100推理能力飙升8倍！英伟达官宣开源TensorRT-LLM，支持10+模型

宏和科技携多项创新产品亮相中国复材展助力前沿科技自立自强

数字化驱动碳管理让减碳落地“拨云见日”

民航局印发《国内通程航班管理办法》，构建“民航+”生态圈

中国科学院院士姚期智：大模型有无限的产业应用前景，能影响各个行业

腾讯混元大模型通过备案，相关产品将陆续对公众开放

和冠军“合影”、定制“亚运风”丝绸……亚运会还有哪些硬核科技？

苹果中国iPhone15ProMax发货周期延长至4-5周

第一批！WIC全球青年领军者计划进入评审阶段

防砂、用液氢作燃料…… 航空发动机里竟有这么多“黑科技”

华为Mate 60搭配出境易APP，解锁全部海外应用！

中国科学院院士走进香港校园引领学生认识宇宙

关闭“小绿洲”扶持买手，小红书能否走出社区电商新路径？

王志被赞是人生赢家，换赛道事业仍顺利，跟19岁儿子一样宠朱迅

闹离婚6年后：王宝强狂赚22亿，宋喆刚出狱，马蓉却「稳赢」

杨幂生日唐嫣又缺席送祝福！再现85花塑料闺蜜情，各自抱团太明显

中国科学院院士姚期智：大模型有无限的产业应用前景，能影

腾讯混元大模型通过备案，相关产品将陆续对公众开放

奥拓电子：全国产、高新技术格式LED电影屏于8月通过DCI

现在还有必要学习Java编程语言吗？

从“出圈”到“出海”：数字技术赋能文化产业发展

细数4位地方台“当家花旦”：漂亮且能力出众，各个独当一

长江日报报业集团在2023中国报业技术年会荣获“融合技

A17Pro竟然倒数第二！苹果近代A系列处理器性能提升幅度

大模型大战中场：AIGC时代的企业如何利用AI原生应用乘风

SNG作为替代燃料，对天然气系统零部件性能会产生什么影