比GPT-4快18倍!最快大模型Groq登场!自研LPU是英伟达GPU的10倍

近日,一家名为Groq的初创公司崭露头角,其自主研发的新型芯片在AI模型推理性能上取得了革命性的成果。据悉,运行在Groq芯片上的大模型能实现每秒生成500个token,是目前公开数据中速度最快的语言模型。相比之下,业界翘楚OpenAI的ChatGPT 3.5每秒生成速度仅为40个token。

在业内一系列基准测试中,Groq的方案不仅在延迟和吞吐量上大幅领先,总响应时间更是达到了惊人的0.8秒,与业界领先厂商存在10倍乃至20倍的差距。究其技术原理,Groq的独门武器在于自主设计的“语言处理单元”(LPU)。这种全新架构的芯片或将颠覆AI模型推理的性能瓶颈,对行业格局及未来产品形态带来重大影响。


稳定高效:Groq自研LPU击败业界GPU

相比那些吹嘘自己计算能力的AI初创公司,Groq显得低调内敛。它成立于2016年,由前Google工程师Jonathan Ross创立。可以说,Groq站在时代潮头,正是看准了AI计算对算力的巨大需求。


事实上在创立Groq之前,Jonathan Ross就参与过谷歌TPU芯片的研发,对AI芯片领域的瓶颈与机遇了如指掌。这也令Groq在芯片架构的设计上,无需舍本逐末地堆叠算力,而是从更根本层面突破现有架构的性能极限。


Groq宣称,其LPU在结构上主要借鉴了“张量流处理器”(Tensor Streaming Processor)的设计理念。相比GPU围绕显存频繁访问的工作方式,LPU使用了“时序指令集计算”架构。这意味着芯片可以更连续地运行计算,避免存储器访问的开销,从而大幅提升了稳定性和效率。事实证明,这种全新设计的LPU已在业界基准测试中完胜同类最强GPU。


以Llama 2 70B这种顶级语言模型为例,运行在Groq LPU之上的表现最为突出。测试结果显示,Groq的方案达到了惊人的每秒241个token的推理吞吐量,是业界最优方案的2倍以上。此外,从接收引用到输出响应,Groq的总响应时间也只有0.8秒,是其它云厂商的10分之1。可以说,Groq的LPU在这里已经实现了“秒杀”业内异类。


极简主义:容量小成本低倒逼高效

对于这颗看似冒出的“黑马”芯片,业界的第一反应无疑是质疑它是否只是靠增加芯片数量来实现性能突破。毕竟,我们见过太多通过扩张硬件规模来获取短期亮点的数据。事实上,Groq的方案背后也的确使用了大量LPU。但它具备的创新之处,恰恰说明了扩张并非其优势的根本所在。


Groq官方透露,在上述测试中,他们使用的是576块LPU。这已经相当于半个机房的密度。但更让人惊异的是,每块LPU的配置却是极其简陋的——内存仅有230MB。这一点矛盾的设计,恰是Groq思路的精髓,也是其高效的根本原因。


作为对比,业界主流的AI加速卡恰恰都使用了数百G的高速缓存来维持运算效率。这无疑增加了成本,也限制了扩展性。而Groq的LPU则在硬件层面上打破了这一假定。通过精心设计的计算流水线,它可以在230MB的缓存上达到与业界领先GPU相当的吞吐率。

可以说,Groq利用“极简主义”硬件的设计理念,逼迫软件架构向更高效的方向升级。它以一种低成本的方式,通过管道计算和模型分解技术实现了每秒300个Token的高速推理。这种效率在业界可以说是史无前例的。

影响与思考:大模型推理的新纪元?

凭借这种颠覆性的性能与价格优势,Groq的LPU极有可能改写业界的生态。它不仅能助力更多AI初创公司实现通用语言模型,甚至有望解决OpenAI等大厂的算力需求,使之摆脱对昂贵GPU的依赖。这同时也为云服务提供商带来了更高性价比的部署方案,或将推动新一轮的价格战争。

值得注意的是,Groq的技术更多地体现为稳定高效的推理性能,这正是当前AI产品链的瓶颈所在。事实上,Groq并不支持其LPU用于模型训练,这也与其设计宗旨一致。可以预见的是,未来围绕AI模型推理的芯片市场将呈现百家争鸣的态势,Groq很可能成为颠覆者中的佼佼者。

当然,Groq的方案也有其局限性。由于单块LPU的计算资源与存储空间都比较有限,某些业务场景下可能需要更高规模的集群来满足需求,这对系统架构提出了更高要求。此外,目前Groq仅支持主流的PyTorch、TensorFlow等框架,其软件生态系统还有待丰富。不过基于其硬件的先发优势,这些问题都有望通过持续的软件创新来解决。

无论Groq最终能否成为这一领域的“王者”,它的出现无疑预示着AI推理性能迎来新的发展契机。或许在不远的未来,我们将见证新型芯片如何重塑这一万亿级市场的版图。沿着Groq点亮的这盏灯,想必会有更多科技奇迹在前方等着我们。

展开阅读全文

页面更新:2024-02-22

标签:模型   英伟   高效   瓶颈   架构   芯片   业界   性能   最快   语言   硬件   方案

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top