GTC CHINA 2019综述丨NVIDIA GPU正加速成为通用计算标准

2019年12月18日,NVIDIA GTC CHINA 2019,苏州。

GTC CHINA 2019综述丨NVIDIA GPU正加速成为通用计算标准

这是一届看似并非“重磅”的GTC,因为鲜见令人血脉偾张的硬件级产品。但这是一届从本质上却相当“重磅”的GTC,因为英伟达全新发布的软件与生态体系足以改变计算格局。

无论是RTX技术的新应用、Tensor RT 7、 NVIDIA DRIVE AGX Orin、HPC for Arm等技术体系,还是与腾讯、阿里巴巴、百度、滴滴等的重量级合作,都昭示着NVIDIA GPU正加速迈进通用计算领域,推进AI落地,并以生态之合力塑造全新的计算时代。正如黄仁勋所言:“NVIDIA一直致力于打造那些普通计算机解决不了的问题。”

这是一个既波澜壮阔、又细致入微的战略图谱。围绕着计算机图形、高性能计算以及人工智能这三个重大领域的创新,黄仁勋开启了招牌式的演讲。

计算机图形

于2018年发布的NVIDIA GeForce RTX实时光线追踪技术已经在多个领域开花结果。黄仁勋演示了由微软Surface电脑运行的游戏《我的世界》,实时模拟光线、反射以及各种材料和光之间的互动极大提升了游戏的效能。而《光明记忆:无限》游戏凭借RTX的助力,一个人就开发出来了,这在以往是不可想象的。

GTC CHINA 2019综述丨NVIDIA GPU正加速成为通用计算标准

此外,GeForce RTX的朋友圈还加入了六个好友(新游戏),它们分别为《边境》、《铃兰计划》、《暗影火炬》、Project X、《无限法则》以及《轩辕剑柒》。

GTC CHINA 2019综述丨NVIDIA GPU正加速成为通用计算标准

NVIDIA的云游戏服务也在进一步深化。由NVIDIA GPU技术赋能的腾讯START云游戏已经进入了测试阶段,可以将游戏体验延展到所有性能普通的电脑之上,让玩家在配置不足的设备上也能畅玩游戏。这也是继NVIDIA在北美和欧洲部分市场提供 GeForce NOW云游戏服务之后的又一个突破。

黄仁勋还郑重宣布,世界顶级的三大主流平台Autodesk Arnold、Chaos Group V-Ray 和 Blender Cycles都已支持NVIDIA RTX技术。而NVIDIA RTX Studio系统设备,包括笔记本电脑和台式机,已支持超过40种创意和设计应用程序,这些应用程序均可通过“RTX On”加速,使数以千万计的创作者能够在工作中运用光线追踪和AI来优化工作流程。

GTC CHINA 2019综述丨NVIDIA GPU正加速成为通用计算标准

在电影和视觉特效领域,业界闻名的瑞云云端渲染平台也宣布配备NVIDIA RTX GPU,首批5000片RTX GPU也将会在2020年上线。针对渲染工作,RTX GPU比CPU快了12倍,原本CPU上需要花费485个小时的渲染场景,交给RTX GPU只需要40个小时。同时价格却比CPU低了7倍之多。

GTC CHINA 2019综述丨NVIDIA GPU正加速成为通用计算标准

NVIDIA年初发布的、作用于高质量3D动画的Omniverse,也有了新的历史使命,那就是应用于建筑行业。它可以实时模拟太阳的光线、位置、阴影等,之前需要几个小时来做渲染,现在用8个GPU即可实时渲染。建筑师能够在设计的时候,真真切切的感受到建筑真实的样子,Omniverse使得这一切变得非常容易。

高性能计算

GTC CHINA 2019综述丨NVIDIA GPU正加速成为通用计算标准

NASA在2030年会有一个登陆火星的项目,为了保证宇航员能在规定时间内安全落地,需要做多样化的、复杂的模拟流程。NVIDIA正在做的,就是携手NASA,共同致力于数据分析和科学模拟。而面对模拟产生的150TB的海量数据,基于DGX的全新堆栈——Magnum IO发挥了重要价值。

Magnum IO软件套件专为解决存储瓶颈问题而来。优化之后,多服务器、多GPU计算节点的数据处理速度比之前提高了20倍,从而可以在数分钟内处理好以往需要数小时才能处理完毕的海量数据。同时,在NVIDIA DGX-2上借助Magnum IO GPU直连技术,还能对海量数据进行可视化处理。

GTC CHINA 2019综述丨NVIDIA GPU正加速成为通用计算标准

GTC现场,黄仁勋还正式发布了NVIDIA Parabricks基因组分析工具包,并与华大基因和爱立信建立合作关系。

GTC CHINA 2019综述丨NVIDIA GPU正加速成为通用计算标准

Parabricks基于CUDA加速,可以用于发现变异,并能产生与GATK最佳实践流程一致的结果,实现30-50倍的加速。与爱立信的合作则聚焦于5G,通过CUDA核心能够提升5G vRAN性能,特别是在复杂的空间内,CUDA能够加速解决物理空间内的信号优化的问题。

扩展ARM的GPU性能是当天的一个重头戏。NVIDIA推出了NVIDIA HPC for ARM首个参考架构,让旗下GPU产品能配合ARM架构处理器设计的HPC进行异构计算加速。HPC for ARM可以使用不同类型的ARM HPC处理器与Volta GPU连接,每个ARM CPU最多可以连接4块Volta GPU。配合ARM架构处理器低耗电、执行效率更高的特性,除了让HPC进一步提升计算效能之外,更可降低能源损耗。

黄仁勋表示,作为世界上最重要的高性能计算应用,扩展TensorFlow的性能对于HPC来说是一个巨大的挑战。而现在,TensorFlow 2.0已经可以在CUDA和ARM上使用了,而且大部分的性能已经达到了最先进的水平。

人工智能

深度推荐系统是互联上最重要的一个模型,能帮助我们从数不清的庞大信息中筛选出我们所需要的。一个典型应用是,从非结构化数据里找到人们的偏好,并且把它规模化到更大的系统,这个计算量非常密集。那怎么办呢?黄仁勋给出的答案很简单,从过去的CPU转为GPU。

而互联网巨头们也确实是这样做的,这里有两个典型案例。首先是百度,百度要打造一个AI Box深度推荐系统,用户潜在兴趣数据包含了千亿维稀疏离散特征和10TB embedding词表,用CPU来做基本上行不通。而移到GPU上之后,训练成本削减了90%,即GPU训练成本只有CPU的1/10。如何把海量的数据,数万亿计的维度过滤,最后缩减到10个选择,这就是人工智能、深度学习打造的奇迹。

GTC CHINA 2019综述丨NVIDIA GPU正加速成为通用计算标准

接下来是阿里巴巴。每年的双11,对阿里巴巴的后台系统都是一个严峻的考验,今年也不例外。而在加持了NVIDIA加速计算平台之后,支持比过去复杂6倍的模型,从而使点击率提高10%。包括T4 GPU、cuBLAS、自定义混合精度和推理加速软件等的部署,使得阿里巴巴的AI系统日臻完善,相比于CPU,T4将最大模型的吞吐量提高了100倍。另外,此前基于CPU,每秒查询率只有3次,NVIDIA T4 GPU则提升到了每秒780次。

GTC CHINA 2019综述丨NVIDIA GPU正加速成为通用计算标准

在智能手机、电视和智能音箱中随处可见的数字语音工具,是我们已经非常熟悉的了。据Juniper Research估计,全世界有32.5亿个数字语音助理被应用于设备中。但它们的智能化水准依然需要不断提升,听不懂人话、反应慢是普遍缺陷。NVIDIA第七代推理软件开发套件NVIDIA TensorRT 7,就是为解决这一问题而来。

TensorRT 7内置新型深度学习编译器,能够优化和加速AI语音应用所必需的神经网络,全球各地的开发者可将这些网络实现自动化,并实现优异的性能和降低延迟。测算表明,相比于CPU,其会话式AI组件速度提高了10倍以上,延迟降低到实时交互所需的300毫秒阈值以下,从而实现了更加智能的AI人机交互,大大增强了与语音代理、聊天机器人和推荐引擎等应用进行实时互动的速度与精确度。

正如黄仁勋所言:“我们已进入了一个机器可以实时理解人类语言的AI新时代,TensorRT 7使这成为可能。”

GTC CHINA 2019综述丨NVIDIA GPU正加速成为通用计算标准

自动驾驶应该是大家都十分感兴趣的领域。黄仁勋在本届GTC上发布了Xavier的继任者——NVIDIA DRIVE AGX Orin。平台内置了全新 Orin 系统级芯片,由 170 亿个晶体管组成,集成了 NVIDIA 新一代 GPU 架构和 Arm Hercules CPU 内核以及全新深度学习和计算机视觉加速器,每秒可运行 200 万亿次计算。

作为一个软件定义平台,DRIVE AGX Orin能够赋力从 L2 级到 L5 级完全自动驾驶汽车开发的兼容架构平台,助力 OEM 开发大型复杂的软件产品系列。由于 Orin 和 Xavier 均可通过开放的 CUDA、TensorRT API 及各类库进行编程,因此开发者能够在一次性投入后使用跨多代的产品。

GTC CHINA 2019综述丨NVIDIA GPU正加速成为通用计算标准

与滴滴的合作也是现场新闻之一。黄仁勋介绍到,滴滴将在数据中心使用 NVIDIA GPU 训练机器学习算法,并采用 NVIDIA DRIVE为其 L4 级自动驾驶汽车提供推理能力。NVIDIA DRIVE能够借助多个深度神经网络融合来自各类传感器(摄像头、激光雷达、雷达等)的数据,从而实现对汽车周围环境 360 度全方位的理解,并规划出安全的行驶路径。

同时,作为自动驾驶汽车开发的行业标准,黄仁勋宣布,NVIDIA 将在 NVIDIA GPU Cloud (NGC) 容器注册上,向交通运输行业开源 NVIDIA DRIVE预训练 AI 模型和训练代码。通过一套 NVIDIA AI 工具,NVIDIA 生态系统内的开发者们可以自由扩展和自定义模型,从而提高其自动驾驶系统的稳健性与能力。

GTC CHINA 2019综述丨NVIDIA GPU正加速成为通用计算标准

全新版本的Isaac软件开发套件(SDK)是本届GTC CHINA 2019上首发的代表性产品。在建立统一的机器人开发平台以实现AI、仿真和操控功能方面,Isaac SDK迈出了重要的里程碑。

Isaac SDK套件包括提供应用程序框架的Isaac Robotics Engine,预先构建的深度神经网络模型、算法、库、驱动程序和API Isaac GEM,用于室内物流的参考应用程序,以及提供导航功能的Isaac Sim(首个版本)。

黄仁勋表示,全新的Isaac SDK可以大大加快研究人员、开发人员、初创企业和制造商开发和测试机器人的速度,使机器人能够通过仿真获得由人工智能技术驱动的感知和训练功能,从而可以在各种环境和情况下对机器人进行测试和验证,从而节省成本。

GTC CHINA 2019综述丨NVIDIA GPU正加速成为通用计算标准

现场还展示了一个会卖萌的Leonardo物体操纵机器人。通过模拟真实世界的学习,Leonardo学会了如何遵守物理规则,在模拟的计算部分则运用到了GPU的PhysX 5.0物理引擎。

全篇结语

我们可以清晰地看到,除了Orin芯片,今天全场2个小时的演讲和展示,几乎都是围绕着软件和优化来进行的。

GTC CHINA 2019综述丨NVIDIA GPU正加速成为通用计算标准

软件定义一切。一个很简单的事实是,只有优异的软件基础,才能最大化的发挥硬件的效能。NVIDIA在软件上的发力和功底,也将极大促进CUDA带给GPU的大规模计算优势和AI效能的发挥,这也是一个领导型技术企业的关键一环。

生态依然是热门话题。英伟达向来十分注重与客户和合作伙伴的热切沟通与协同发展,本次GTC许多重量级的合作项目以及开源项目,都证明了NVIDIA在生态领域的深耕与雄厚实力。

GTC CHINA 2019综述丨NVIDIA GPU正加速成为通用计算标准

毫无疑问,NVIDIA GPU的世界已经越来越成为通用计算的新标准和新象征,为AI赋能几乎涵盖了各行各业,我们也将更多的看到NVIDIA带来的技术升华和应用价值。这是一幅多么美好的画卷!

展开阅读全文

页面更新:2024-02-23

标签:阿里巴巴   人工智能   套件   机器人   架构   实时   深度   模型   性能   领域   标准   数据   数码   系统   平台   技术   软件

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top