从云到端 NVIDIA在计算架构新纪元不断赋能数据创新

企业计算, 行业动态 6 年前

7.71W

在这个数据无处不在的时代，如何从数据中获取价值成为企业的重要课题。有数据显示，面向数据科学和机器学习的服务器市场每年价值约为200亿美元，加上科学分析和深度学习市场，高性能计算市场总价值大约为360亿美元，且该市场还在持续快速发展。

近日，在2019国际超级计算大会（SC19）上，NVIDIA创始人兼首席执行官黄仁勋公布了多项更新帮助企业应对多样化的高性能计算架构，这些更新既包括硬件的，也包括服务、软件。在笔者看来，NVIDIA在加速数据创新方面正在实现从云到端的全覆盖。

当前，高性能计算正在朝各个方向扩展。实际上，高性能计算已无处不在，比如超级计算中心、云和边缘等。现在不管是云端还是边缘，计算和AI无处不在。为什么会出现这样的局面？因为工作负载日趋多样化，这就需要计算架构的多样化以及足够创新。NVIDIA也在将GPU加速计算带到图形计算、加速计算、无人机器和自动驾驶等各个领域。

云端

在云端，AI正在成为众多CSP必备的服务。来自Gartner的报告显示，到了2021年有75%企业会采用多云的云端环境。而NVIDIA与众多云计算提供商比如AWS、Azure、Google Cloud、阿里云等合作将AI能力带到云端。

这次，在SC19上，NVIDIA在Microsoft Azure云上发布了全新Microsoft Azure NDv2超大型实例，其能在一个Mellanox InfiniBand后端网络上提供多达800个互联的NVIDIA V100 Tensor Core GPU。

这款产品十分适用于复杂的AI、机器学习和高性能计算工作负载，因为其融合了NVIDIA产品和Azure平台诸多特性。比如该计算实例使用了NCCL（一款NVIDIA CUDA X库）提供的多GPU优化以及高速Mellanox互联解决方案。

所有NDv2实例都能够受益于NVIDIA NGC容器注册表和Azure Marketplace中所提供的TensorFlow、PyTorch和MXNet等GPU优化高性能计算应用、机器学习软件及深度学习框架。该注册表还提供Helm图表，让用户在Kubernetes集群上可以轻松地部署AI软件。

此前，NVIDIA与VMware宣布将针对VMware Cloud on AWS推出GPU加速服务，透过这项合作，VMware Cloud on AWS的客户将能取得全新高扩充性且安全的云端服务，其中包含以NVIDIA T4 GPU与全新 NVIDIA Virtual Compute Server（vComputeServer）软件进行加速的Amazon EC2。

我们可以看到NVIDIA不断强化云端AI布局，让云端AI触手可及。未来随着云计算的深入发展，基于GPU计算的云端AI正在加速企业的数据创新，更好地服务自身的业务。

边缘

随着智能终端的普及，加上5G、物联网的发展，边缘计算和AI正在迎来前所未有的迅猛发展。人工智能、物联网、云游戏、增强现实和5G网络加速带来大量机会。根据行业预估，从现在起到2035年，将新增一万亿台全新的物联网设备。这就需要边缘计算架构的更新，其实我们看到芯片厂商已经在积极布局边缘侧计算和AI。

在边缘侧计算架构中，Arm处理器架构在智能手机和物联网设备中随处可见，早已成为了全球最流行的处理器架构。黄仁勋预测：如今Arm已拥有超过1000亿台计算设备；而在未来几年，该数字将超过1万亿台。NVIDIA正在快速为这个蓬勃发展的生态带来各类高性能计算工具。

在今年早些时候，NVIDIA宣布为Arm带来NVIDIA CUDA-X库和加速计算开发工具。目前许多高性能计算软件公司已使用NVIDIA CUDA-X库来构建可在Arm服务器上运行、并可通过GPU实现的管理和监控工具。

除了使自己的软件兼容Arm之外，NVIDIA还与众多软件合作伙伴一起为ARM提供GPU加速的应程序用，这既包括高性能计算应用，也包括高性能计算基础工具。

在SC19上，NVIDIA于发布了一款参考设计平台，使企业能够快速构建GPU加速的Arm服务器。该平台由硬件和软件基础模块组成，能够满足高性能计算（HPC）社区对于类型更加多样化的CPU架构日益增长的需求。通过该平台，超级计算中心、超大型云运营商和企业能够将NVIDIA加速计算平台的优势与最新的Arm服务器平台相结合。

为了构建这一参考平台，NVIDIA与Arm及其生态合作伙伴（包括Cray、HPE、Ampere、富士通和Marvell）联手，以确保NVIDIA GPU与Arm处理器之间的无缝协作。据悉，几家世界级的超级计算中心已开始测试GPU加速Arm计算系统，其中包括美国的橡树岭国家实验室和桑迪亚国家实验室、英国布里斯托大学以及日本理化学研究所。

除了在Arm上布局，NVIDIA还在与Ericsson、微软、Red Hat等公司合作，利用NVIDIA EGX边缘超级计算平台为企业和5G电信网络边缘AI提供支持。所以，我们看到NVIDIA在边缘上的布局是非常全面。

软件

只是单纯的硬件创新并不能满足用户的需求，毕竟在这个软件定义的时代，软件的作用正在被提升到举足轻重的地位。为了充分发挥硬件的优势，NVIDIA在软件方面进行了积极布局。比如NVIDIA构建了NVIDIA CUDA-X AI生态系统，涵盖框架、云端机器学习服务、部署，产品包括工作站、服务器和云，让开发者更加容易打通NVIDIA的不同产品线，比如图形计算、加速计算、机器人和自动驾驶等。

在SC19上，NVIDIA于今日发布NVIDIA Magnum IO软件套件。该产品让数据科学家及AI和高性能计算研究者可以在数分钟内处理好以往需要数小时才能处理完毕的海量数据。

众所周知，在HPC和AI中，企业面对的是海量数据，这个时候存储和输入/输出（I/O）的问题就非常突出了。Magnum IO就是为了解决这个问题，Magnum IO的核心是GPUDirect。它为数据提供了一条路径，这条路径可以绕过CPU，而在GPU、存储和网络设备所提供的“开放式高速公路”上进行传输。GPUDirect由点对点和RDMA组件组成，兼容多种通信互联产品与API，包括NVIDIA NVLink和NCCL以及OpenMPI和UCX。

在软件方面，NVIDIA不断扩充NGC（NGC是一个包含了深度学习、机器学习、HPC等基础软件的软件中心），加入了预先训练的AI模型、模型训练脚本和行业专用软件堆栈，让AI触手可及。只需点击几下，无论规模大小的企业就都能够实现数据科学加速，以前所未有的速度将海量数据转化为自身的竞争优势。

数据分析和机器学习是高性能计算市场中最大的细分市场。NVIDIA还推出了开源GPU加速平台——RAPIDS，RAPIDS平台通过加速cuDF、cuML、cuGRAPH库，NVIDIA能够让GPU加速计算应用到更多机器学习的算法与场景当中，为数据科学家提供标准化的流水线式工具。

软件在硬件性能的提升方面发挥了举足轻重的作用，NVIDIA GPU加速也有赖于其CUDA软件生态的繁荣。不管是HPC还是AI，NVIDIA为用户提供了全面的软件就绪解决方案，从而帮助他们更好地利用GPU加速。