2020 年 7 月 30 日,MLPerf 组织发布第三个版本 MLPerf Training v0.7 基准测试(Benchmark)结果。结果显示,英伟达基于今年 5 月最新发布的 Ampere 架构 GPU A100,和 HDR InfiniBand 实现多个 DGX A100 系统互联的庞大集群——DGX SuperPOD 系统在性能上分别开创了八个全新里程碑,共打破 16 项纪录。

打破16项AI性能记录!英伟达A100 GPU要无人能敌?-冯金伟博客园
 

  打破 MLPerf Training 最新基准测试 16 项记录

  MLPerf 是 2018 年 5 月成立的行业基准测试组织,在 AI 备受关注的当下,获得了芯片巨头和 AI 芯片公司以及 AI 业界的广泛关注。为了能够让机器学习处理器的基准测试也像 CPU 那样,MLPerf 组织囊括了该行业中的所有知名企业和机构,比如英特尔、英伟达、Google、亚马逊、阿里巴巴和百度、微软、斯坦福大学等。

  巨头公司们乐于通过 MLPerf 的成绩证明其 AI 实力,平头哥在去年 11 月 MLPerf 首个版本基准测试成绩公布之后就强调其自主研发的 AI 芯片含光 800 在 Resnet50 基准测试中获得单芯片性能第一。

  作为 AI 的领军者,英伟达自然也不会错过 MLPerf 的基准测试。2018 年 12 月,英伟达首次在 MLPerf 训练基准测试中创下了六项纪录,次年 7 月英伟达再次创下八项纪录。在最新 MLPerf Training v0.7 基准测试中,有两项新的测试和一项经大幅修订的测试。 

打破16项AI性能记录!英伟达A100 GPU要无人能敌?-冯金伟博客园

  其中一项基准测试对推荐系统的性能进行了排名,推荐系统是日益普及的一项 AI 任务。另一项基准测试对使用 BERT 的对话式 AI 进行了测试,BERT 是现有最复杂的神经网络模型之一。还有,强化学习测试中使用了 Mini-go 和全尺寸 19×19 围棋棋盘,该测试是本轮最复杂的测试,内容涵盖从游戏到训练的多项操作。

  特别值得一提的是,英伟达是唯一一家在 MLPerf Training v0.7 测试中均采用市售商用产品的公司。其他大多数提交使用的要么是预览类别(preview category),其所用的产品预计需要几个月后才会面市,使用研究类别的产品,更是较长一段时间内都不会面市。

  另外,在此次提交结果的九家公司中,除英伟达外,还有六家公司多家生态系统合作伙伴也提交了基于英伟达 GPU 的 MLPerf 测试结果。包括三家云服务提供商(阿里云、谷歌云和腾讯云)和三家服务器制造商(戴尔、富士通和浪潮)。 

  18 个月内实现 AI 性能 4 倍提升 

  创造纪录的英伟达 DGX SuperPOD 系统是基于 Ampere 架构以及 Volta 架构。雷锋网(公众号:雷锋网)此前报道,5 月份发布的最近 Ampere 架构 GPU A100 基于台积电 7nm 工艺,面积高达 826 平方毫米,集成了 540 亿个晶体管。相比 Volta 架构实现了高达 20 倍的性能提升,并且可以同时满足 AI 训练和推理的需求。

打破16项AI性能记录!英伟达A100 GPU要无人能敌?-冯金伟博客园

打破16项AI性能记录!英伟达A100 GPU要无人能敌?-冯金伟博客园

A100 对比 V100

  由 8 个安培 A100 GPU 打造的 NVIDIA DGX A100 AI 系统单节点性能达到了创纪录的 5 petaflops。

  此次,英伟达在 Selene 上运行了系统的 MLPerf 测试,Selene 是基于 DGX SuperPOD 的内部集群。DGX SuperPOD 是针对大规模 GPU 集群的公共参考架构,可在数周内完成部署。

  根据测试结果,相较于首轮 MLPerf 训练测试中使用的基于 V100 GPU 的系统,如今的 DGX A100 系统能够以相同的吞吐率,在 18 个月内实现了 4 倍的性能提升。

  能够取得里程碑的成就除了强大的硬件,还有两大关键——软件和网络连接。

打破16项AI性能记录!英伟达A100 GPU要无人能敌?-冯金伟博客园

  A100 GPU 搭配 CUDA-X 库的软件更新,为通过 Mellanox HDR 200Gb/s InfiniBand 网络构建的扩展集群提供支持。HDR InfiniBand 可实现极低的延迟和高数据吞吐量,同时通过可扩展分层聚合和缩减协议(SHARP)技术,提供智能深度学习计算加速引擎。 

  英伟达 A100 能否无人能敌?

  英伟达 A100 发布之后,就有业内人士表示 GPU 的性能又上了一个台阶,AI 芯片初创公司想要超越英伟达的难度有增加了。

  但相比硬件的超越,雷锋网认为软硬件生态才是巨头公司更大的优势所在。据悉,通过最新的软件优化,基于 NVIDIA V100 的 DGX-1 系统也可实现 2 倍的性能提升。

  就此次最新基准测试而言,提交了基于英伟达 GPU 的 MLPerf 测试结果的公司大多采用了英伟达的软件中心 NGC 容易,以及用于参赛的公开框架。另外,包括这些 MLPerf 合作伙伴在内的近二十家云服务提供商和 OEM 组成的生态系统,已采用或计划采用 A100 GPU 来打造在线实例、服务器和 PCIe 卡。 

打破16项AI性能记录!英伟达A100 GPU要无人能敌?-冯金伟博客园

  英伟达表示,A100 进入市场的速度也比以往英伟达的 GPU 更快,发布之初用于英伟达的第三代 DGX 系统,正式发布仅六周后,A100 就正式登陆了 Google Cloud 。

  当然,英伟达也在通过更多行业软件吸引用户。比如今年 5 月,英伟达发布了两个应用框架——用于对话式 AI 的 Jarvis 和用于推荐系统的 Merlin。还有面向汽车行业市场的 NVIDIA DRIVE,面向医疗健康市场的 Clara,面向机器人技术市场的 Isaac,以及面向零售/智能城市市场的 Metropolis。

  性能和生态都足够好的 A100,能让英伟达在 AI 市场无人能敌吗?价格会是阻碍吗?