7nm安培GPU详解：400W功耗、40GB HBM2、826mm2怪兽出炉

等了很久，今晚NVIDIA正式发布了7nm 安培 GPU，号称是8代GPU史上最大的性能飞跃。不过官方并没有公布安培GPU的技术细节，Anandtech网站倒是给出了一份详细的介绍。

这次的GTC 2020大会演讲中，NVIDIA CEO黄仁勋主要谈的就是HPC计算、AI人工智能等方面的内容，目前推出的A100大核心也是针对这个领域的，与之相比的是3年前发布的Volta架构V100核心，很多东西跟RTX 3080 Ti游戏卡会不一样，大家不用纠结。

首先来说大方面的，V100核心使用的是12nm Volta架构，211亿晶体管，核心面积815mm2，而A100核心是台积电7N工艺，应该也是定制版的7nm工艺，826mm2，542亿晶体管，同样是核弹级别的。

V100核心拥有80组SM单元，5120个CUDA核心，SXM2/3架构，而A100核心是108组SM单元，SXM4架构，6912个CUDA核心。

AI方面是变化最大的，相比Volta架构的640个Tensor Core，A100核心的Tensor Core减少到了432个，但是性能大幅增强，支持全新的TF32运算，浮点性能156TFLOPS，同时INT8浮点性能624TOPS，FP16性能312TFLOPS。

常规的FP32、FP64性能提升倒是不算明显，从V100核心的15.7.、7.8TFLOPS提升到了19.5、9.7TFLOPS。

频率方面，A100核心实际上还倒退了，从V100的1530MHz降低到了1.41GHz左右，毕竟核心规模实在太大，功耗已经飙到了400W，比V100的300/350W功耗高出不少。

显存方面，A100配备的也是HBM2显存，频率从1.75Gbps提升到了2.4Gbps，位宽5120bit，相比V100的4096bit增加了1024bit，容量也从16/32GB增加到了40GB。

不过HBM2的配置略显奇怪，增加1024bit理论上应该多1组HBM2，但从核心图上看又是6组HBM2显存，或许是2组512bit的？保不准以后还会有完整版A100核心。

不过HBM2显存位宽、频率双双提升的后果就是，A100核心寸带宽达到了1.6TB/s，远高于V100的900GB/s，比AMD的Radeon VII显卡的1TB/s带宽还要高。

最后，NVLink技术也升级到了3.0版，带宽从300GB/s提升到了600GB/s，适合服务器领域多卡互联，不过未来应该还会有PCIe版的。