
纯 CUDA 核心提供 19.5 T 单精度和 9.7 T 双精度,Tensor Core 支持 FP64,而且据说 CUDA 和 Tensor Core 可以同时进行 FP64 运算。当然,Tensor Core 主要负责科研中常用的矩阵的加速。

支持多种 AI 中常用的浮点格式的 Tensor Core。

针对稀疏运算优化,性能可翻番。

BERT 模型训练和推理性能最大分别达到 V100 的 6X 和 7X。

(MIG:多实例 GPU,主要用于 GRID 等虚拟化环境)

在分子动力学、物理、工程、地理科学等基础科研和工程领域,常用软件的性能打到 1.5X 至 2.1X 不等。

完整 GA100 共有 128 组 SM,8192 sp。A100 仅仅开启了 108 组 SM,即 6912 sp。HBM 也屏蔽了一颗芯片,显存容量40 GB,位宽 5120-bit,带宽 1.6 TB/s。

为低精度运算提供支持,二值运算 INT1 的性能高达单卡 5 PFLOPS。

NVLINK 3.0,双向带宽单芯片 600 GB/s,DGX A100 共 6 颗,总带宽 4.8TB/s。

上一代 DGX 中,一个 NVLINK 的功耗似乎要达到 100 W。DGX-2 拥有 16 块 Tesla V100 和 12 颗 NVLINK 芯片,总功耗为 10 kW。DGX A100 的总功耗约 6.5 kW,Pascal 时代的 DGX-1 总功耗 4 kW(8 × Tesla P100)。

DGX A100,重达 143 kg,包含 1 TB RAM,采用 AMD Rome 7742 CPU,共 128 个核心。DGX A100 为操作系统专门预留了 2 × 1.92 TB 的 NVMe 硬盘,而剩余 4 × 3.84 TB 硬盘用于存储。