高通吧 关注:177,591贴子:4,501,627
  • 24回复贴,共1

老黄的大核弹GA100来了,540亿晶体管,TSMC 7nm,400W功耗

只看楼主收藏回复


纯 CUDA 核心提供 19.5 T 单精度和 9.7 T 双精度,Tensor Core 支持 FP64,而且据说 CUDA 和 Tensor Core 可以同时进行 FP64 运算。当然,Tensor Core 主要负责科研中常用的矩阵的加速。

支持多种 AI 中常用的浮点格式的 Tensor Core。

针对稀疏运算优化,性能可翻番。

BERT 模型训练和推理性能最大分别达到 V100 的 6X 和 7X。

(MIG:多实例 GPU,主要用于 GRID 等虚拟化环境)

在分子动力学、物理、工程、地理科学等基础科研和工程领域,常用软件的性能打到 1.5X 至 2.1X 不等。

完整 GA100 共有 128 组 SM,8192 sp。A100 仅仅开启了 108 组 SM,即 6912 sp。HBM 也屏蔽了一颗芯片,显存容量40 GB,位宽 5120-bit,带宽 1.6 TB/s。

为低精度运算提供支持,二值运算 INT1 的性能高达单卡 5 PFLOPS。

NVLINK 3.0,双向带宽单芯片 600 GB/s,DGX A100 共 6 颗,总带宽 4.8TB/s。

上一代 DGX 中,一个 NVLINK 的功耗似乎要达到 100 W。DGX-2 拥有 16 块 Tesla V100 和 12 颗 NVLINK 芯片,总功耗为 10 kW。DGX A100 的总功耗约 6.5 kW,Pascal 时代的 DGX-1 总功耗 4 kW(8 × Tesla P100)。

DGX A100,重达 143 kg,包含 1 TB RAM,采用 AMD Rome 7742 CPU,共 128 个核心。DGX A100 为操作系统专门预留了 2 × 1.92 TB 的 NVMe 硬盘,而剩余 4 × 3.84 TB 硬盘用于存储。


IP属地:荷兰1楼2020-05-15 10:34回复

    预告:NVIDIA 将在未来面向 L5 自动驾驶汽车推出新的计算平台,总算力高达 2 PFLOPS,功耗 800 W。


    IP属地:荷兰2楼2020-05-15 10:39
    收起回复
      9.7T双精度。。。。。。这么变态的吗?


      IP属地:广东3楼2020-05-15 12:40
      回复
        和满板差的有点多,128sm只用了108,频率也不高,所以单精度不好看


        IP属地:江苏来自Android客户端5楼2020-05-15 16:39
        收起回复


          IP属地:江苏来自Android客户端6楼2020-05-15 19:34
          收起回复
            沙 皇 氢 弹


            IP属地:日本来自Android客户端7楼2020-05-15 21:17
            回复
              a是什么架构


              来自Android客户端8楼2020-05-17 08:13
              收起回复
                功耗炸了


                IP属地:天津来自Android客户端9楼2020-05-19 00:32
                回复
                  400w功耗 放在汽车里 电池不知道够不够用


                  IP属地:福建10楼2020-07-14 13:43
                  收起回复
                    400w?本人物理虽然学的不好,但400w,看着都感觉把本人的头皮给炸掀开,跳起来了


                    IP属地:广东来自Android客户端11楼2020-07-15 21:05
                    回复