一、硬件参数

V100 SXM2 V100 PCIe V100S PCIe
核心 GV100 GV100 GV100
架构 Volta Volta Volta
SM 80 80 80
CUDA Cores / SM 64 64 64
CUDA Cores / GPU 5120 5120 5120
FP32 Cores / SM 64 64 64
FP32 Cores / GPU 5120 5120 5120
FP64 Cores / SM 32 32 32
FP64 Cores / GPU 2560 2560 2560
INT32 Cores / SM 64 64 64
INT32 Cores / GPU 5120 5120 5120
Tensor Core 1st 1st 1st
Tensor Cores / SM 8 8 8
Tensor Cores / GPU 640 640 640
GPU 加速频率 (MHz) 1530 1380 1597
显存 16 / 32 GB HBM2 16 / 32 GB HBM2 32 GB HBM2
显存位宽 (bit) 4096 4096 4096
显存带宽 (GBps) 897 897 1133
一缓 (KB per SM) 128 128 128
二缓 (MB) 6 6 6
接口 SXM2 PCIe 3.0x16 PCIe 3.0x16
TDP (W) 300 250 250
制程 TSMC 12nm FFN TSMC 12nm FFN TSMC 12nm FFN

        注意到,完整 GV100 核心有 6 组 GPC,每组 GPC 包含 7 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GV100 核心共有 84 个 SM 单元,但 V100 的 GV100 核心只开启其中的 80 个。每个 SM 单元中有 64 个 CUDA 计算单元。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 32 个 FP64 计算单元。

        每个 SM 单元中有 8 个 Tensor Core,因此 V100 的 GV100 总共含有 640 个 Tensor Core。支持的数据类型只有 FP16。

二、算力

1、CUDA Core 算力

浮点:TFLOPS

整型:TIOPS

V100 SXM2 V100 PCIe V100S PCIe
FP32 15.67 14.13 16.35
FP16 31.33 28.26 32.71
FP64 7.834 7.066 8.177
INT32 15.67 14.13 16.35

2、Tensor Core 算力

浮点:TFLOPS

V100 SXM2 V100 PCIe V100S PCIe
FP16 125 112 130

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐