Ampere (microarquitectura)
Ampere es el nombre en clave de una microarquitectura de unidad de procesamiento de gráficos (GPU) desarrollada por Nvidia como sucesora de las arquitecturas Volta y Turing. Se anunció oficialmente el 14 de mayo de 2020 y lleva el nombre del matemático y físico francés André-Marie Ampère.[1][2]
Ampere | ||
---|---|---|
Información | ||
Tipo | Microarquitectura | |
Desarrollador | Nvidia | |
Fabricante | ||
Fecha de lanzamiento | 14 de mayo de 2020 (3 años) | |
Datos técnicos | ||
Memoria |
GDDR6 GDDR6X | |
Caché L1 | 128 KB (por SM) | |
Caché L2 | 2 MB to 6 MB | |
Usado en | ||
Serie GeForce 30 Serie RTX A A100 | ||
Nvidia anunció las GPU de consumo de la serie GeForce 30 con arquitectura Ampere en un evento especial de GeForce el 1 de septiembre de 2020.[3][4] Nvidia anunció la GPU A100 de 80 GB en SC20 el 16 de noviembre de 2020.[5] Las tarjetas gráficas Mobile RTX y la RTX 3060 basada en la arquitectura Ampere se revelaron el 12 de enero de 2021.[6]
Nvidia anunció el sucesor de Ampere, Hopper, en GTC 2022 y "Ampere Next Next" para un lanzamiento de 2024 en GPU Technology Conference 2021.
Detalles
Las mejoras arquitectónicas de la arquitectura Ampere incluyen lo siguiente:
- CUDA Compute Capability 8.0 para A100 y 8.6 para la serie GeForce 30[7]
- Proceso FinFET de 7 nm de TSMC para A100
- Versión personalizada del proceso de 8 nm de Samsung (8N) para la serie GeForce 30[8]
- Núcleos Tensor de tercera generación con compatibilidad con FP16, bfloat16, TensorFloat-32 (TF32) y FP64 y aceleración reducida.[9] Los núcleos Tensor individuales tienen 256 operaciones FP16 FMA por segundo, potencia de procesamiento 4x (solo GA100, 2x en GA10x) en comparación con las generaciones anteriores de Tensor Core; el Tensor Core Count se reduce a uno por SM.
- Núcleos de trazado de rayos de segunda generación; Trazado de rayos, sombreado y cómputo simultáneos para la serie GeForce 30
- Memoria de alto ancho de banda 2 (HBM2) en A100 de 40 GB y A100 de 80 GB
- Memoria GDDR6X para GeForce RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti
- Núcleos FP32 dobles por SM en GPU GA10x
- NVLink 3.0 con un rendimiento de 50 Gbit/s por par[9]
- PCI Express 4.0 con soporte SR-IOV (SR-IOV está reservado solo para A100)
- Función de partición de GPU y virtualización de GPU de múltiples instancias (MIG) en A100 que admite hasta siete instancias
- PureVideo conjunto de características K decodificación de video de hardware con decodificación de hardware AV1[10] para la serie GeForce 30 y conjunto de características J para A100
- 5 NVDEC para A100
- Agrega nueva decodificación JPEG de 5 núcleos basada en hardware (NVJPG) con YUV420, YUV422, YUV444, YUV400, RGBA. No debe confundirse con Nvidia NVJPEG (biblioteca acelerada por GPU para codificación/descodificación de JPEG)
Chips
- GA100[11]
- GA102
- GA103
- GA104
- GA106
- GA107
Comparación de la capacidad informática: GP100 vs GV100 vs GA100[12]
Características de la GPU | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA A100 |
---|---|---|---|
Nombre en clave GPU | GP100 | GV100 | GA100 |
Arquitectura GPU | NVIDIA Pascal | NVIDIA Volta | NVIDIA Ampere |
Capacidad de cómputo | 6.0 | 7.0 | 8.0 |
Hilos / urdimbre | 32 | 32 | 32 |
Deformaciones máximas / SM | 64 | 64 | 64 |
Max hilos / SM | 2048 | 2048 | 2048 |
Max bloques de rosca / SM | 32 | 32 | 32 |
Registros máximos de 32 bits/SM | 65536 | 65536 | 65536 |
Max registros / bloque | 65536 | 65536 | 65536 |
Max registros / subproceso | 255 | 255 | 255 |
Tamaño máximo de bloque de hilo | 1024 | 1024 | 1024 |
Núcleos FP32 / SM | 64 | 64 | 64 |
Relación de registros SM a núcleos FP32 | 1024 | 1024 | 1024 |
Tamaño de memoria compartida/SM | 64 KB | Configurable hasta 96 KB | Configurable hasta 164 KB |
Comparación de matriz de soporte de precisión[13][14]
Precisiones principales de CUDA admitidas | Precisiones de núcleo de Tensor admitidas | |||||||||||||||
FP16 | FP32 | FP64 | INT1 | INT4 | INT8 | TF32 | BF16 | FP16 | FP32 | FP64 | INT1 | INT4 | INT8 | TF32 | BF16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
NVIDIA Tesla P4 | No | Sí | Sí | No | No | Sí | No | No | No | No | No | No | No | No | No | No |
NVIDIA P100 | Sí | Sí | Sí | No | No | No | No | No | No | No | No | No | No | No | No | No |
NVIDIA Volta | Sí | Sí | Sí | No | No | Sí | No | No | Sí | No | No | No | No | No | No | No |
Nvidia Turing | Sí | Sí | Sí | No | No | Sí | No | No | Sí | No | No | Sí | Sí | Sí | No | No |
NVIDIA A100 | Sí | Sí | Sí | No | No | Sí | No | Sí | Sí | No | Sí | Sí | Sí | Sí | Sí | Sí |
Leyenda:
- FPnn: coma flotante con nn bits
- INTn: entero con n bits
- INT1: binario
- TF32: TensorFloat32
- BF16: bflotador16
Comparación del rendimiento de decodificación
Flujos simultáneos | Decodificación H.264 (1080p30) | Decodificación H.265 (HEVC) (1080p30) | Decodificación VP9 (1080p30) |
---|---|---|---|
V100 | 16 | 22 | 22 |
A100 | 75 | 157 | 108 |
Acelerador A100 y DGX A100
El acelerador A100 basado en Ampere se anunció y lanzó el 14 de mayo de 2020.[9] El A100 cuenta con 19,5 teraflops de rendimiento FP32, 6912 núcleos CUDA, 40 GB de memoria gráfica y 1,6 TB/s de ancho de banda de memoria gráfica.[15] Inicialmente, el acelerador A100 solo estaba disponible en la tercera generación del servidor DGX, incluidos 8 A100.[9] El DGX A100 también incluye 15 TB de almacenamiento PCIe gen 4 NVMe,[15] dos CPU AMD Rome 7742 de 64 núcleos, 1 TB de RAM e interconexión HDR InfiniBand con tecnología Mellanox. El precio inicial de la DGX A100 fue de $199 000.[9]
Comparación de aceleradores utilizados en DGX:[16][17][18]
Acelerador |
---|
H100 |
A100 80 GB |
A100 40 GB |
V100 32 GB |
V100 16 GB |
P100 |
Arquitectura | Zócalo | FP32 CUDA Cores |
FP64 Cores (excl. Tensor) |
Mixed INT32/FP32 Cores |
INT32 Cores |
Reloj turbo | Reloj de la memoria | Ancho del bus de la memoria | Ancho de banda de la memoria | VRAM | Precisión simple (FP32) |
Precisión doble (FP64) |
INT8 (non-Tensor) |
INT8 Dense Tensor |
INT32 | FP16 | FP16 Dense Tensor |
bfloat16 Dense Tensor |
TensorFloat-32 (TF32) Dense Tensor |
FP64 Dense Tensor |
Interconnect (NVLink) |
GPU | Tamaño de caché L1 | Tamaño de caché L2 | TDP | Tamaño del chip GPU | Transistores | Proceso de fabricación |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Hopper | SXM5 | 16896 | 4608 | 16896 | N/A | 1780 MHz | 4.8Gbit/s HBM3 | 5120-bit | 3072 GB/sec | 80 GB | 60 TFLOPs | 30 TFLOPs | N/A | 4000 TOPs | N/A | N/A | 2000 TFLOPs | 2000 TFLOPs | 1000 TFLOPs | 60 TFLOPs | 900 GB/sec | GH100 | 25344 KB (192 KBx132) | 51200 KB | 700 W | 814 mm2 | 80 000 millones | TSMC 4 nm N4 |
Ampere | SXM4 | 6912 | 3456 | 6912 | N/A | 1410 MHz | 3.2 Gbit/s HBM2 | 5120-bit | 2039 GB/sec | 80 GB | 19.5 TFLOPs | 9.7 TFLOPs | N/A | 624 TOPs | 19.5 TOPs | 78 TFLOPs | 312 TFLOPs | 312 TFLOPs | 156 TFLOPs | 19.5 TFLOPs | 600 GB/s | GA100 | 20736 KB (192 KBx108) | 40960 KB | 400 W | 826 mm2 | 54 200 millones | TSMC 7 nm N7 |
Ampere | SXM4 | 6912 | 3456 | 6912 | N/A | 1410 MHz | 2.4Gbit/s HBM2 | 5120-bit | 1555 GB/s | 40 GB | 19.5 TFLOPs | 9.7 TFLOPs | N/A | 624 TOPs | 19.5 TOPs | 78 TFLOPs | 312 TFLOPs | 312 TFLOPs | 156 TFLOPs | 19.5 TFLOPs | 600 GB/sec | GA100 | 20736 KB (192 KBx108) | 40960 KB | 400 W | 826 mm2 | 54 200 millones | TSMC 7 nm N7 |
Volta | SXM3 | 5120 | 2560 | N/A | 5120 | 1530 MHz | 1.75 Gbit/s HBM2 | 4096-bit | 900 GB/sec | 32 GB | 15.7 TFLOPs | 7.8 TFLOPs | 62 TOPs | N/A | 15.7 TOPs | 31.4 TFLOPs | 125 TFLOPs | N/A | N/A | N/A | 300 GB/sec | GV100 | 10240 KB (128 KBx80) | 6144 KB | 350 W | 815 mm2 | 21 100 millones | TSMC 12 nm FFN |
Volta | SXM2 | 5120 | 2560 | N/A | 5120 | 1530 MHz | 1.75 Gbit/s HBM2 | 4096-bit | 900 GB/sec | 16 GB | 15.7 TFLOPs | 7.8 TFLOPs | 62 TOPs | N/A | 15.7 TOPs | 31.4 TFLOPs | 125 TFLOPs | N/A | N/A | N/A | 300 GB/sec | GV100 | 10240 KB (128 KBx80) | 6144 KB | 300 W | 815 mm2 | 21 100 millones | TSMC 12 nm FFN |
Pascal | SXM/SXM2 | N/A | 1792 | 3584 | N/A | 1480 MHz | 1.4 Gbit/s HBM2 | 4096-bit | 720 GB/sec | 16 GB | 10.6 TFLOPs | 5.3 TFLOPs | N/A | N/A | N/A | 21.2 TFLOPs | N/A | N/A | N/A | N/A | 160 GB/sec | GP100 | 1344 KB (24 KBx56) | 4096 KB | 300 W | 610 mm2 | 15 300 millones | TSMC 16 nm FinFET+ |
Productos que utilizan Ampere
- Serie GeForce MX
- GeForce MX570 (móvil) (GA107)
- Serie GeForce 20
- GeForce RTX 2050 (móvil) (GA107)
- Serie GeForce 30
- GeForce RTX 3050 (móvil) (GA107)
- GeForce RTX 3050 (GA106 o GA107)[19]
- GeForce RTX 3050 Ti (móvil) (GA107)
- GeForce RTX 3060 (móvil) (GA106)
- GeForce RTX 3060 (GA106 o GA104)[20]
- GeForce RTX 3060 Ti (GA104 o GA103)[21]
- GeForce RTX 3070 (móvil) (GA104)
- GeForce RTX 3070 (GA104)
- GeForce RTX 3070 Ti (móvil) (GA104)
- GeForce RTX 3070 Ti (GA104)
- GeForce RTX 3080 (móvil) (GA104)
- GeForce RTX 3080 (GA102)
- GeForce RTX 3080 12GB (GA102)
- GeForce RTX 3080 Ti (móvil) (GA103)
- GeForce RTX 3080 Ti (GA102)
- GeForce RTX 3090 (GA102)
- GeForce RTX 3090 Ti (GA102)
- GPU Nvidia Workstation (anteriormente Quadro)
- RTX A2000 (móvil) (GA107)
- RTX A2000 (GA106)
- RTX A3000 (móvil) (GA104)
- RTX A4000 (móvil) (GA104)
- RTX A4000 (GA104)
- RTX A4500 (GA102)
- RTX A5000 (móvil) (GA104)
- RTX A5000 (GA102)
- RTX A5500 (GA102)
- RTX A6000 (GA102)
- GPU Nvidia Data Center (anteriormente Tesla)
- Nvidia A2 (GA107)
- Nvidia A10 (GA102)
- Nvidia A16 (4 × GA107)
- Nvidia A30 (GA100)
- Nvidia A40 (GA102)
- Nvidia A100 (GA100)
- Nvidia A100 80 GB (GA100)
GA107 | GA106 | GA104 | GA103 | GA102 | GA100 | |
---|---|---|---|---|---|---|
Serie GeForce MX | GeForce MX570 (móvil) | N/A | N/A | N/A | N/A | N/A |
Serie GeForce 20 | GeForce RTX 2050 (móvil) | N/A | N/A | N/A | N/A | N/A |
Serie GeForce 30 | GeForce RTX 3050 (móvil) GeForce RTX 3050[19] GeForce RTX 3050 ti (móvil) |
GeForce RTX 3050 GeForce RTX 3060 (móvil) GeForce RTX 3060 |
GeForce RTX 3060[20] GeForce RTX 3060 Ti GeForce RTX 3070 (móvil) GeForce RTX 3070 GeForce RTX 3070 ti (móvil) GeForce RTX 3070 Ti GeForce RTX 3080 (móvil) |
GeForce RTX 3060 Ti[21] GeForce RTX 3080 ti (móvil) |
GeForce RTX 3080 GeForce RTX 3080 ti GeForce RTX 3090 GeForce RTX 3090 Ti |
N/A |
GPU Nvidia Workstation | RTX A2000 (móvil) | RTX A2000 | RTX A3000 (móvil) RTX A4000 (móvil) RTX A4000 RTX A5000 (móvil) |
N/A | RTX A4500 RTX A5000 RTX A5500 RTX A6000 |
N/A |
GPU Nvidia Data Center | Nvidia A2 Nvidia A16 |
N/A | N/A | N/A | Nvidia A10 Nvidia A40 |
Nvidia A30 Nvidia A100 |
Referencias
- Newsroom, NVIDIA. «NVIDIA's New Ampere Data Center GPU in Full Production». NVIDIA Newsroom Newsroom.
- «NVIDIA Ampere Architecture In-Depth». NVIDIA Developer Blog. 14 de mayo de 2020.
- Newsroom, NVIDIA. «NVIDIA Delivers Greatest-Ever Generational Leap with GeForce RTX 30 Series GPUs». NVIDIA Newsroom Newsroom.
- «NVIDIA GeForce Ultimate Countdown». NVIDIA.
- «NVIDIA Doubles Down: Announces A100 80GB GPU, Supercharging World's Most Powerful GPU for AI Supercomputing».
- «NVIDIA GeForce Beyond at CES 2023». NVIDIA.
- «I.7. Compute Capability 8.x». docs.nvidia.com (en inglés estadounidense). Consultado el 23 de septiembre de 2020.
- B., Dominik. «Samsung's old 8nm tech at the heart of NVIDIA's monstrous Ampere cards». SamMobile (en inglés estadounidense). Consultado el 19 de septiembre de 2020.
- Smith, Ryan (14 de mayo de 2020). «NVIDIA Ampere Unleashed: NVIDIA Announces New GPU Architecture, A100 GPU, and Accelerator». AnandTech.
- «GeForce RTX 30 Series GPUs: Ushering In A New Era of Video Content With AV1 Decode». NVIDIA.
- Morgan, Timothy Prickett (29 de mayo de 2020). «Diving Deep Into The Nvidia Ampere GPU Architecture». The Next Platform (en inglés estadounidense). Consultado el 24 de marzo de 2022.
- «NVIDIA A100 Tensor Core GPU Architecture». www.nvidia.com. Consultado el 18 de septiembre de 2020.
- «NVIDIA Tensor Cores: Versatility for HPC & AI». NVIDIA.
- «Abstract». docs.nvidia.com.
- Tom Warren (14 de mayo de 2020). «Nvidia's first Ampere GPU is designed for data centers and AI, not your PC». The Verge.
- Smith, Ryan. «NVIDIA Hopper GPU Architecture and H100 Accelerator Announced: Working Smarter and Harder». www.anandtech.com. Consultado el 5 de abril de 2023.
- Smith, Ryan. «NVIDIA Ampere Unleashed: NVIDIA Announces New GPU Architecture, A100 GPU, and Accelerator». www.anandtech.com. Consultado el 5 de abril de 2023.
- «NVIDIA Tesla V100 tested: near unbelievable GPU power». TweakTown (en inglés estadounidense). 17 de septiembre de 2017. Consultado el 5 de abril de 2023.
- Igor, Wallossek (13 de febrero de 2022). «The two faces of the GeForce RTX 3050 8GB». Igor's Lab. Consultado el 23 de febrero de 2022.
- Shilov, Anton (25 de septiembre de 2021). «Gainward and Galax List GeForce RTX 3060 Cards With GA104 GPU». Tom's Hardware. Consultado el 23 de septiembre de 2022.
- Tyson, Mark (23 de febrero de 2022). «Zotac Debuts First RTX 3060 Ti Desktop Cards With GA103 GPU». Tom's Hardware. Consultado el 23 de septiembre de 2022.