Luego de anunciar su GPU Tesla A100 y los primeros detalles de Ampere, Nvidia hizo una publicación más completa sobre las novedades de su nueva arquitectura y las especificaciones de la nueva GPU GA100 en la que se basa Tesla A100.
La información más interesante que revela este blog es que la nueva Tesla A100 no utiliza el núcleo completo, sino que utiliza 7/8 del mismo. El núcleo completo posee las siguientes especificaciones:
Especificaciones de GA100
- 8 GPCs, 8 TPCs/GPC, 2SMs/TPC, 16SMs/GPC, 128SMs por GPU completa
- 64 CUDA Cores FP32/SM, 8192 CUDA Cores FP32 por GPU completa
- 4 Tensor Cores de tercera generación/SM, 512 Tensor Cores de tercera generación por GPU Completa
- 6 stacks de memoria HBM2, 12 controladores de memoria de 512 bits
De esta forma podremos tener un bus de 6144 bits y hasta 48GB de memorias HBM2, con ancho de banda de hasta 1.866TB/s si se usan las mismas memorias HBM2 de 1215MHz de la Tesla V100.
No se incluyen RT Cores, unidades de rasterizado, salidas de video, ni codificadores NVENC ya que apunta plenamente a inteligencia artificial.
Arquitectura de los SMs de GA100
- Tensor Cores de Tercera Generación
- Aceleración para todo tipo de datos, incluyendo FP16, BF16, TF32, FP64, INT8, INT4 y Binario
- Las operaciones TF32 de los Tensor Cores proveen un camino fácil para acelerar datos FP32 de entrada/salida en frameworks de Aprendizaje Profundo y Cómputo de Alto Rendimiento, corriendo hasta 10x más rápido que la Tesla V100 en operaciones FMA de FP32, o hasta 20x mas rápido en matrices dispersas.
- Los Tensor Cores de precisión mixta FP16/FP32 otorgan un poder de procesamiento sin precedentes para Aprendizaje Profundo, corriendo hasta 2.5x mas rápido que los Tensor Cores de Volta, y hasta 5x mas rápido en matrices dispersas.
- Las operaciones FP64 en los Tensor Cors corren hasta 2.5x mas rápido que las operaciones DFMA FP64 de Tesla V100.
- Las operaciones INT8 con matrices dispersas ofrecen un poder de procesamiento sin precedentes en interferencia de Aprendizaje Profundo, corriendo hasta 20x mas rápido que las operaciones INT8 en Tesla V100.
- 192KB de memoria combinada y caché L1, 1.5x más grande que un SM de Tesla V100
- Nueva instrucción de copia asíncrona para carga de datos directa desde la memoria global a la memoria compartida, opcionalmente saltando la caché L1 y eliminando la necesidad del uso de un archivo de registro intermedio.
- Nueva unidad de barrera para la memoria compartida (barrera asíncrona) para uso junto a la nueva instrucción de copia asíncrona.
- Nuevas instrucciones para manejo de la caché L2 y controles de residencia.
- Nuevas mejoras en la programación para reducir la complejidad del software.
Sin dudas Ampere trae grandes mejoras, y eso que aún no vimos la arquitectura completa, sino solo una parte. Se espera que Nvidia también presente los RT Cores 2.0 y una nueva versión de NVENC, así que estén atentos al anuncio de su versión para GeForce y Quadro en la segunda mitad del año.
¿Que opinan sobre estos nuevos detalles de la arquitectura Nvidia Ampere y el núcleo GA100? ¿Están ansiosos por ver con que nos sorprende Nvidia con su variante para gaming?