La arquitectura Turing
Esta nueva arquitectura de Nvidia, como ya mencionamos en la página anterior, incorpora las tecnologías de Tensor Cores, RT Cores, y Sombreado Avanzado como principales características. Además tiene otras mejoras como ejecución concurrente y memorias con asignación variable, como veremos en esta sección.
SM De Turing
Cada SM de Turing tiene 64 Cuda Cores por separado, 8 Tensor Cores, un archivo de registro de 256KB, y una memoria variable de 96KB que se reparte entre L1 y memoria compartida dependiendo las necesidades.
Ejecución Concurrente
Sus nuevos núcleos son capaces de ejecutar en simultaneo operaciones INT32 y FP32, lo cual en aplicaciones optimizadas puede dar un rendimiento hasta 50% mayor.
Caché y Memoria Compartida
Su nuevo diseño de memoria compartida permite tener el doble de ancho de banda de caché L1 frente a Pascal, y una menor latencia. Además su L1 es hasta 2.7 veces mayor, y su L2 es dos veces mayor.
Soporte a GDDR6
Turing además se encuentra optimizado para trabajar con el nuevo estándar de memorias GDDR6. Los modelos iniciales tienen memorias de 14Gbps, y quizás en un futuro veamos modelos con hasta 16 o 18 Gbps.
Ancho de banda efectivo
Entre el aumento de frecuencia de memoria, y las técnicas de reducción de tráfico de esta nueva arquitectura, se obtiene un ancho de banda efectivo 50% mayor al de Pascal.
Turing Tensor Core
La incorporación de los Tensor Cores permite aumentar significativamente las operaciones con matrices. Esto es utilizado ampliamente en técnicas de inteligencia artificial, tanto en entrenamiento de la red como en inferencia. Esto último es lo que se aplica con la técnica DLSS de Nvidia, que aumenta la resolución de imagen basado en inferencia respecto a una red que ya aprendió como son esas imágenes en 8K.
Aunque ya habíamos visto Tensor Cores en Volta, estos nuevos Tensor Cores permiten también acelerar operaciones INT4 e INT8, y no solo FP16 como Volta, haciendo una cantidad de operaciones mucho mayor si los datos son mas chicos.
Turing RT Core
Luego están sus RT Cores, que permiten acelerar significativamente el proceso de Ray-Tracing, con hardware diseñado específicamente para acelerar por hardware todo el proceso que antes se realizaba por software. Obviamente la implementación por hardware es mucho mas rápida que una emulación, y es por eso que ahora Turing rinde 10 veces más que Pascal en estas tareas.
Nuevas salidas de video
También se soportan los nuevos estándares de video, incluyendo VirtualLink, que combina 4 lineas HBR3 DisplayPort, USB 3.1 Gen2 para transferencia de datos, y una salida de poder de 27W en un solo conector.