La arquitectura Turing
Esta nueva arquitectura de Nvidia, como ya mencionamos en la página anterior, incorpora las tecnologías de Tensor Cores, RT Cores, y Sombreado Avanzado como principales características. Además tiene otras mejoras como ejecución concurrente y memorias con asignación variable, como veremos en esta sección.
SM De Turing
Cada SM de Turing tiene 64 Cuda Cores por separado, 8 Tensor Cores, un archivo de registro de 256KB, y una memoria variable de 96KB que se reparte entre L1 y memoria compartida dependiendo las necesidades.
Ejecución Concurrente
Sus nuevos núcleos son capaces de ejecutar en simultaneo operaciones INT32 y FP32, lo cual en aplicaciones optimizadas puede dar un rendimiento hasta 50% mayor.
Caché y Memoria Compartida
Soporte a GDDR6
Ancho de banda efectivo
Turing Tensor Core
La incorporación de los Tensor Cores permite aumentar significativamente las operaciones con matrices. Esto es utilizado ampliamente en técnicas de inteligencia artificial, tanto en entrenamiento de la red como en inferencia. Esto último es lo que se aplica con la técnica DLSS de Nvidia, que aumenta la resolución de imagen basado en inferencia respecto a una red que ya aprendió como son esas imágenes en 8K.
Aunque ya habíamos visto Tensor Cores en Volta, estos nuevos Tensor Cores permiten también acelerar operaciones INT4 e INT8, y no solo FP16 como Volta, haciendo una cantidad de operaciones mucho mayor si los datos son mas chicos.
Turing RT Core
Luego están sus RT Cores, que permiten acelerar significativamente el proceso de Ray-Tracing, con hardware diseñado específicamente para acelerar por hardware todo el proceso que antes se realizaba por software. Obviamente la implementación por hardware es mucho mas rápida que una emulación, y es por eso que ahora Turing rinde 10 veces más que Pascal en estas tareas.