Como siempre hace, Nvidia muestra su arquitectura antes de un lanzamiento y en este caso estamos hablando del GPU GP100, la solución mas potente de la empresa.
Veremos este Chip en la nueva tarjeta profesional Tesla K80.
Las unidades SM tienen 64 núcleos CUDA de precisión simple FP32, en la GPU Gp100 completa tenemos 3.840 núcleos de precisión simple. Cada uno de estos SM se divide en dos bloques formados por 32 núcleos cada uno de ellos con un buffer de instrucciones, un planificador de tareas y dos unidades de ejecución.
Cada unidad SM tiene 32 núcleos de precisión doble FP64. Una GPU GP100 completa tiene un total de 1.920 núcleos CUDA FP64 de precisión doble por lo que la relación entre FP32 y FP64 es de 2:1.
La caché L2 de Pascal tiene un total de 4.096 Kb, con este aumento de la caché L2 se consigue reducir el número de accesos a la memoria VRAM, lo que se traduce en una menor necesidad de ancho de banda, menor consumo y lo que realmente importa, un rendimiento mayor.
Documento oficial de NVIDIA PASCAL aquí