La supercomputadora Frontier se hizo famosa en mayo de este año, cuando presentaron su alta capacidad computacional de 1.685 exaflops. Sin embargo, mantener un sistema tan poderoso funcionando correctamente es una tarea difícil para los encargados del Laboratorio Nacional de Oak Ridge, ORNL, donde se encuentra el equipo. Uno de los encargados dijo que el sistema tiene problemas, y no pasa un día sin tener fallas.
La supercomputadora Frontier utiliza los procesadores EPYC Trento de 64 núcleos de AMD, las GPU de cómputo Instinct MI250X y las interconexiones Slingshot de HPE a 21 MW de potencia. HPE construyó el sistema y usó el Cray EX, una arquitectura diseñada para aplicaciones escalables, principalmente para supercomputadoras ultrarrápidas.
Justin Whitt, director de la ORNL, concedió una entrevista al portal InsideHPC, en la que explicó un poco las situaciones a las que se enfrenta la supercomputadora Frontier. “Estamos trabajando en los problemas de hardware y tratando de entender por que pasa todo esto”, dijo Justin. “Vamos a tener fallas, no es normal tener tantas. Además el tiempo medio entre fallas en el sistema es de horas, no de días o meses”.
Los rumores sobre posibles fallas de hardware en Frontier han estado flotando durante bastante tiempo. Algunos dijeron que el sistema experimentaba problemas por las GPU de cómputo, Instinct MI250X de AMD, que no eran tan confiables como se esperaba este año.
El Sr. Whitt no confirmó que el sistema experimente algún problema particular con el hardware de AMD, pero insistió en que la supercomputadora sufre de numerosos problemas de hardware.
“Muchos de los desafíos que tenemos por delante están en las GPU, pero ese no es el mayor de los problemas que estamos teniendo”, dijo Justin Whitt.
Los problemas no son culpa de AMD
Con esto Justin Whitt no responsabiliza a los componentes de AMD que alimentan a Frontier, como los procesadores optimizados AMD EPYC de tercera generación, por las fallas del sistema. “No estamos demasiado preocupados por los productos de AMD en este momento”, comentó, luego de explicar que los problemas se tienen que tratar e identificar y tienen mucho trabajo por delante con todo esto.
También según Whitt, las situaciones a las que se enfrenta el equipo responsable de Frontier no son muy diferentes a las que ya se han visto en otras máquinas. El problema en el caso de esta supercomputadora es la escala, ya que, en total, el sistema está compuesto por 685 partes diferentes con un total de 60 millones de partes.
A pesar de las dificultades, se mantiene el cronograma que prevé la entrega de los equipos para uso final en enero de 2023. “Estamos llegando al final del proceso y estamos en el camino correcto”, dijo.