Si no se acuerdan, hace casi 20 días sucedió algo así como un «apagón global», cuando millones de PCs de Windows dejaron de funcionar. Hasta el día de hoy no se sabía nada sobre el motivo de esta gran falla, pero CrowdStrike, la responsable, ha explicado que es lo que pasó y también habló sobre las medidas preventivas que tomarán para evitar que se repita esta situación.
Básicamente, hubo una actualización defectuosa. En ella, CrowdStrike distribuyó 20 «valores de entrada», sin embargo, el software de la empresa está programado para trabajar con 21 de estos valores. Por lo tanto, el faltante generó un error de lectura de memoria, causando el colapso del sistema.
El fallo no fue detectado antes de que se distribuyera la actualización ya que el modelo de prueba contaba con un valor de entrada «comodín» número 21, que no permitía la búsqueda de un campo vacío.
CrowdStrike explica qué pasó en la falla global de PCs.
Las soluciones propuestas por CrowdStrike para prevenir la repetición del problema serán las siguientes. Primero, se garantizará que los modelos de prueba sean idénticos a los modelos de actualización distribuidos. También se han añadido límites de lectura al software para evitar la búsqueda de campos vacíos.
Finalmente, la tercera estrategia, que ha sido común en las actualizaciones móviles durante años, implica distribuir el software en fases. Esto da a la empresa la oportunidad de corregir errores y recibir retroalimentación antes de que el software llegue a todas las PC que lo usan.
Como era de esperar, el apagón global que afectó a varios sistemas ha generado una ola de demandas contra CrowdStrike. A pesar de esto, la empresa podría evitar muchas de estas demandas gracias a las polémicas cláusulas en sus «términos y condiciones», que la eximen de responsabilidad en casi todos los casos.
Fuente: SC Media






