AWS ha caído antes, al igual que otros proveedores; Fastly tiene lecciones para compartir de su propia interrupción

La interrupción de Fastly a mediados de 2021 dejó fuera de línea a algunos sitios importantes. Su arquitecto jefe de productos, Sean Leach, comparte por qué cree que continúan las interrupciones y cómo reducir sus propios riesgos.

Imagen: Shutterstock / SGM

Es hora de restablecer el letrero de «días desde la última interrupción» en la sede de AWS una vez más, con el gigante del alojamiento web en el proceso de analizar su última interrupción masiva, que esta vez se llevó a sitios como Disney + y Netflix.

Hay muchos huevos digitales en la canasta de AWS y, lamentablemente, se han producido interrupciones importantes con una regularidad sorprendente. Sin embargo, AWS no está sola: la empresa de nube Edge Fastly sufrió una interrupción el 8 de junio de 2021, que fue similar a las interrupciones de AWS, aunque solo sea por el motivo de que varios sitios web importantes se desconecten.

VER: Kit de contratación: ingeniero en la nube (TechRepublic Premium)

La última interrupción de AWS sigue siendo un misterio. Todo lo que sabemos es que el martes 7 de diciembre, AWS US-East-1 se desconectó. Resulta que ese es el mayor de los centros de datos de AWS, y no solo afectó a los clientes de Amazon, sino también a las operaciones internas. Más tarde en el día, se restableció el servicio, dijo AWS.

Amazon aún tiene que entrar en detalles sobre la interrupción, aparte de lo que CBS News describió como «explicaciones técnicas concisas» para la interrupción que dejó fuera de línea a los principales sitios web, dispositivos IoT y otros servicios esenciales en línea. El arquitecto jefe de productos de Fastly, Sean Leach, no especulará sobre la causa de la interrupción de AWS, pero tiene mucho que decir sobre la interrupción de Fastly el 8 de junio y cómo las lecciones aprendidas de Fastly se pueden aplicar tanto a los servicios de entrega de contenido como a los clientes que hacer uso de ellos.

La interrupción de Fastly fue causada por un error introducido por la implementación de un software el mes anterior. El error tenía condiciones de activación muy específicas que solo podían ser provocadas por «una configuración específica del cliente en circunstancias específicas», dijo el vicepresidente senior de ingeniería e infraestructura de Fastly, Nick Rockwell. Resulta que un cliente que cumplía con esas circunstancias particulares envió un cambio de configuración válido que desencadenó el error y desconectó el 85% de la red de Fastly. Descubrió rápidamente el error, restauró los servicios e implementó una solución permanente el mismo día.

Internet es un automóvil y los automóviles necesitan mantenimiento

Continúan ocurriendo cortes de Internet, lo que plantea la pregunta: ¿Por qué? Y, si hay algo fundamentalmente malo en ello, ¿necesitamos rediseñar Internet?

No, dijo Leach, e Internet también se construyó bien en primer lugar, agregó. En lugar de pensar en Internet como una masa de servidores dispares, todos compitiendo por la autoridad, piense en Internet como un sistema completo hecho de partes móviles, como un automóvil.

«Entonces eres dueño de tu auto. Estás conduciendo, asegurándote de cambiar el aceite y otros fluidos, rotar los neumáticos y cosas por el estilo … A veces hay una piedra que sale de la carretera y rompe el parabrisas, y ahora tienes que detenerte y reaccionar ante esa circunstancia inesperada «, dijo Leach.

Leach dice que no hay fallas fundamentales en el diseño de Internet. Más bien, lo describe como habiendo sido «bellamente diseñado» al principio de su existencia de una manera que funcionó mucho mejor de lo que nadie pensó que sería en ese momento. Sí, las cosas salen mal, pero cada error es una oportunidad para aprender y eliminar los puntos de falla.

Qué aprendió Fastly de su propia interrupción

Si Fastly aprendió una gran lección de su interrupción y el proceso de recuperación, dijo Leach, fue que la transparencia vale la pena. «La transparencia siempre ha sido un área de enfoque clave [at Fastly]. Fuimos muy transparentes en el blog que publicamos en respuesta a la interrupción, y nuestros clientes han apoyado mucho nuestra respuesta «, dijo Leach.

La transparencia, dijo Leach, no solo beneficia a la empresa a ser abierta sobre sus errores y cómo responde a ellos. También beneficia a todos los demás en la industria que podrían enfrentar circunstancias similares en el futuro.

VER: Microsoft Power Platform: lo que necesita saber al respecto (PDF gratuito) (TechRepublic)

Si ha estado en Tech Twitter durante algún tiempo, probablemente haya escuchado el término «HugOps», un término del argot que describe el sentido de empatía que los profesionales de la tecnología tienen entre sí cuando experimentan desafíos similares. Parte de HugOps, dijo Leach, es poder ayudar. Si las empresas son honestas acerca de sus interrupciones, HugOps simplemente se convierte en una simple cuestión de compartir informes que podrían reducir rápidamente el tiempo de recuperación para otras organizaciones.

«Para citar a Mike Tyson, ‘todos tienen un plan hasta que reciben un puñetazo en la cara'», dijo Leach. En pocas palabras, si todos nos ayudamos unos a otros, podemos mejorar mucho para reaccionar a los golpes que inevitablemente enfrentará nuestra infraestructura.

¿Cómo arreglar Internet …?

Leach dijo que hay dos cosas importantes en las que Fastly se ha centrado y que considera formas de reducir la frecuencia de los cortes de Internet.

Primero, Fastly ha estado trasladando la mayor parte de su infraestructura crítica a lenguajes seguros para la memoria como Rust y Web Assembly. «Gran infraestructura en la nube, las cosas que hacen terabits de transacciones por segundo … mucho de eso está escrito en C y C ++. Esos eran excelentes lenguajes al principio, pero como con todo, finalmente encontramos una mejor manera», dijo Leach.

En segundo lugar, Leach advierte que los ataques DDoS, que describe como cíclicos, van en aumento. La respuesta a eso es aumentar la capacidad transaccional para disminuir el impacto que puede tener un ataque DDoS. «Estamos viendo que los ataques no solo se hacen más grandes, sino también más complejos. Mantenerse al día con la capacidad y la inteligencia de amenazas es esencial para saber qué están haciendo los atacantes», dijo Leach.

En cuanto a las empresas que pueden estar sufriendo estos cortes, Leach dijo que su mayor mensaje para todas ellas es que no se rindan en la nube.

«Piense en todas las interrupciones que la gente ha tenido al ejecutar su propia infraestructura durante años y lo difícil que es para ellos recuperarse de ella. Cambiar a un proveedor de nube le brinda acceso a una gran cantidad de expertos, tanto del lado de la infraestructura como de la seguridad , que reaccionará rápidamente y resolverá y solucionará el problema «, dijo Leach.

Eso no significa que deba ignorar la redundancia. Leach dice que es importante tener fallas geográficas, pero la nube seguirá siendo la mejor opción por una gran razón por la que Leach dijo que todos los obstáculos y vacilaciones en torno a la estabilidad de la nube se reducen a: Riesgo.

«Cada organización tiene que elegir su nivel de riesgo, al igual que usted hace con la seguridad. Puede elegir el nivel de riesgo que toma en la nube o puede optar por ignorar los riesgos por completo», dijo Leach.

VER: iCloud vs.OneDrive: ¿Cuál es mejor para los usuarios de Mac, iPad y iPhone? (PDF gratuito) (TechRepublic)

Además de comprender su riesgo, Leach dijo que hay otra cosa clave que todos deben hacer al tratar de determinar los riesgos que enfrenta su entorno de nube: conocer toda su superficie. Al igual que comprender su superficie de ataque, comprender la superficie de su nube significa saber cosas como qué API se ejecutan y dónde, qué servicios administra qué proveedor, dónde se encuentran los servidores, qué lenguajes de programación se utilizan y cualquier otra cosa que pueda poner en peligro su tiempo de actividad.

El consejo habitual para mejorar la postura de seguridad también se aplica a la nube, dijo Leach. Ejecute simulacros para simular interrupciones, realice un inventario total de todo en su entorno de nube y, de lo contrario, cree un mapa para que pueda identificar con precisión y responder instantáneamente a lo inevitable, porque al final del día, las interrupciones son solo eso: Como inevitables como una llanta pinchada, un parabrisas astillado u otro desastre inesperado.

Ver también