Un "error de dedo" fue lo que causó la caída de medio Internet

Tal vez no todos los usuarios en Internet se habrán dado cuenta pero el martes 28 de febrero muchos sitios importantes cesaron de funcionar a medio día, esto debido a una falla en los servidores de la plataforma S3 de Amazon Web Services que alojan varias páginas y sitios de imágenes importantes.

whentheinternetisdowno287105-7f338c16dead480fcf625d9db47a96bd.gif

Entre los afectados se encontraban los sitios de Quora, Trello, la Comisión de Valores y Bolsa de los Estados Unidos (SEC), Airbnb, Pinterest, Giphy y algunas plataformas de videojuegos en línea; pero volvieron a la normalidad después de casi 4 horas.

El problema fue causado por un simple “error de dedo” reportó la compañía en un comunicado lanzado este jueves. Al parecer algunos miembros del equipo que mantiene S3 estaban depurando el sistema de facturación, por lo que necesitaban interrumpir el funcionamiento de unos cuantos servidores.

f9cd0abc7d7fac5d0a4ee94c828c14936e4f4686be7f9ffe32c291791fc6ff491-e30458053b256259fc5468fe9f9c55b8.gif

Desgraciadamente para muchas personas que trabajan con los servicios de Amazon, uno de los comandos ingresados tenía un error, causando que inadvertidamente interrumpieron una cantidad más grande de servidores, los cuales daban soporte a dos subsistemas del S3.

De acuerdo al comunicado, el reiniciar todo el sistema fue lo que tomó más tiempo:

“S3 ha experimentado un crecimiento masivo en los últimos años y el proceso de reiniciar estos servicios y ejecutar los controles de seguridad necesarios para validar la integridad de los metadatos llevó más tiempo de lo esperado,” explicó la compañía.

tumblrmzncp3nyxh1syplf0o1250-0257e3371d4ea262a6b4c28432408ae4.gif

Como medidas precautorias, de ahora en adelante los ingenieros no podrán este tipo de maniobras en el S3 si afecta el funcionamiento de ciertos subsistemas, además, harán los cambios suficientes en la estructura del sistema para permitir que se restaure con más rapidez.