Falha da Amazon teve como origem erro num comando
Recentemente a Amazon passou por um dos mais longos períodos de indisponibilidade, onde vários dos seus serviços enfrentaram problemas durante várias horas. E dias depois, a empresa revela agora as causas da falha.
De acordo com o comunicado da empresa, o problema ocorreu devido a um erro humano, mais concretamente a um erro na escrita de um comando. Um dos funcionários da empresa encontrava-se a realizar uma manutenção de rotina, mas terá introduzido incorrectamente um comando que teria como objetivo desligar uma “pequena parte de servidores”. Invés disso, foi introduzido um comando que desligou centenas de servidores, incluindo alguns críticos para o funcionamento da plataforma S3 e que, consequentemente, levaram à inacessibilidade de ainda mais servidores.
A piorar a situação, vários dos servidores não tinham sido reiniciados totalmente em anos, pelo que o processo levou mais tempo do que o esperado a ser realizado.
Resumindo: um erro na introdução de um comando levou a uma cascata de eventos que, em consequência, levaram à inacessibilidade de milhares de servidores. E a Amazon não estaria preparada para o tempo necessário da recuperação de todos os serviços afetados.
A empresa garante ainda que foram implementadas medidas que previnem situações similares de acontecerem no futuro, nomeadamente com a limitação do número de servidores que poderão ser desligados voluntariamente.