Перейти к материалам

Сбой в облачном сервисе Amazon произошел из-за человеческой ошибки

Источник: Amazon

Причиной сбоя в облачном сервисе Amazon, из-за которого несколько крупных сайтов были временно недоступны или работали с перебоями, стала человеческая ошибка. Об этом говорится в заявлении, опубликованном Amazon.

28 февраля при отладке биллинговой программы в Simple Storage Service (S3), сообщил Amazon, «произошла ошибка при вводе параметров одной из команд».

В результате оказалось отключено значительно больше серверов, чем планировалось. Эти же серверы обслуживали еще две системы, для восстановления работы которых впервые за много лет потребовалась перезагрузка. Полная перезагрузка этих систем, как выяснилось, занимает значительно больше времени, чем предполагалось, сообщил Amazon.

В связи с произошедшим компания, говорится в заявлении Amazon, приняла ряд мер, направленных на предотвращения подобных инцидентов впредь.

Так, инженеры теперь смогут отключать серверы лишь маленькими группами и постепенно. Кроме того, добавлена защита от выключения большего количества серверов, чем необходимо для работы системы. Также начата работа над ускорением времени перезапуска систем, сообщили в Amazon.

В заключение мы хотим принести извинения за любые последствия произошедшего для наших клиентов (англ.яз.).

Amazon

Из-за сбоя в облачном сервисе Amazon возникли перебои в работе менеджера задач Trello, сервиса вопросов Quora, платформы Coursera и ряда других сайтов.