Недавняя недоступность сервисов облачной службы Amazon на 24 часа, породила множество мнений и статей на эту проблему. Оказалось, что облака тоже падают. Тем острее становится вопрос не столько сделать сервис надежнее, но и что делать в непредвиденном случае.

Heroku рассказывает свою историю о том, как они справились с отказами на Amazon. Принимая на себя 100% ответственности за простои перед своими клиентами, они в то же время делятся рядом стратегий, которые  использовали, чтобы восстановить свои сервисы до полного рабочего состояния. Одна из самых интересных стратегий Heroku вовсе не была технической изюминкой, а заключалась в том, как они продуманно развертывали свой операционный персонал в ответ на чрезвычайную ситуацию. Какова их стратегия ?

Continue reading