А я вот никогда не сомневался в том, что хорошие админы всегда нужны, даже в эпоху paas, iaas, контейнеризации и прочих волшебных слов, которые якобы нас освобождают нас от необходимости их содержать. Потому что факапы неизбежны. Можно ввести десять тысяч разных процессов и сейфгардов, это вас не спасёт. Просто масштаб разрушений и хитрость факапа будет такой, что все скажут "ничего себе". Проиллюстрирую это вот таким кейсом из гугла: https://status.cloud.google.com/incident/compute/16007 Там было всё, и gradual rollout, и канарейка, но невозможное наложение нескольких багов не позволило предотвратить полное отключение GCE на двадцать минут. При этом надо понимать, это гугл, у них там наверняка высококлассная команда спецназа есть на такой случай, у простых смертных с большой вероятностью outage бы был куда дольше. Если нет хороших опсов, то можно уничтожить месяцы и годы накопленного репутационного веса за один катастрофический факап. И виноват будет не тот, кто этот факап устроил, а тот кто не озаботился устройством бэкапов. Короче, любите своих админов как самих себя. Нет, даже больше чем самих себя.
Кто-то добрый не поленился и собрал интересные пост-мортемы в кучу, спасибо ему: https://github.com/danluu/post-mortems ‎- mark