Дорогие друзья, в свете недавно произошедшего в соседней деревне инцидента меня попросили озвучить ситуацию в Мокуме. 0) Бэкапная стратегия Мокума заточена под случай полной потери обоих серверов в Хецнере по любой причине: в результате человеческой ошибки, проблем с железом или проблемами с эккаунтом у провайдера. Две главные вещи — основная база и картинки.
1) Основная база дампится раз в час и целиком заливается на S3. Инкрементальные бэкапы не используются для простоты восстановления. Бэкапы хранятся по схеме, используемой в Apple TimeMachine: 36 последних часовых бэкапа + 14 последних дневных бэкапов + 10 последних декадных бэкапов + 12 последних месячных бэкапов. ‎- псы в рапиде
2) Скрипт, удаляющий ненужные бэкапы, содержит в себе fail-safe механизм, который прекращает удаление, если останется меньше чем нужное число файлов. Это защищает от проблем типа "на сервере убежало время". Скрипт удаления работает на отдельной машине (не находящейся ни в Хецнере, ни в Амазоне) и запускается руками под присмотром раз в пару дней. ‎- псы в рапиде
3) Картинки копируются на S3 практически сразу после загрузки и экспайрятся с большим grace-period после удаления собственно поста. ‎- псы в рапиде
4) восстановление основной базы из бэкапов проверялось на отдельном инстансе и прошло успешно. полноценные учения по восстановлению Мокума с нуля на отдельном инстансе планируются. ‎- псы в рапиде
5) после инцидента (конкретно охолонувшись, по правде говоря) мы с Сашей ведем многочисленные обсуждения этого вопроса и планируем в течение лета внедрить много вещей, увеличивающих долговременную надежность бэкапов. также мы собираемся провести коллегиальный аудит нашей схемы силами участников Mokum Steering Committee. ‎- псы в рапиде
6) практики разработки и devops-внедрения Мокума всегда проектируются так, чтобы совершать минимальное количество необратимых операций (ценой дополнительных трудо- и финансовых затрат). Если вы вспомните наши переезды между провайдерами, доменами, а также недавнее расщепление БД — кажется, эта стратегия дает плоды в виде минимальных плановых даунтаймов. ‎- псы в рапиде
7) ошибки и нештатные ситуации в любой системе неминуемы, единственная разумная возможность — это снижение рисков. вероятность проблем принципиально не может быть равна нулю. Я надеюсь, что сверхнештатные ситуации нас не коснутся. Мы сочувствуем коллегам, оказавшимся в очень стрессовой ситуации. ‎- псы в рапиде
Вопросы, пожелания, предложения? Пользуясь случаем, хочу в очередной раз выразить глубокую благодарность @haron за полное совпадение подходов к поддержке сервиса. ‎- псы в рапиде
громким голосом с реверберацией GOD LIKE!! ‎- secondary psychopathy

2015-2016 Mokum.place