#дочитать про latency: http://bravenewgeek.com/everything-you-know-about-latency-is-... (ссылку давал также @ayoshi, но моя — из внутренней тех-рассылки лавки);
The Tail at Scale: Achieving Rapid Response Times in Large Online Services (Dean) - RICON West 2013 https://www.youtube.com/watch?v=C_PxVdQmfpk ‎- псы в рапиде
http://arxiv.org/abs/1504.02578 "Blade: A Data Center Garbage Collector" ‎- псы в рапиде
Крутая у вас техрассылка, я посмотрю. буду читать про blade ‎- big data in petite analysts
@squadette небольшой тест и тренировка для меня: до того как я начну читать про блэйд: скажи правильно ли я предполагаю из названия: идея будет в том чтобы координировать latency ресурсов координируя обработку консьюмеров во время сборки мусора? ‎- big data in petite analysts
не совсем, идея считать gc паузы фейлами, и соот-но выкидывать сервис из балансера/обрабатывать фейл, как другой фейл, если твоя система умеет это делать. а чтобы не делать это часто — откладывать gc, пока не припрёт. пункт 7 про related work хороший. ‎- адский хардлайн в засаде
есть мысль, что балансировщику совершенно не надо явно знать про gc, чтобы на него реагировать ‎- смешная третья опция
Что-то этот bravenewgeek, кмк, пишет про percentiles какую-то ерунду. «The 99th percentile, by definition, is the latency below which 99% of the observations may be found.» — ну, да. «With the exception of google.com, every page has a probability of 50% or higher of seeing the 99th percentile» — what? Противоречит определению из предыдущей цитаты, кмк. «a typical user session involves five page loads, averaging 40 resources per page. How many users will not experience something worse than the 95th percentile?» — тут как-то нечувствительно упускается момент, что из 40 ресурсов, скажем, 37 грузятся из CDN в виде статики, а 3 генерятся динамически, с как минимум совершенно другим профилем latency, чем у CDN. Про coordinated omission вроде разумно пишет, отличный пример с торможением сервиса после 100 секунд с 1ms latency работы на 100 секунд по ctrl+Z. Но и тут у него внезапно 75%-ile получаетя 50 секунд. Хотя, разумеется, после 50% 1-мс отсчёты кончились, и 51%-ile и все последуюшие, кмк, по определению 100+ секунд. Он, видимо, как-то хочет показать влияние averaging, но не особо успешно, кмк. ЧЯДНТ? ‎- 9000
@larhat спасибо! не, я угадал правильно. под координацией я имел ввиду передачу обработки на время gc другому обработчику. фэйл это implementation detail, есть еще способ сделать то же самое без фэйла, скоординировав нагрузку, просто уменьшив количество консьюмеров во время gc и скоординировав балансировку по latency. теперь пойду читать ‎- big data in petite analysts
@ayoshi ну да, "координация" такое слово, объёмное :) в пункте 7, среди аналогов упоминается Trash Day, которые, как я понял, больше про шедулинг. ‎- адский хардлайн в засаде
@larhat в кластерах с миллионами джобов используется похожий принцип: сборка артефактов предваряется вытаскиванием ресурса из планировщика ( так кажется он по русски называется? ), или уменьшением количества джобов на нод, для коррекции задержек. ‎- big data in petite analysts