alf
Коллеги, а кто что использует для домашнего кластера "на поиграть"?
В каком смысле кластера? (У нас стоят все иксбоксы и ви-ю, плюс иногда Маша гоняет на игровом лаптопе.) ‎- Юдж
Ну я вот лениво думаю о кластере из семи NUC, но возникает вопрос, не проще ли AWS расчехлить. Но сетевые карточки... ‎- alf
А, в этом смысле кластера. У меня товарищ купил четыре старых миника и был ими доволен, но он занимался какой-то метеорологией, не факт что тебе зайдёт. ‎- Юдж
В этом смысле поиграть. :-) ‎- pgms
Так смотря что хочется, наверное? В авс могут быть проблемы с latency, да и всем остальным, но если на "поиграть" может быть проще всего остального, ‎- адский хардлайн в засаде
В AWS нет собственно машины и собственно сети, так что да, есть пара проблем :) ‎- alf
В конторе я видел чей-то самодельный кластер из 4 Raspberry Pi (orange вдвое дешевле), ещё раньше видел кластер из via itx. Ну и можно virtualbox-ов запустить и прибить по одному на ядро, теоретически. ‎- 9000
Малинка жутко, жутко тормозная. То есть для экспериментов c распределенными алгоритмами вроде бы и ок, но вот этот песочек в подшипниках быстро убивает всё дело. Старые Mac Mini пока выглядят дороже чем более мощные Intel NUC, новые макмини стоят как самолётик. Parallella? ‎- alf
Плюнуть на всё и пройти наконец TIS-100! ‎- alf
Я поднимаю вагрантом несколько виртуалок, прямо на маке. Летает самолетом, поднимается за минуту ‎- big data in petite analysts
@alf: так поиграть (поотлаживать что-то существенно распределённое, где всё на RPC) или перформанс? во втором случае старая серверная плата с парой xeon-ов (16 ядер) непобедима, кмк, по соотношению цена/производительность. ‎- 9000
Сложно сказать. Поиграть, в качестве побочной цели — понять ограничения. Вот скажем в текущем проекте мы, кажется, уперлись в сеть. Как понять что такое "уперлись в сеть"? Какая загрузка сети, эм, "разумна"? Что смешно, кстати, формально я как раз без одной подписи выпускник по специальности "вычислительные комплексы, системы и сети" — а не знаю про них примерно ничего. ‎- alf
А что значит «кажется»? Вам бы мониторинг вменяемый, батенька. ‎- middle out-of-sight
А стоечные ксеоны и правда стоят копейки... Хм. ‎- alf
^^ TCP retransmits goes up, TCP Packet loss is non-zero, eth0 rx/tx flattens out suspiciously close to 1Gb. ‎- alf
Ну то есть я знаю б-м как эту фигню лечить, и с ней разберусь, но в AWS это не повторишь, потому что сравнивать виртуалку и железку достаточно бессмысленно (или нет? блин, плохо быть идиотом). С другой стороны, я за то джавку и люблю что единороги и бабочки, и в общем при первой же возможности убегу от этого ужасного реального мира, так что видимо начну с VirtualBox, следом AWS, ну а если уж припрет — то либо NUC, либо подержанные деллы (они наверняка электричество жрут как не в себя). ‎- alf
^^ нужно отлаживать интерфейсы, но в принципе направление понятно: кабель —> свитч падающий в хаб мод —> драйвер карточки —> affinity / irqbalance —> сами карточки. советую прогнать netperf чтобы проверить troughput без аппликации, тогда будет понятнее ‎- big data in petite analysts
Просто вдруг есть условный фидорулез (tm), про который я не в курсе. Вот про ксеоны например я забыл напрочь. ‎- alf
^^ это если ты не автор драйвера. тогда все по другому немного ‎- big data in petite analysts
пару часов назад посмотрел https://www.youtube.com/watch?v=Fq97BvwoJbU, в котором чувак предлагает не ебать мозги с построением тестовых сред сложных и больших, а мерять (и тюнить) на основной системе. ‎- адский хардлайн в засаде
^ для этого случая вообще достаточно простого netperf'a и коммандной строки скорее всего, прямо на серверах ‎- big data in petite analysts
если нужна помощь, я на таком пару собак съел. если там не под НДА, то могу помочь прямо из вебекса ‎- big data in petite analysts
ну я подозреваю что мы и правда просто гадим в сеть, очень много гадим. Ресурс конечный, вот и ---. А дальше все равно надо либо на тестовой системе либо на бумажке прикидывать как гадить на порядок меньше. Бумажка лучше, но тестовая система лампочками мигает, вот это все. ‎- alf
^^ спасибо огромное, если там затянется и дойдет до того что над таки пустят достаточно близко к собственно железу — я попробую воспользоваться. Но NDA, background checks, все как в лучших домах. ‎- alf
^ сейчас сложно нагадить в сеть, если такое происходит на современных свитчах, то скорее всего между частями сервиса есть линк между свитчами. у последних моделей 10г невъебенный бэкплэйн, его очень непросто забить. или есть loop между портами. если у вас Cisco Nexus большой, то еще может быть случай с багом и неправильной конфигурацией trunk портов ‎- big data in petite analysts
О, слушай, ты же наверняка с одной загадки ответишь: у нас почему-то иногда ретрансмиты на loopback interface. КАК?! ‎- alf
Там два по 1G в бонде (чтобы я толком понимал, что такое бонд...) ‎- alf
бонд это несколько линков, которые видны как один, но с оговорками. одна из таких оговорок, что одна TCP сессия не разбивается на два линка. вторая, что алгоритм хэширования может приводит к неравной загрузке. можно проверить где то в /proc/net/bonding кажется, или в /sys/class/... bond0 (я не помню точно, но думаю найдешь.) если циферки отличаются порядком, то есть проблема балансировки. если протокол типа NFS, то он на бонды не раскладывается ‎- big data in petite analysts
если ретрансмиты на loopback, то проблема может быть сложнее: http://stackoverflow.com/questions/14093793/linux-tcp-weirdly... это уже нужно копать в коде немного ‎- big data in petite analysts
еще можно посмотреть что в sysctl, (tcp_early_retrans кажется) ‎- big data in petite analysts
О, спасибо огромное, я посмотрю, там как раз весь код таки под рукой... Пойду пока посплю. ‎- alf
А, еще может быть вот это включено TCP_NODELAY ‎- big data in petite analysts
А что с TCP_NODELAY? ‎- alf
^ сейчас поищу, что то было там ‎- big data in petite analysts
не нашел, посмотри пока вот это: https://access.redhat.com/sites/default/files/attachments/201... там все расписано детально, как дебажить и настраивать ‎- big data in petite analysts
Спасибо огромное! Ушел печатать и читать на ночь :) ‎- alf
про бонд надо было сразу говорить. Бонд - это не про performance, бонд это про resilience (Хотя продавать начальству надо как performance, конечно. Надёжность не продашь.). Если у вас бонд настроен по-людски - то есть LACP/PagP - то есть какой-то шанс получить больше гигабита, но он небольшой. Если "просто порты и мы воткнули и оно само" - то даже шанса нет. ‎- Кубинский щелезуб
@dma он стопроцентный, если соблюдаются условия обратные указанным выше оговоркам. чтобы не писать комментарии в стиле habrhabr, давайте допустим что парни в фирме @alf которые занимаются сетью знают что делают и пропустим этап опускания с целью создать раппорт. ‎- big data in petite analysts
@ayoshi чтобы "соблюдались условия обратные указанным выше" - надо весьма много трудиться. В частности, на ниве образования пользователей сети. Особенно тех, которые занимаются траблшутингом и подозревают, что где-то упираются в сеть. Опять же, я не скажу за всех и опыта у меня не так чтобы много - но как-то ни разу не видел, чтобы оба плеча бонда равномерно загружались какое-то заметное время. Допускаю, что у меня не хватало эээ компетенции объяснить людям, как им жить. ‎- Кубинский щелезуб
^ согласен, там есть пара трудных вещей — серии вопросов про LACP одни из моих любимых на интервью по сетевой части. самый частый казалось бы потенциальный юзкейс (подключить NFS storage аггрегатом к какому нибудь одному серверу который тоже подключен аггрегатом) как раз не срабатывает, из за особенностей протокола (RPC, одна основная TCP сессия). но в остальном равномерное распределение происходит если число TCP сессий достаточно велико и распределение траффика между ними равномерно. то есть количественно они распределяются правильно почти всегда (на больших числах) но вот нагрузка между ними не распределяется вообще. то есть если на 100 сессий у одной большой throughput, то все всё равно распределяются механически 50/50, и те что упали на ту же самую карточку будут ее делить с этой самой мегасессией, в то время как остальные будут вольно резвиться на пустом втором линке. ‎- big data in petite analysts
там всё проще, fault tolerance mode, одна карточка простаивает. Впрочем, источник проблем явно не там... ‎- alf
^ @ayoshi ахаха я угадал. @alf ну вот да, пытайтесь ужиматься. про TCP_NODELAY там дельный совет, кстати - у вас может быть много мелких пакетов и TCP_NODELAY, и тогда огромное количество bpsов просто проёбывается зря. ‎- Кубинский щелезуб