Search took 0.49 seconds

Search for '#гюльчатайоткрой' in texts

Avatar for zverok
Recap: есть задача «получить название региона страны по названию населённого пункта» для стран: Украина, Россия, Беларусь, Казахстан. (Названия нас.пункта могут быть на русском или национальном языке, [UPD: или транслитом, или ....], название региона надо на русском) #гюльчатайоткрой
Comment
Россия: берём официальный КЛАДР, парсим, ломаем, ломаем, парсим, вытаскиваем из Википедии названия федеральных округов (которые как бы есть, но их как бы нет — на всех «красивых» картах/фильтрах их используют, а официально таких сущностей как бы нету, в КЛАДР они не учтены) и voila: https://github.com/zverok/ruadm ‎· в сгущающейся тьме
Comment
...продолжим-с! На больших массивах данных возникает проблема с одноимёнными населёнными пунктами (в разных странах). И ладно бы какая-нибудь «Карповка», её можно брать случайную (или сделать настройку «если неизвестно, то это скорее всего Россия»), но ведь и Донецк и Полтава существуют во всех трёх странах! В рамках одной страны я неоднозначности разрешал через «уровень населённого пункта» (в КЛАДР и его аналогах есть такое понятие), но вот как между странами сопоставить... Вручную не вариант — больше 3 тысяч совпадений. Сейчас попробуем подключить ещё и украинский КЛАДР и добавить в этот самолёт ещё одну детальку, с «каноническим уровнем». Фффффффф. ‎· в сгущающейся тьме
Avatar for zverok
СЯУ, что Этимологический словарь украинского языка свободно доступен на сайте Института языковедения, который его и составляет. В виде 7 огромных djvu-файлов со сканами. И больше в цифровой форме недоступен нигде и никак. #гюльчатайоткрой
Comment
Так сделай OCR и сведи! И предложи им ‎· ay4
Comment
«я словно лист на ветру! смотри как я парю»?.. ‎· в сгущающейся тьме
Avatar for zverok
Про открытые данные, и про культуру разработки. Вот это — пафосно перезапущенный Сайт Открытых Данных Украины: http://data.gov.ua/ #гюльчатайоткрой
Comment
Вот это — пример датасета: http://data.gov.ua/passport/85f654c4-506a-497e-b80d-8879425e8f9c (все почтовые индексы Украины). Он может выглядеть как файл CSV (в данном случае), XLSX или DOCX. XLSX чаще всего, и он естественно не подходит для машинной обработки (потому что помимо собственно данных имеет Огромный Красивый Заголовок с печатями, подписями, и прочим). Зато! У сайта есть API! Ура. Выглядит, для данного датасета, так: http://data.gov.ua/view-dataset/dataset-file/602 ‎· в сгущающейся тьме
Comment
По-моему, это великолепно. ‎· в сгущающейся тьме
Comment
Насколько я помню, это примерно третий рррредизайн этого сайта за последние 2 года. Ведь где-то был в лучшем случае волонтёр, а в худшем — человек на зарплате (а вероятно и не один), которые выдрачивали эти иконочки, доступность с мобильного (с телефона тоже выглядит прекрасно), полупрозначность, выплывание слоёв... Где-то был руководитель IT-отдела, который этим руководил... Потрачено явно дофига человеко-часов. ‎· в сгущающейся тьме
Comment
Одно забыли сделать (почему-то): сделать данные открытыми и доступными. Качай, дорогой Разработчик на Благо Державы, грязный XLS-отчёт, переданный нам секретаршей. ‎· в сгущающейся тьме
Avatar for zverok
К разговору о гос.языках: в официальном классификаторе Объектов Административного Устройства Украины (КОАТУУ, наш аналог вашего КЛАДР) названия только на украинском. На (многоязычном) сайте УкрПошты, справочник по индексам населённых пунктов — только на украинском. Ну я хз. #гюльчатайоткрой
Comment
(надо ли уточнять, что официальный КОАТУУ а) недоступен по половине ссылок; б) если таки найти по какой ссылке доступен — там zip [раньше был rar, почему и недоступен по старым ссылкам даже с сайта УкрСтата], в котором DBF и XLS; в) данные в DBF в кодировке CP866U, которую хрен чем прочитаешь, поэтому приходится читать как CP866, а затем заменять буквы) ‎· в сгущающейся тьме
Comment
И Черновцы с аглийской «о» всерёдке. Чтобы уж добить чортовых любителей открытых данных. ‎· в сгущающейся тьме
Avatar for zverok
Wow. Команда по документированию государства: https://www.facebook.com/dubilet/posts/10153939166293552 #гюльчатайоткрой
Comment
Это охуенно чуть более чем охуенно. ‎· в сгущающейся тьме
Comment
Не смог дочитать до конца:( ‎· лолерантность
Comment
эээ почему?.. ‎· в сгущающейся тьме
Comment
attention span как у аквариумной рыбки:( ‎· лолерантность
Avatar for zverok
Хочешь, чтобы что-то было сделано хорошо — сделай это сам: https://github.com/zverok/ruadm #гюльчатайоткрой
Comment
И ВСЕГДА ТАК ДЕЛАЮ. ‎· в сгущающейся тьме
Comment
(угадайте, перед какой этической дилеммой я встал в процессе создания этого! угадайте, как я её решил!) ‎· в сгущающейся тьме
Comment
а ты не хочешь сделать дисклеймер по этому этическому решению прямо в реадми, чтобы не было сюрприза для российских ребят, которые воспользуются и удивятся? ‎· машина ошибок
Comment
человеческими словами <3 ‎· пингвинишко
Comment
@random думал об этом, но решил оставить так. Кто воспользуется по делу — заметит и сам пусть думает. А кто будет мимо проходить — будет иметь меньше возможности возбудиться на дисклеймер и захотеть Пообщаться с автором. ‎· в сгущающейся тьме
Avatar for zverok
Кххх. Понадобилась база ФИАС (адреса России) — а она лежит. Вся. 404 или ошибки сервера на любую попытку скачать: https://fias.nalog.ru/Updates.aspx. Ну охуеть теперь. #гюльчатайоткрой
Comment
СЯУ, что за вопросом «в каком федеральном округе находится Москва, Самара, Пенза, Красноярск, ......» должен следовать вопрос «а какая из пяти населённых пунктов под названием Москва, Самара, Пенза....» вас интересует?.. ‎· в сгущающейся тьме
Avatar for zverok
Зайчики, современная Open Data это пиздец, вот что. «You want to know something? We are still in the Dark Ages. The Dark Ages--they haven't ended yet». Куда не глянешь — все ужасно суетятся, евангелируют, читают доклады и пишут эссеи, а ДАННЫХ-ТО БЛЯДЬ И НЕТУ НИ ХУЯ. #гюльчатайоткрой
Comment
Какова площадь Украины? Какая таймзона в Чианг Мае? Нарисуйте многоугольник, изображающий остров Бали. Быстро! Шпаргалку закрыли! Руки на стол! Время пошло! ‎· в сгущающейся тьме
Comment
«пойду всё исправлю», короче. ‎· в сгущающейся тьме
Avatar for zverok
Слушайте, товарищи. А как так получилось, что после закрытия ЯППБ старые ЖЖ-записи больше не находятся ни в Гугле, ни в большом Яндексе, а? А? #гюльчатайоткрой
Comment
я тоже этого не понимаю. Вообще конечно удивительное содержимое: http://squadette.livejournal.com/robots.txt ‎· псы в рапиде
Comment
^^ нет, я занимаюсь. Просто большие файлы и закачка медленная. ‎· tobe
1 2 3 4 5 6 7 8 9 10