Recap: есть задача «получить название региона страны по названию населённого пункта» для стран: Украина, Россия, Беларусь, Казахстан. (Названия нас.пункта могут быть на русском или национальном языке, [UPD: или транслитом, или ....], название региона надо на русском) #гюльчатайоткрой
Россия: берём официальный КЛАДР, парсим, ломаем, ломаем, парсим, вытаскиваем из Википедии названия федеральных округов (которые как бы есть, но их как бы нет — на всех «красивых» картах/фильтрах их используют, а официально таких сущностей как бы нету, в КЛАДР они не учтены) и voila: https://github.com/zverok/ruadm ‎· вот под крыльями кончится лёд
...продолжим-с! На больших массивах данных возникает проблема с одноимёнными населёнными пунктами (в разных странах). И ладно бы какая-нибудь «Карповка», её можно брать случайную (или сделать настройку «если неизвестно, то это скорее всего Россия»), но ведь и Донецк и Полтава существуют во всех трёх странах! В рамках одной страны я неоднозначности разрешал через «уровень населённого пункта» (в КЛАДР и его аналогах есть такое понятие), но вот как между странами сопоставить... Вручную не вариант — больше 3 тысяч совпадений. Сейчас попробуем подключить ещё и украинский КЛАДР и добавить в этот самолёт ещё одну детальку, с «каноническим уровнем». Фффффффф. ‎· вот под крыльями кончится лёд
СЯУ, что Этимологический словарь украинского языка свободно доступен на сайте Института языковедения, который его и составляет. В виде 7 огромных djvu-файлов со сканами. И больше в цифровой форме недоступен нигде и никак. #гюльчатайоткрой
Так сделай OCR и сведи! И предложи им ‎· ay4
↑ «я словно лист на ветру! смотри как я парю»?.. ‎· вот под крыльями кончится лёд
Про открытые данные, и про культуру разработки. Вот это — пафосно перезапущенный Сайт Открытых Данных Украины: http://data.gov.ua/ #гюльчатайоткрой
Вот это — пример датасета: http://data.gov.ua/passport/85f654c4-506a-497e-b80d-8879425e8f9c (все почтовые индексы Украины). Он может выглядеть как файл CSV (в данном случае), XLSX или DOCX. XLSX чаще всего, и он естественно не подходит для машинной обработки (потому что помимо собственно данных имеет Огромный Красивый Заголовок с печатями, подписями, и прочим). Зато! У сайта есть API! Ура. Выглядит, для данного датасета, так: http://data.gov.ua/view-dataset/dataset-file/602 ‎· вот под крыльями кончится лёд
По-моему, это великолепно. ‎· вот под крыльями кончится лёд
Насколько я помню, это примерно третий рррредизайн этого сайта за последние 2 года. Ведь где-то был в лучшем случае волонтёр, а в худшем — человек на зарплате (а вероятно и не один), которые выдрачивали эти иконочки, доступность с мобильного (с телефона тоже выглядит прекрасно), полупрозначность, выплывание слоёв... Где-то был руководитель IT-отдела, который этим руководил... Потрачено явно дофига человеко-часов. ‎· вот под крыльями кончится лёд
Одно забыли сделать (почему-то): сделать данные открытыми и доступными. Качай, дорогой Разработчик на Благо Державы, грязный XLS-отчёт, переданный нам секретаршей. ‎· вот под крыльями кончится лёд
К разговору о гос.языках: в официальном классификаторе Объектов Административного Устройства Украины (КОАТУУ, наш аналог вашего КЛАДР) названия только на украинском. На (многоязычном) сайте УкрПошты, справочник по индексам населённых пунктов — только на украинском. Ну я хз. #гюльчатайоткрой
(надо ли уточнять, что официальный КОАТУУ а) недоступен по половине ссылок; б) если таки найти по какой ссылке доступен — там zip [раньше был rar, почему и недоступен по старым ссылкам даже с сайта УкрСтата], в котором DBF и XLS; в) данные в DBF в кодировке CP866U, которую хрен чем прочитаешь, поэтому приходится читать как CP866, а затем заменять буквы) ‎· вот под крыльями кончится лёд
И Черновцы с аглийской «о» всерёдке. Чтобы уж добить чортовых любителей открытых данных. ‎· вот под крыльями кончится лёд
Wow. Команда по документированию государства: https://www.facebook.com/dubilet/posts/10153939166293552 #гюльчатайоткрой
Это охуенно чуть более чем охуенно. ‎· вот под крыльями кончится лёд
Не смог дочитать до конца:( ‎· лёд под ногами майнёра
attention span как у аквариумной рыбки:( ‎· лёд под ногами майнёра
Хочешь, чтобы что-то было сделано хорошо — сделай это сам: https://github.com/zverok/ruadm #гюльчатайоткрой
И ВСЕГДА ТАК ДЕЛАЮ. ‎· вот под крыльями кончится лёд
(угадайте, перед какой этической дилеммой я встал в процессе создания этого! угадайте, как я её решил!) ‎· вот под крыльями кончится лёд
а ты не хочешь сделать дисклеймер по этому этическому решению прямо в реадми, чтобы не было сюрприза для российских ребят, которые воспользуются и удивятся? ‎· (pseudo)random fluctuations
человеческими словами <3 ‎· пингвинишко
@random думал об этом, но решил оставить так. Кто воспользуется по делу — заметит и сам пусть думает. А кто будет мимо проходить — будет иметь меньше возможности возбудиться на дисклеймер и захотеть Пообщаться с автором. ‎· вот под крыльями кончится лёд
Кххх. Понадобилась база ФИАС (адреса России) — а она лежит. Вся. 404 или ошибки сервера на любую попытку скачать: https://fias.nalog.ru/Updates.aspx. Ну охуеть теперь. #гюльчатайоткрой
СЯУ, что за вопросом «в каком федеральном округе находится Москва, Самара, Пенза, Красноярск, ......» должен следовать вопрос «а какая из пяти населённых пунктов под названием Москва, Самара, Пенза....» вас интересует?.. ‎· вот под крыльями кончится лёд
Зайчики, современная Open Data это пиздец, вот что. «You want to know something? We are still in the Dark Ages. The Dark Ages--they haven't ended yet». Куда не глянешь — все ужасно суетятся, евангелируют, читают доклады и пишут эссеи, а ДАННЫХ-ТО БЛЯДЬ И НЕТУ НИ ХУЯ. #гюльчатайоткрой
Какова площадь Украины? Какая таймзона в Чианг Мае? Нарисуйте многоугольник, изображающий остров Бали. Быстро! Шпаргалку закрыли! Руки на стол! Время пошло! ‎· вот под крыльями кончится лёд
«пойду всё исправлю», короче. ‎· вот под крыльями кончится лёд
Слушайте, товарищи. А как так получилось, что после закрытия ЯППБ старые ЖЖ-записи больше не находятся ни в Гугле, ни в большом Яндексе, а? А? #гюльчатайоткрой
я тоже этого не понимаю. Вообще конечно удивительное содержимое: http://squadette.livejournal.com/robots.txt ‎· псы в рапиде
^^ нет, я занимаюсь. Просто большие файлы и закачка медленная. ‎· tobe