Recap: есть задача «получить название региона страны по названию населённого пункта» для стран: Украина, Россия, Беларусь, Казахстан. (Названия нас.пункта могут быть на русском или национальном языке, [UPD: или транслитом, или ....], название региона надо на русском) #гюльчатайоткрой
Россия: берём официальный КЛАДР, парсим, ломаем, ломаем, парсим, вытаскиваем из Википедии названия федеральных округов (которые как бы есть, но их как бы нет — на всех «красивых» картах/фильтрах их используют, а официально таких сущностей как бы нету, в КЛАДР они не учтены) и voila: https://github.com/zverok/ruadm ‎· (машет рукой)
...продолжим-с! На больших массивах данных возникает проблема с одноимёнными населёнными пунктами (в разных странах). И ладно бы какая-нибудь «Карповка», её можно брать случайную (или сделать настройку «если неизвестно, то это скорее всего Россия»), но ведь и Донецк и Полтава существуют во всех трёх странах! В рамках одной страны я неоднозначности разрешал через «уровень населённого пункта» (в КЛАДР и его аналогах есть такое понятие), но вот как между странами сопоставить... Вручную не вариант — больше 3 тысяч совпадений. Сейчас попробуем подключить ещё и украинский КЛАДР и добавить в этот самолёт ещё одну детальку, с «каноническим уровнем». Фффффффф. ‎· (машет рукой)
СЯУ, что Этимологический словарь украинского языка свободно доступен на сайте Института языковедения, который его и составляет. В виде 7 огромных djvu-файлов со сканами. И больше в цифровой форме недоступен нигде и никак. #гюльчатайоткрой
Так сделай OCR и сведи! И предложи им ‎· ay4
↑ «я словно лист на ветру! смотри как я парю»?.. ‎· (машет рукой)
Про открытые данные, и про культуру разработки. Вот это — пафосно перезапущенный Сайт Открытых Данных Украины: http://data.gov.ua/ #гюльчатайоткрой
Вот это — пример датасета: http://data.gov.ua/passport/85f654c4-506a-497e-b80d-8879425e8f9c (все почтовые индексы Украины). Он может выглядеть как файл CSV (в данном случае), XLSX или DOCX. XLSX чаще всего, и он естественно не подходит для машинной обработки (потому что помимо собственно данных имеет Огромный Красивый Заголовок с печатями, подписями, и прочим). Зато! У сайта есть API! Ура. Выглядит, для данного датасета, так: http://data.gov.ua/view-dataset/dataset-file/602 ‎· (машет рукой)
По-моему, это великолепно. ‎· (машет рукой)
Насколько я помню, это примерно третий рррредизайн этого сайта за последние 2 года. Ведь где-то был в лучшем случае волонтёр, а в худшем — человек на зарплате (а вероятно и не один), которые выдрачивали эти иконочки, доступность с мобильного (с телефона тоже выглядит прекрасно), полупрозначность, выплывание слоёв... Где-то был руководитель IT-отдела, который этим руководил... Потрачено явно дофига человеко-часов. ‎· (машет рукой)
Одно забыли сделать (почему-то): сделать данные открытыми и доступными. Качай, дорогой Разработчик на Благо Державы, грязный XLS-отчёт, переданный нам секретаршей. ‎· (машет рукой)
К разговору о гос.языках: в официальном классификаторе Объектов Административного Устройства Украины (КОАТУУ, наш аналог вашего КЛАДР) названия только на украинском. На (многоязычном) сайте УкрПошты, справочник по индексам населённых пунктов — только на украинском. Ну я хз. #гюльчатайоткрой
(надо ли уточнять, что официальный КОАТУУ а) недоступен по половине ссылок; б) если таки найти по какой ссылке доступен — там zip [раньше был rar, почему и недоступен по старым ссылкам даже с сайта УкрСтата], в котором DBF и XLS; в) данные в DBF в кодировке CP866U, которую хрен чем прочитаешь, поэтому приходится читать как CP866, а затем заменять буквы) ‎· (машет рукой)
И Черновцы с аглийской «о» всерёдке. Чтобы уж добить чортовых любителей открытых данных. ‎· (машет рукой)
Wow. Команда по документированию государства: https://www.facebook.com/dubilet/posts/10153939166293552 #гюльчатайоткрой
Это охуенно чуть более чем охуенно. ‎· (машет рукой)
Не смог дочитать до конца:( ‎· rat race condition
эээ почему?.. ‎· (машет рукой)
attention span как у аквариумной рыбки:( ‎· rat race condition
Хочешь, чтобы что-то было сделано хорошо — сделай это сам: https://github.com/zverok/ruadm #гюльчатайоткрой
И ВСЕГДА ТАК ДЕЛАЮ. ‎· (машет рукой)
(угадайте, перед какой этической дилеммой я встал в процессе создания этого! угадайте, как я её решил!) ‎· (машет рукой)
а ты не хочешь сделать дисклеймер по этому этическому решению прямо в реадми, чтобы не было сюрприза для российских ребят, которые воспользуются и удивятся? ‎· высылык
человеческими словами <3 ‎· пингвинишко
@random думал об этом, но решил оставить так. Кто воспользуется по делу — заметит и сам пусть думает. А кто будет мимо проходить — будет иметь меньше возможности возбудиться на дисклеймер и захотеть Пообщаться с автором. ‎· (машет рукой)
Кххх. Понадобилась база ФИАС (адреса России) — а она лежит. Вся. 404 или ошибки сервера на любую попытку скачать: https://fias.nalog.ru/Updates.aspx. Ну охуеть теперь. #гюльчатайоткрой
СЯУ, что за вопросом «в каком федеральном округе находится Москва, Самара, Пенза, Красноярск, ......» должен следовать вопрос «а какая из пяти населённых пунктов под названием Москва, Самара, Пенза....» вас интересует?.. ‎· (машет рукой)
Зайчики, современная Open Data это пиздец, вот что. «You want to know something? We are still in the Dark Ages. The Dark Ages--they haven't ended yet». Куда не глянешь — все ужасно суетятся, евангелируют, читают доклады и пишут эссеи, а ДАННЫХ-ТО БЛЯДЬ И НЕТУ НИ ХУЯ. #гюльчатайоткрой
Какова площадь Украины? Какая таймзона в Чианг Мае? Нарисуйте многоугольник, изображающий остров Бали. Быстро! Шпаргалку закрыли! Руки на стол! Время пошло! ‎· (машет рукой)
«пойду всё исправлю», короче. ‎· (машет рукой)
Слушайте, товарищи. А как так получилось, что после закрытия ЯППБ старые ЖЖ-записи больше не находятся ни в Гугле, ни в большом Яндексе, а? А? #гюльчатайоткрой
я тоже этого не понимаю. Вообще конечно удивительное содержимое: http://squadette.livejournal.com/robots.txt ‎· псы в рапиде
^^ нет, я занимаюсь. Просто большие файлы и закачка медленная. ‎· tobe