Recap: есть задача «получить название региона страны по названию населённого пункта» для стран: Украина, Россия, Беларусь, Казахстан. (Названия нас.пункта могут быть на русском или национальном языке, [UPD: или транслитом, или ....], название региона надо на русском) #гюльчатайоткрой
Россия: берём официальный КЛАДР, парсим, ломаем, ломаем, парсим, вытаскиваем из Википедии названия федеральных округов (которые как бы есть, но их как бы нет — на всех «красивых» картах/фильтрах их используют, а официально таких сущностей как бы нету, в КЛАДР они не учтены) и voila: https://github.com/zverok/ruadm ‎- новомодная имитация мышления
Казахстан: КАТО Казахстана (их КЛАДР) доступен с первого тычка в Гугл, правда выложен в виде XLS-файлов, зато прекрасной структуры (лучше чем DBF-ы российского КЛАДРа), на 10 минут работы. При этом в КАТО сразу есть казахский и русский вариант, но надо добавить казахско-русский вручную (в смысле, названия, которые пользователи пишут в казахском варианте, но без казахской диакритики) ‎- новомодная имитация мышления
Украина: https://mokum.place/zverok/275223 (КОАТУУ тяжело найти, названия в нём только на украинском и УЖАСНЫМ КАПСОМ, берём офиц.базу УкрПошты, и при помощи молотка и такой-то матери получаем искомое; часть топонимов всё равно распознаваться не будут) ‎- новомодная имитация мышления
Беларусь: СОАТО (их вариант КЛАДР) доступен официально на сайте налоговой. За 1,5млн бел.рублей ($70). Notbad.jpg ‎- новомодная имитация мышления
(ещё интересно, до чего ценность данных людям неочевидна: датасеты «как бы все города страны X» лежат повсюду, без всяких указаний откуда взялось, насколько актуально, кому принадлежит и т.д. 1С-ники ими обмениваются ещё регулярно в безумных форматах) ‎- новомодная имитация мышления
Ну и конечно получается Прекрасная Полезная Штука (быстрая угадывалка страны+региона некоторых стран по всему массиву хуйни, которую вводят пользователи различных соц.сетей в профайлы), и её бы в опенсорс... Да блядь опять возникает так сказать геополитическая дилемма. ‎- новомодная имитация мышления
...продолжим-с! На больших массивах данных возникает проблема с одноимёнными населёнными пунктами (в разных странах). И ладно бы какая-нибудь «Карповка», её можно брать случайную (или сделать настройку «если неизвестно, то это скорее всего Россия»), но ведь и Донецк и Полтава существуют во всех трёх странах! В рамках одной страны я неоднозначности разрешал через «уровень населённого пункта» (в КЛАДР и его аналогах есть такое понятие), но вот как между странами сопоставить... Вручную не вариант — больше 3 тысяч совпадений. Сейчас попробуем подключить ещё и украинский КЛАДР и добавить в этот самолёт ещё одну детальку, с «каноническим уровнем». Фффффффф. ‎- новомодная имитация мышления