alf
А вот кстати скажите, можно же взять какой-нибудь приличный корпус русских текстов, нарезать из него словарь со словоформами, и вкатать все это в чертовы автокорректоры?
И ведь наверняка кто-то уже сделал? ‎- alf
нарезать, наверно, можно, но после этого нужно еще придумать, как порождать гипотезы возможных исправлений для каждого слова и принимать решение, что какая-то из гипотез верная. ‎- newtover
Ну я вот и не хочу нырять в форматы словарей раньше чем уберусь (автокоррект, сука!) что никто еще не приготовил все полагающиеся блюдечки и каемочки. Так-то модель языка строить не то чтобы кошмарно сложно, и раз уж словари есть, и даже предлагают _следующее_ слово, то какая-то модель в них явно хранится — и, мне кажется, описание этой модели продиктует примерно все, что надо сделать с корпусом. ‎- alf
Языковые модели по корпусу собирать тривиально, есть несколько открытых софтин. Но модель только поможет проверить, что гипотеза в данном контексте лучше исходного слова, а вот готового декодера для исправления опечаток, я что-то не могу вспомнить. Хотя нет, есть https://ru.wikipedia.org/wiki/GNU_Aspell. ‎- newtover