исправляющие одно слово орфографические ошибки (как без слов & реального слова ошибки) легко:Multiple слово коррекции орфографии
P(w|c) P(c)
Где w
это неправильно написано слово и c
является кандидатом мы пытаемся так что кандидат является токеном одного слова.
Но в Google, когда вы вводите что-то вроде spelligncheck
, оно корректирует слово на два разных слова. Теперь, P(w|c)
здесь легко, если я использую расстояние levenshtein. Но это означает, что я больше не могу иметь одного слова (одного токена, скорее). Таким образом, это увеличит размер моего словаря экспоненциально.
Кроме того, когда я вхожу app le
Google исправляет его apple
...
Так что это лучший способ сделать коррекцию множественного слова орфографической, учитывая один лексему словаря?
Этот вопрос не соответствует теме, потому что речь идет об информатике. – bmargulies
Так где я его спрашиваю? –
Я не понимаю, почему его здесь не спрашивают. В настоящее время существует 1361 вопрос о том, что SO явно помечена «компьютерная наука», многие из которых имеют похожий алгоритмический вкус. –