Porter Stemmer algorithm question

Я реализую приложение для поиска. Корпус - это большие текстовые документы. Во время процесса файла я все токенизирую все слова и вызываю алгоритм Портер-Стеммер Шаг1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt).Porter Stemmer algorithm question

Step1 избавляется от множественных и -ed или -ный ...

я заметил, что слово, как «это» будет стеблями в «Тхи~d».

Это нормальная работа алгоритма? Так как я хотел обозначить слово «это».

источник

2010-11-06 djTeller

Из того, что вы описали, моя догадка заключается в том, что this рассматривается как множественная форма в алгоритме Портер-стеммер и сводится к thi.

Я не могу найти явной ссылки на слова, не содержащие множественные слова, заканчивающиеся на s в статье Портера.

http://tartarus.org/~martin/PorterStemmer/def.txt

источник

2010-11-06 16:24:28 kuriouscoder

Да, мне нужно идти по алгоритму и понять, почему. – djTeller

Porter Stemmer algorithm question

ответ

Смежные вопросы