2010-11-06 2 views
1

Я реализую приложение для поиска. Корпус - это большие текстовые документы. Во время процесса файла я все токенизирую все слова и вызываю алгоритм Портер-Стеммер Шаг1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt).Porter Stemmer algorithm question

Step1 избавляется от множественных и -ed или -ный ...

я заметил, что слово, как «это» будет стеблями в «Тхи~d».

Это нормальная работа алгоритма? Так как я хотел обозначить слово «это».

ответ

1

Из того, что вы описали, моя догадка заключается в том, что this рассматривается как множественная форма в алгоритме Портер-стеммер и сводится к thi.

Я не могу найти явной ссылки на слова, не содержащие множественные слова, заканчивающиеся на s в статье Портера.

http://tartarus.org/~martin/PorterStemmer/def.txt

+0

Да, мне нужно идти по алгоритму и понять, почему. – djTeller

Смежные вопросы