Я реализую приложение для поиска. Корпус - это большие текстовые документы. Во время процесса файла я все токенизирую все слова и вызываю алгоритм Портер-Стеммер Шаг1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt).Porter Stemmer algorithm question
Step1 избавляется от множественных и -ed или -ный ...
я заметил, что слово, как «это» будет стеблями в «Тхи~d».
Это нормальная работа алгоритма? Так как я хотел обозначить слово «это».
Да, мне нужно идти по алгоритму и понять, почему. – djTeller