2015-08-06 3 views
3

Я пытаюсь понять алгоритм snoball steming. Algorithmus использует две области R1 и R2, которые определяемом следующим образом:Snowball Stemming: определяющие регионы

R1 представляет собой область после того, как первый не-гласной после гласной, или нулевая область в конце слова, если есть нет такого негласного.

R2 представляет собой область после того, как первая не-гласной после гласной в R1 или является нуль области в конце слова, если нет таких без гласной.

http://snowball.tartarus.org/texts/r1r2.html

Примерами являются

b e a u t i f u l 
         |<------------->| R1 
           |<----->| R2 

    b e a u t y 
        |<->| R1 
         ->|<- R2 

    a n i m a d v e r s i o n 
     |<----------------------------------------->| R1 
       |<--------------------------------->| R2 

    s p r i n k l e d 
        |<------------->| R1 
            ->|<- R2 

    e u c h a r i s t 
      |<--------------------->| R1 
         |<--------->| R2 

Мой вопрос, почему "KLED" в springkled и "harist" в Евхаристии определяется как R1? Я думал, что правильный результат будет «намечен» и «арист»?

ответ

2

Вы должны снова прочитать определение, он говорит:

R1 представляет собой область после первого не-гласного следующего гласного.

Не: следуют гласной.

В sprinkled, первый неглазующий гласный, n, поэтому область после kled.

То же самое для eucharist, первый неглазующий гласный, следующий за гласным c, поэтому область после harist.

Смежные вопросы