2010-09-30 4 views
0

Я намереваюсь использовать код n-грамма от this article. Алгоритм формирует эти результаты три-граммовых:C# алгоритм для N-графа

t, th, the, he, e, q, qu, qui, uic, ick, ck, k, r, re, red, ed, d 

для текста the quick red

Однако wikipedia, считает, что это должно быть:

the qui k_r 
he_ uic _re 
e_q ick red 
_qu ck_ 

(пространство обозначается «_»).

Что такое? Есть ли там другая реализация C#?

ответ

2

Второй пример правильный.

пс. Почему вы генерируете триграммы для полного текста, а не только для слов? Каков ваш прецедент?

+0

Я считаю, что это полезно для слов, которые фактически состоят из двух строк (т. Е. Разделены пробелом). Это будет потеряно, если сначала применить слово breaker. – cs0815

+0

Второй выход правильный. – Skarab

2

Первое правильное. Я использую символ N-грамм в своей диссертации. Вы должны двигаться вперед и передавать один символ для каждого шага. В этом состоянии можно найти похожие слова.

Смежные вопросы