Я намереваюсь использовать код n-грамма от this article. Алгоритм формирует эти результаты три-граммовых:C# алгоритм для N-графа
t, th, the, he, e, q, qu, qui, uic, ick, ck, k, r, re, red, ed, d
для текста the quick red
Однако wikipedia, считает, что это должно быть:
the qui k_r
he_ uic _re
e_q ick red
_qu ck_
(пространство обозначается «_»).
Что такое? Есть ли там другая реализация C#?
Я считаю, что это полезно для слов, которые фактически состоят из двух строк (т. Е. Разделены пробелом). Это будет потеряно, если сначала применить слово breaker. – cs0815
Второй выход правильный. – Skarab