2017-02-08 4 views
0

У меня есть один параграф текста (вектор слов), и я хотел бы увидеть, является ли он «частью» длинного текста (вектора слов) , Однако я знаю, что этот абзац не указан в тексте в его точной форме, но с небольшими изменениями: несколько слов могут пропустить, порядок может быть несколько иным, некоторые слова могут быть вставлены в виде скобок и т. Д.Как проверить, является ли абзац частью текста в R

В настоящее время я реализую решения «вручную», например, если большинство слов абзаца находятся в тексте, глядя расстояние между этими словами, их порядок и т. Д. Мне было интересно, нет встроенного метода для этого?

Я уже проверил tm пакет, но это не похоже, чтобы сделать это ...

Любая идея?

ответ

1

Я боюсь, что вы застряли в ручном подходе, например. grep -в некоторых группах слов и наличии определенного порога соответствия.

+0

В некотором смысле это не такая плохая новость: поиск хорошего метода - это забава (конечно, у меня много абзацев и много текстов), но это было бы немного бесполезно, если бы существовал какой-то пакет, делающий Это. Спасибо за Ваш ответ! – user3771535

Смежные вопросы