Подбор документов с использованием подхода «Мешок слов»

-2

Я хочу сгруппировать документы, которые я получаю для поиска ученого Google, используя модель «Сумка слов». Я думал об использовании Java в качестве языка.Подбор документов с использованием подхода «Мешок слов»

Документы должны быть сгруппированы на основе набора слов, присутствующих в документах. Например, у меня есть предопределенный набор из 10 слов. Я хочу ранжировать результаты поиска Google в соответствии с наличием в них определенных ключевых слов. Должен ли я использовать алгоритм, подобный алгоритму k-mean? Нужно ли мне выполнять задачи НЛП? Может ли кто-нибудь рассказать мне о шагах, чтобы выполнить это?

источник

2015-08-28 dave

Это называется * исследовательский *, потому что вам нужно попробовать много вещей. –

NLP используется для предварительной обработки текста, прежде чем классифицировать данные.

Препроцессирование как

POS (часть речи), NE (Named Entity) тип выделения признаков
Приговор разборе
текста лексического анализа
Стоп слова удаление

После того, как вы выполните предварительную обработку данных, ваши данные готовы для классификации, процесса кластеризации.

Теперь вы можете применить k-средний алгоритм для этих данных.

См., Что вы можете прямо применить k-mean в своем случае, если вы не беспокоите обработку данных.

источник

2015-08-28 07:41:39 user123

Итак, на каком этапе применяется модель слова «сумка слов»? – dave

@dave: Модели BOW, применяемые на этапе обучения классификатора. Для подготовки данных на основе прошлых исторических данных – user123

Могу ли я использовать набор слов в качестве исторических данных? – dave

Подбор документов с использованием подхода «Мешок слов»

ответ

Смежные вопросы