2015-08-28 3 views
-2

Я хочу сгруппировать документы, которые я получаю для поиска ученого Google, используя модель «Сумка слов». Я думал об использовании Java в качестве языка.Подбор документов с использованием подхода «Мешок слов»

Документы должны быть сгруппированы на основе набора слов, присутствующих в документах. Например, у меня есть предопределенный набор из 10 слов. Я хочу ранжировать результаты поиска Google в соответствии с наличием в них определенных ключевых слов. Должен ли я использовать алгоритм, подобный алгоритму k-mean? Нужно ли мне выполнять задачи НЛП? Может ли кто-нибудь рассказать мне о шагах, чтобы выполнить это?

+0

Это называется * исследовательский *, потому что вам нужно попробовать много вещей. –

ответ

0

NLP используется для предварительной обработки текста, прежде чем классифицировать данные.

Препроцессирование как

  • POS (часть речи), NE (Named Entity) тип выделения признаков
  • Приговор разборе
  • текста лексического анализа
  • Стоп слова удаление

После того, как вы выполните предварительную обработку данных, ваши данные готовы для классификации, процесса кластеризации.

Теперь вы можете применить k-средний алгоритм для этих данных.

См., Что вы можете прямо применить k-mean в своем случае, если вы не беспокоите обработку данных.

+0

Итак, на каком этапе применяется модель слова «сумка слов»? – dave

+0

@dave: Модели BOW, применяемые на этапе обучения классификатора. Для подготовки данных на основе прошлых исторических данных – user123

+0

Могу ли я использовать набор слов в качестве исторических данных? – dave

Смежные вопросы