Я хочу сгруппировать документы, которые я получаю для поиска ученого Google, используя модель «Сумка слов». Я думал об использовании Java в качестве языка.Подбор документов с использованием подхода «Мешок слов»
Документы должны быть сгруппированы на основе набора слов, присутствующих в документах. Например, у меня есть предопределенный набор из 10 слов. Я хочу ранжировать результаты поиска Google в соответствии с наличием в них определенных ключевых слов. Должен ли я использовать алгоритм, подобный алгоритму k-mean? Нужно ли мне выполнять задачи НЛП? Может ли кто-нибудь рассказать мне о шагах, чтобы выполнить это?
Это называется * исследовательский *, потому что вам нужно попробовать много вещей. –