В настоящее время я просматриваю 28 сайтов (маленький маленький, маленький большой), а ползунки генерируют около 25 МБ данных. Я индексирую с помощью Elasticsearch и используя стратегию для автозаполнения edge_n-gram
. После некоторого тестирования мне кажется, мне нужно больше данных для создания лучших предложений с несколькими словами (фразами). Я знаю, что могу просто сканировать больше сайтов, но есть ли способ позволить Nutch полностью сканировать каждый сайт или как можно больше, чтобы создать больше данных для лучших предложений по поиску через edge_n_grams
?Как глубоко ползать с гайкой
ИЛИ
Неужели это даже безнадежен и независимо от того, сколько данных у меня есть, это лучший способ, чтобы создать лучшие предложения из нескольких слов, регистрируя пользователей поисковых запросов,?
спасибо за ваш ответ, это, безусловно, дает мне некоторые вещи, чтобы попробовать. Я знаю, что стратегия edge_n_gram не самая лучшая, но ее просто начать, в конечном итоге будет использоваться каротаж – user3125823