Как глубоко ползать с гайкой

В настоящее время я просматриваю 28 сайтов (маленький маленький, маленький большой), а ползунки генерируют около 25 МБ данных. Я индексирую с помощью Elasticsearch и используя стратегию для автозаполнения edge_n-gram. После некоторого тестирования мне кажется, мне нужно больше данных для создания лучших предложений с несколькими словами (фразами). Я знаю, что могу просто сканировать больше сайтов, но есть ли способ позволить Nutch полностью сканировать каждый сайт или как можно больше, чтобы создать больше данных для лучших предложений по поиску через edge_n_grams?Как глубоко ползать с гайкой

ИЛИ

Неужели это даже безнадежен и независимо от того, сколько данных у меня есть, это лучший способ, чтобы создать лучшие предложения из нескольких слов, регистрируя пользователей поисковых запросов,?

источник

2016-05-03 user3125823

Вы всегда можете увеличить количество ссылок, которые вы хотите, чтобы ползать, если вы используете команду bin/crawl можно просто увеличить число итераций или изменить сценарий и увеличить параметр sizeFetchlist (https://github.com/apache/nutch/blob/master/src/bin/crawl#L117). Этот параметр используется как аргумент topN в обычном сценарии bin/nutch.

Имейте в виду, что эти опции доступны также на ветке 2.x.

Какие предложения вы пытаетесь выполнить? В приложении, которое я разработал когда-то ранее, мы используем комбинацию обоих подходов (мы использовали Solr вместо elasticsearch, но суть та же), мы проиндексировали пользовательские запросы в отделенном наборе/индексе, и в этом мы сконфигурировали EdgeNGramFilterFactory (Solr эквивалентно edge_n_grams из ES) это обеспечило некоторые основные предложения запросов, основанные на том, что пользователи уже искали. Когда никакие предложения не могут быть найдены с использованием этого подхода, мы пытаемся предложить отдельные термины на основе содержимого обходного содержимого, для этого потребовалось некоторое javascript-настройка в интерфейсе.

Не уверен, что использование текстового содержимого веб-страницы edge_n_grams могло бы быть полезным, главным образом потому, что были созданы NGram для всего контента, и предложения не были бы релевантными из-за большого количества совпадений, но Я не знаю вашего конкретного случая использования.

источник

2016-05-03 18:53:53

спасибо за ваш ответ, это, безусловно, дает мне некоторые вещи, чтобы попробовать. Я знаю, что стратегия edge_n_gram не самая лучшая, но ее просто начать, в конечном итоге будет использоваться каротаж – user3125823

Если вы собираетесь сканировать команду проходя с параметром TopN, то вы можете использовать http://big-analytics.blogspot.com.au/2016/05/building-apache-nutch-job-running.html

где вы добавляете код ползать в последнем Apache Nutch и восстановить файл nutch.job.

источник

2016-05-05 06:33:45

Как глубоко ползать с гайкой

ответ

Смежные вопросы