Solr & Nutch - индексирование только определенных URL-адресов

Я использую nutch 1.6 для сканирования и solr 3.6.2 для индексирования просканированных URL. Но, я хочу сохранить только URL-адреса, содержащие details.
Что я сделал, это добавить много (много) фильтров к nutch/conf/regex-urlfilter.txt.Solr & Nutch - индексирование только определенных URL-адресов

Я хочу знать, есть ли лучшее решение, даже если я должен сканировать все данные (URL-адреса), а затем фильтровать только важный один раз в Solr (в команде Solrindex).

источник

2013-05-23 h4k1m

Если вам не нужны страницы, лучше всего отфильтровать их из самой индексации.
Однако, если у вас есть шаблон, который вы можете фильтровать в Solr, вы можете использовать filter queries, чтобы сделать фильтрацию.

источник

2013-05-23 09:02:36 Jayendra

Если у вас нет шаблона фильтра, вам необходимо отфильтровать на уровне nutch. Если у вас есть, если вы просто индексируете все страницы и отфильтровываете их в Solr. Другой вопрос: нужны ли вам эти страницы? если нет, то зачем их индексировать? – Jayendra

Мне не нужны они, как я могу индексировать только релевантные страницы. – h4k1m

Добавление его в urlfilter регулярного выражения является единственным способом, и вы можете использовать шаблоны регулярных выражений, а также здесь – Jayendra

Solr & Nutch - индексирование только определенных URL-адресов

ответ

Смежные вопросы