Я использую nutch 1.6 для сканирования и solr 3.6.2 для индексирования просканированных URL. Но, я хочу сохранить только URL-адреса, содержащие details
.
Что я сделал, это добавить много (много) фильтров к nutch/conf/regex-urlfilter.txt
.Solr & Nutch - индексирование только определенных URL-адресов
Я хочу знать, есть ли лучшее решение, даже если я должен сканировать все данные (URL-адреса), а затем фильтровать только важный один раз в Solr (в команде Solrindex
).
Если у вас нет шаблона фильтра, вам необходимо отфильтровать на уровне nutch. Если у вас есть, если вы просто индексируете все страницы и отфильтровываете их в Solr. Другой вопрос: нужны ли вам эти страницы? если нет, то зачем их индексировать? – Jayendra
Мне не нужны они, как я могу индексировать только релевантные страницы. – h4k1m
Добавление его в urlfilter регулярного выражения является единственным способом, и вы можете использовать шаблоны регулярных выражений, а также здесь – Jayendra