Nutch 1.6 найти исходный URL перенаправленных

Интересно, как я могу найти исходный URL-адрес после его перенаправления. Они действительно найдены в списке семян, но я не могу гарантировать, что URL-адрес перенаправлен на URL-адрес. В фазе Fetcher я ожидаю прочитать ее с Nutch.WRITABLE_REPR_URL_KEY, но она переопределена перенаправленным URL-адресом.Nutch 1.6 найти исходный URL перенаправленных

Любое предложение, как читать их из crawldb, сегментов или linkdb?

PS: Я только сканирую страницы первого уровня (глубина: 1) в списке посещений.

Best, Tugcem.

источник

2014-11-11 tugcem

Вы можете сбросить внешние ссылки, выполнив следующие действия

bin/nutch readseg -dump crawl/segments/segmentname/ outputdir -nocontent -nofetch - nogenerate -noparse -noparsetext

Кроме того, чтобы правильно выполнить переадресацию, вы можете изменить это свойство в Nutch-DEFAULT.XML

<property> 
<name>http.redirect.max</name> 
<value>5</value> 
<description>The maximum number of redirects the fetcher will follow when 
trying to fetch a page. If set to negative or 0, fetcher won't immediately 
follow redirected URLs, instead it will record them for later fetching. 
</description> 
</property>

источник

2014-11-11 14:14:16

Чтение сегмента, безусловно, работает. Спасибо чувак! – tugcem

Nutch 1.6 найти исходный URL перенаправленных

ответ

Смежные вопросы