2013-07-11 3 views
1

Я немного нового для nutch. Дело в том, что я просматриваю URL-адрес, который перенаправляет на другой URL-адрес. Теперь, анализируя результаты моего обхода, я получаю содержание первого URL-адреса вместе со статусом: temp перенаправляется на (второе имя URL-адреса). Теперь мой вопрос заключается в том, почему я не получаю контент и подробности этого второго URL. Это перенаправляемый URL-адрес, который сканируется или нет? Пожалуйста помоги.nutch перенаправление обращение выпуск

ответ

1

Опять же, в всемогущем nutch-default.xml есть атрибут, который контролирует способ перенаправления Nutch.

<property> 
    <name>http.redirect.max</name> 
    <value>0</value> 
    <description>The maximum number of redirects the fetcher will follow when 
    trying to fetch a page. If set to negative or 0, fetcher won't immediately 
    follow redirected URLs, instead it will record them for later fetching. 
    </description> 
</property> 

Как указывалось выше, fetcher won't immediately follow redirected URLs and record them for later fetching. Я до сих пор не понял, как заставить URL-адреса в db_redir_temp быть выбранным. Однако, если вы измените конфигурацию в начале, я предполагаю, что вы, вероятно, уйдете.

0

В Nutch2.3.1 я попытался установить следующее свойство в файле nutch-site.xml, и это помогло мне получить перенаправленный URL-адрес в следующей попытке. Может быть полезно, чтобы кто-то пытался на Nutch 2.3.1.

<property> 
     <name>db.fetch.interval.default</name> 
     <value>0</value> 
     <description>The default number of seconds between re-fetches of a page (30 days). 
     </description> 
    </property> 
+0

в основном я сделал значение периода ожидания, как 0, так что URL доступен для refetch. –

0

В Nutch 2.3.1 есть метод, называемый getProtocolOutput в классе

org.apache.nutch.protocol.http.api.HttpBase

в этом методе есть обращение к другому методу

Response response = getResponse(u, page, false); (Line 250) 

Изменить значение false В true в предыдущем коде

В этом флаге см followRedirects

Затем перекомпилировать Nutch классы, и следовать перенаправление будет работать правильно :)

Смежные вопросы