Я немного нового для nutch. Дело в том, что я просматриваю URL-адрес, который перенаправляет на другой URL-адрес. Теперь, анализируя результаты моего обхода, я получаю содержание первого URL-адреса вместе со статусом: temp перенаправляется на (второе имя URL-адреса). Теперь мой вопрос заключается в том, почему я не получаю контент и подробности этого второго URL. Это перенаправляемый URL-адрес, который сканируется или нет? Пожалуйста помоги.nutch перенаправление обращение выпуск
ответ
Опять же, в всемогущем nutch-default.xml есть атрибут, который контролирует способ перенаправления Nutch.
<property>
<name>http.redirect.max</name>
<value>0</value>
<description>The maximum number of redirects the fetcher will follow when
trying to fetch a page. If set to negative or 0, fetcher won't immediately
follow redirected URLs, instead it will record them for later fetching.
</description>
</property>
Как указывалось выше, fetcher won't immediately follow redirected URLs and record them for later fetching
. Я до сих пор не понял, как заставить URL-адреса в db_redir_temp
быть выбранным. Однако, если вы измените конфигурацию в начале, я предполагаю, что вы, вероятно, уйдете.
В Nutch2.3.1 я попытался установить следующее свойство в файле nutch-site.xml, и это помогло мне получить перенаправленный URL-адрес в следующей попытке. Может быть полезно, чтобы кто-то пытался на Nutch 2.3.1.
<property>
<name>db.fetch.interval.default</name>
<value>0</value>
<description>The default number of seconds between re-fetches of a page (30 days).
</description>
</property>
В Nutch 2.3.1 есть метод, называемый getProtocolOutput в классе
org.apache.nutch.protocol.http.api.HttpBase
в этом методе есть обращение к другому методу
Response response = getResponse(u, page, false); (Line 250)
Изменить значение false В true в предыдущем коде
В этом флаге см followRedirects
Затем перекомпилировать Nutch классы, и следовать перенаправление будет работать правильно :)
- 1. Nutch 1,11 ползать Выпуск
- 2. 301 Перенаправление Выпуск
- 3. laravel 4 перенаправление выпуск
- 4. Kendo Ui Grid Дата Время Обращение Выпуск
- 5. Перенаправление портов на домен Выпуск
- 6. Классический ASP Перенаправление Заголовок Выпуск
- 7. Перенаправление вывода Powershell Кодирование Выпуск
- 8. Spotify Web API Перенаправление Выпуск
- 9. Spring Security Перенаправление и выход Выпуск
- 10. пользователей Перенаправление на www.url - $ _SESSION выпуск
- 11. 301 перенаправление в CodeIgniter есть? выпуск
- 12. Перенаправление IIS7 с использованием модуля перезаписи Выпуск
- 13. Laravel выпуск 5 маршрутизации на перенаправление URL
- 14. Bash Command Script Выпуск
- 15. Magento URl Обращение?
- 16. Nutch v Solr v Nutch + Solr
- 17. Nutch: ввод URL модифицируется путем Nutch parsechecker
- 18. Nutch непоследовательно игнорирует перенаправления
- 19. Nutch возможности
- 20. Nutch Установка
- 21. Nutch Multithreading
- 22. Как включить Follow Redirect в Nutch-1.0
- 23. ServerCertificateValidationCallback обращение
- 24. Обращение изображения
- 25. Ответный Обращение
- 26. Обращение касается
- 27. IIS 8.5 URL Rewrite выпуск - Перенаправление Местоположение Включает IP-адрес
- 28. Index.php во всех URL-адресов и HTTPS Перенаправление Выпуск
- 29. www и non www перенаправление выпуск. Кто-нибудь помогите!
- 30. Перенаправление Loop Выпуск на Выход Кнопка Нажмите Laravel 5.2.15
в основном я сделал значение периода ожидания, как 0, так что URL доступен для refetch. –