Интересно, как я могу найти исходный URL-адрес после его перенаправления. Они действительно найдены в списке семян, но я не могу гарантировать, что URL-адрес перенаправлен на URL-адрес. В фазе Fetcher я ожидаю прочитать ее с Nutch.WRITABLE_REPR_URL_KEY, но она переопределена перенаправленным URL-адресом.Nutch 1.6 найти исходный URL перенаправленных
Любое предложение, как читать их из crawldb, сегментов или linkdb?
PS: Я только сканирую страницы первого уровня (глубина: 1) в списке посещений.
Best, Tugcem.
Чтение сегмента, безусловно, работает. Спасибо чувак! – tugcem