2013-11-09 2 views
1

Я хочу, чтобы crawler4j посещал страницы таким образом, что они принадлежат домену только в семени. Там много доменов в семенах. Как мне это сделать?Ограничение URL-адресов только для почтового домена URL-адреса crawler4j

Предположим, я добавляю семена URL-адреса:

  • www.google.com
  • www.yahoo.com
  • www.wikipedia.com

Теперь я начинаю искателем но я хочу, чтобы мой искатель посещал страницы (как и shouldVisit()) только в трех доменах. Очевидно, что есть внешние ссылки, но я хочу, чтобы мой искатель ограничивался только этими доменами. Поддомены, подпапки в порядке, но не вне этих доменов.

+0

если вы реализуете Запретная URL, если сделано вы можете опубликовать ответ, это поможет многим людям – Selva

ответ

0

Если вы пытаетесь ограничить искателю только URL с теми же областях, как семенные URLs, затем:

  1. Extract доменные имена из семенных URL.

  2. Напишите свой класс искателя (который расширяет WebCrawler) с помощью метода shouldVisit, чтобы отфильтровать любые URL-адреса, домены которых не установлены.

  3. Конфигурируйте контроллер, добавьте семена и запустите его обычным способом ... согласно примеру here.

+1

спасибо , Как передать доменные имена семенных URL-адресов от контроллера функции класса искателя shouldVisit? Если количество семенных URL-адресов слишком велико (в тысячах), я думаю, что это будет память. Можно ли ползать семена один за другим? (Я следую примеру базового искателя). – akshayb

+0

Тысячи доменов не будут проблемой. Миллионы доменов могут быть ... –

+0

Я задал еще один вопрос, который обсуждает альтернативный подход здесь: http://stackoverflow.com/questions/19875771/calling-controller-start-in-loop-in-crawler4j – akshayb

1

Опубликовано от имени OP:

Got решение здесь: http://code.google.com/p/crawler4j/issues/detail?id=94#c1

+0

вопрос о Github пустые и нет описания. Профили – RousseauAlexandre

+0

@RousseauAlexandre: Я просто переписал это для автора вопроса. Вы можете прокомментировать этот вопрос, чтобы узнать, есть ли у вас больше информации для вас. Однако они не подписались с 2015 года, поэтому вам, возможно, придется задать новый вопрос. – halfer

Смежные вопросы