Я хочу, чтобы crawler4j посещал страницы таким образом, что они принадлежат домену только в семени. Там много доменов в семенах. Как мне это сделать?Ограничение URL-адресов только для почтового домена URL-адреса crawler4j
Предположим, я добавляю семена URL-адреса:
- www.google.com
- www.yahoo.com
- www.wikipedia.com
Теперь я начинаю искателем но я хочу, чтобы мой искатель посещал страницы (как и shouldVisit()
) только в трех доменах. Очевидно, что есть внешние ссылки, но я хочу, чтобы мой искатель ограничивался только этими доменами. Поддомены, подпапки в порядке, но не вне этих доменов.
если вы реализуете Запретная URL, если сделано вы можете опубликовать ответ, это поможет многим людям – Selva