Я работаю над настраиваемым плагином разбора для nutch и сталкивался с проблемой. Я хочу, чтобы сканировать все URL-адреса в определенной области семенного URL-адреса. Но nutch игнорирует внешние ссылки, и эти ссылки не сканируются.Внешние ссылки не сканируются
например: seed url - https://in.news.yahoo.com
Он содержит ссылки на сайты, такие как timesofindia.com, thehindu.com и т. Д., Но эти ссылки не проходят сканирование.
Моего Nutch-site.xml содержит: -
<property>
<name>db.ignore.external.links</name>
<value>false</value>
</property>
И регулярное выражение-фильтр URL принимает что-нибудь еще. (С регулярными выражениями +.). Интересно, почему nutch игнорирует некоторые внешние ссылки в URL-адресе, указанном как семя. Пожалуйста, помогите
Thanks.It было полезно :) – Sachin