2015-05-05 3 views
0

Я новичок в nutch и использую nutch 1.9. прямо сейчас я делаю несколько POC на образце сайта (shaadi.com). У меня мало вопросов, может кто-нибудь помочь мне в этом?Nutch возможности

  1. я не могу получить доступ к URL, который требует аутентификации для входа (форма на основе), хотя я настройки конфигурации в HTTPClient-auth.xml, Nutch-site.xml и все.

  2. Я знаю, что nutch извлекает нас только на весь контент сайта. но можно ли получить только часть информации, такую ​​как имя, адрес и т. д. со страницы сайта с помощью nutch? (Я думаю, что его больше как выскабливание .. это то, что питоны Scrapy делает)

Спасибо заранее.

ответ

0

Вам нужно будет использовать плагин для извлечения конкретных данных. & добавьте эти данные в файл гайки во время индексации. Этот плагин может использоваться для извлечения данных www.atlantbh.com/precise-data-extraction-with-apache-nutch/

+0

Спасибо, Ганапат. я сослался на указанный вами URL, а также смог устранить мою проблему. Теперь моя озабоченность полностью связана с аутентификацией на основе форм. Я следил за всеми шагами, которые они упоминали в проблеме гайч-827 джира, а также ссылался на lifelongprogrammer blogspot, который выполняется @jayesh Bhoyar. Но все же я не могу добиться проверки подлинности на основе форм. У тебя есть какое-то представление об этом ?. заранее спасибо.. – vignesh