Я новичок в nutch и использую nutch 1.9. прямо сейчас я делаю несколько POC на образце сайта (shaadi.com). У меня мало вопросов, может кто-нибудь помочь мне в этом?Nutch возможности
я не могу получить доступ к URL, который требует аутентификации для входа (форма на основе), хотя я настройки конфигурации в HTTPClient-auth.xml, Nutch-site.xml и все.
Я знаю, что nutch извлекает нас только на весь контент сайта. но можно ли получить только часть информации, такую как имя, адрес и т. д. со страницы сайта с помощью nutch? (Я думаю, что его больше как выскабливание .. это то, что питоны Scrapy делает)
Спасибо заранее.
Спасибо, Ганапат. я сослался на указанный вами URL, а также смог устранить мою проблему. Теперь моя озабоченность полностью связана с аутентификацией на основе форм. Я следил за всеми шагами, которые они упоминали в проблеме гайч-827 джира, а также ссылался на lifelongprogrammer blogspot, который выполняется @jayesh Bhoyar. Но все же я не могу добиться проверки подлинности на основе форм. У тебя есть какое-то представление об этом ?. заранее спасибо.. – vignesh