Некоторые сайты имеют URL-адрес, как www.___.com/id=1
до www.___.com/id=1000
. Как я могу сканировать сайт с помощью nutch. Есть ли какие-либо возможности для получения семян для отбора в диапазоне?Nutch crawling with seeds urls находятся в диапазоне
0
A
ответ
1
Я думаю, что самый простой способ - создать скрипт для создания вашего первоначального списка URL-адресов.
0
no. вы вводите их вручную или используя сценарий
Смежные вопросы
- 1. nutch crawling is crawling 'as â €
- 2. Nutch Crawling не работает для определенного URL
- 3. web crawling using apache Nutch
- 4. Nutch Crawling Результат как JSON
- 5. Nutch Crawling Path - Просмотр хмеля в solr
- 6. crawling with Nutch 2.3, Cassandra 2.0 и solr 4.10.3 возвращает 0 результатов
- 7. Nutch 1.4 и Solr 3.6 - Nutch not crawling 301/302 redirects
- 8. Slug urls with Ember.js
- 9. Mod rewrite urls with
- 10. Regex with URLs - синтаксис
- 11. Crawling Version Control System
- 12. Scrape URLS with BeautifulSoup
- 13. Scrapy with Selenium crawling, но не соскабливание
- 14. htaccess clean urls with with sub folder
- 15. Scraw crawling crawling дополнительные данные
- 16. Perl web crawling framework
- 17. Rails: Seeds, Relationship
- 18. Помощь с Rails Seeds?
- 19. Apache Rewrite Urls With Spaces
- 20. Как включить ранее исключенные URLS в виде Nutch ползать
- 21. SumIf определенные значения находятся в диапазоне
- 22. Использование Nutch 2.3 все мои семена URLs отклоняются
- 23. Nutch Fetcher aborting with N hung threads
- 24. Nutch: failed with: java.net.SocketException: Connection reset
- 25. Получение не Urls для получения ошибки на Nutch, хотя есть Urls для извлечения
- 26. Crawling itunes.apple.com
- 27. Crawling amazon.com
- 28. Scrapy Crawling, но не скребок
- 29. Apache Nutch - NoSuchMethodError
- 30. HTAccess 301 Redirect Issue with Coldfusion URLs