Я попытался использовать HtmlUnit для реализации искателя, который может получить результаты, сгенерированные при выполнении запроса Ajax и выполнения javascript. Однако HtmlUnit не так эффективен для удовлетворения моего спроса, потому что он не может получить весь предоставленный элемент DOM, сгенерированный при выполнении JavaScript или AJax. И затем я также попытался использовать pywebkitgtk и pyQtwebkit, он создал какой-то динамический элемент DOM. Но они не работают стабильно, и я не имею понятия, чтобы справиться с этим. Похоже, кто-то также упомянул использование селена. Кто-нибудь может дать мне несколько предложений по внедрению Ajax Crawler? Большое спасибо!Web Crawler с Ajax/JavaScript
2
A
ответ
1
PhantomJS может быть хорошим решением проблемы. И вы также можете использовать некоторый сканер api, например. Unicrawler, чтобы упростить это. Надеюсь, что это работает.
Смежные вопросы
- 1. Web Crawler с HttpWebRequest/Response
- 2. Web Crawler с помощью jsoup
- 3. Blacklists for Web-Crawler
- 4. Abot Web Crawler Performance
- 5. Selenium Webdriver Web crawler
- 6. Sharepoint 2013 Web Crawler
- 7. Библиотеки Java Web Crawler
- 8. Tor Web Crawler
- 9. Web Crawler Text Cloud
- 10. Web Crawler Java
- 11. web crawler word counter
- 12. PHP cURL Web Crawler
- 13. C++ web crawler
- 14. Python Web Crawler from thenewboston
- 15. Web Crawler для конкурентного ценообразования
- 16. Web Crawler - объект не найден
- 17. C# Web Crawler/Parser/Spider
- 18. Python web crawler, depth issue
- 19. node.js web crawler images/video
- 20. web scrapper/crawler, который работает с ajax
- 21. python web crawler с расширением ascii
- 22. python web crawler с поддержкой потоков
- 23. Web Crawler с многопроцессорностью в Python 3
- 24. Appengine Apps vs Google bot web crawler
- 25. Является ли Web Crawler более подходящим?
- 26. PHP Web Crawler не ползают .php файлов
- 27. Comatose web crawler in R (w/rvest)
- 28. C# web и ftp crawler library
- 29. Как запустить python web-crawler эффективно
- 30. Import.io (web-crawler) сохраняет запросы без вывода
В общем, я понимаю, что вам нужно время выполнения JavaScript, чтобы сделать то, что настоящий браузер делает как Ajax-запросы и обработчик async. Я проголосую за [селен] (https://code.google.com/p/selenium/), потому что он позволяет работать с реальным браузером в сценарии, чтобы он полностью охватывал сценарий веб-искателя плюс дополнительные функции, такие как скриншоты. – shawnzhu
Спасибо за ваш ответ. Хорошо, я постараюсь использовать селен. Надеюсь, это сработает! : D – Joey