2013-08-21 4 views
2

Я попытался использовать HtmlUnit для реализации искателя, который может получить результаты, сгенерированные при выполнении запроса Ajax и выполнения javascript. Однако HtmlUnit не так эффективен для удовлетворения моего спроса, потому что он не может получить весь предоставленный элемент DOM, сгенерированный при выполнении JavaScript или AJax. И затем я также попытался использовать pywebkitgtk и pyQtwebkit, он создал какой-то динамический элемент DOM. Но они не работают стабильно, и я не имею понятия, чтобы справиться с этим. Похоже, кто-то также упомянул использование селена. Кто-нибудь может дать мне несколько предложений по внедрению Ajax Crawler? Большое спасибо!Web Crawler с Ajax/JavaScript

+0

В общем, я понимаю, что вам нужно время выполнения JavaScript, чтобы сделать то, что настоящий браузер делает как Ajax-запросы и обработчик async. Я проголосую за [селен] (https://code.google.com/p/selenium/), потому что он позволяет работать с реальным браузером в сценарии, чтобы он полностью охватывал сценарий веб-искателя плюс дополнительные функции, такие как скриншоты. – shawnzhu

+0

Спасибо за ваш ответ. Хорошо, я постараюсь использовать селен. Надеюсь, это сработает! : D – Joey

ответ

1

PhantomJS может быть хорошим решением проблемы. И вы также можете использовать некоторый сканер api, например. Unicrawler, чтобы упростить это. Надеюсь, что это работает.