2013-06-14 4 views
0

Я пишу веб-искатель через Selenium в java. Раньше я использовал библиотеки, такие как jsoup и HtmlUnit, чтобы их создавать, но в последнее время я столкнулся с проблемами с зависимыми от javascript и ajax страницами.

После выполнения некоторых google я думаю, что Selenium - хороший вариант в том смысле, что он отлично загружает страницу, которую я хочу. Но я беспокоюсь, что это станет слишком медленным.

Был ли Selenium хорошим выбором для пауков? и есть ли примеры пауков, основанных на Селене, я могу сослаться на ???реализация селена как webCrawler

ответ

0

Вы можете попробовать Nutch, сканер Apache с открытым исходным кодом, который также хорош для многопоточности, хотя я не уверен, что он обрабатывает AJAX. Ваши другие варианты, отличные от Java, - это PhantomJS и CasperJS, которые являются браузерами без звука. Они бегают быстрее Селена, потому что они безголовые, но они все еще довольно медленные ИМХО.