Я пишу веб-искатель через Selenium в java. Раньше я использовал библиотеки, такие как jsoup и HtmlUnit, чтобы их создавать, но в последнее время я столкнулся с проблемами с зависимыми от javascript и ajax страницами.
После выполнения некоторых google я думаю, что Selenium - хороший вариант в том смысле, что он отлично загружает страницу, которую я хочу. Но я беспокоюсь, что это станет слишком медленным.
Был ли Selenium хорошим выбором для пауков? и есть ли примеры пауков, основанных на Селене, я могу сослаться на ???реализация селена как webCrawler
0
A
ответ
0
Вы можете попробовать Nutch, сканер Apache с открытым исходным кодом, который также хорош для многопоточности, хотя я не уверен, что он обрабатывает AJAX. Ваши другие варианты, отличные от Java, - это PhantomJS и CasperJS, которые являются браузерами без звука. Они бегают быстрее Селена, потому что они безголовые, но они все еще довольно медленные ИМХО.