2012-03-03 6 views
0

Так что скажем, я соскабливаю несколько страниц (скажем, 1000) на веб-сайте. Я хочу знать, какой язык лучше всего использовать для очистки этих страниц с помощью javascript или python.Скребок с JQuery или Python?

Кроме того, я слышал, что скребки javascript быстрее (из-за нескольких запросов на получение), но я не уверен, как это реализовать - может кто-нибудь просветить меня?

Спасибо!

+0

Не JS, но ничего серверного, как Python, PHP, Rails и т. Д. Будет делать. PHP, вероятно, является языком, который в основном используется для такого рода вещей. – adeneo

+0

@adeneo: JS также является серверной. –

+0

@amnotiam - Да, если вы используете Node.js и т. Д., Но любой, кто знает, как создать собственный HTTP-сервер в узле или настроить Express Express, вероятно, не нужен ответ на этот вопрос? – adeneo

ответ

3

Это только мое мнение, но я бы ранжировать их, как этот

  • JavaScript может быть лучшим выбором, но только если у вас есть среда узел уже создана. Преимущество скребок javascript - , они могут интерпретировать js на страницах, которые вы очищаете.
  • следующая трехсторонняя связь между perl python и ruby. Все они имеют библиотеку механизации и разумно используют xpath и regex.
  • Внизу внизу находится php. Отсутствует библиотека обработки файлов cookie, такая как механизация (завиток невелик), и неуклюжие функции dom и регулярного выражения делают его плохим выбором для очистки.
+0

Если вы используете Python, попробуйте 'beautifulsoup' вместо использования регулярных выражений. – Mark

0

Если я правильно читаю ваш вопрос, вы не пытаетесь создать веб-приложение (клиентскую или серверную), а отдельное приложение, которое просто запрашивает и загружает страницы из Интернета.

You может написать автономное приложение в JavaScript, но это не распространено. Основное использование JavaScript - это код, который будет запущен в пользовательском веб-браузере. Для автономных приложений Python - лучший выбор. И он имеет очень хорошую поддержку (в виде urllib2 и связанных с ним библиотек) для таких задач, как веб-скребок.

Конечно, если ваша задача скремблирования относительно проста, вам может быть лучше, просто используя wget.

+0

На данный момент существует гораздо больший выбор инструментов для веб-скрепок для JS , и они (imho) превосходят механизированные и аналогичные инструменты для python. 'urllib2' недостаточно долгое время, поскольку он не обрабатывает состояние или javascript. –

Смежные вопросы