2013-07-08 5 views
0

Мне нужно разработать веб-приложение для извлечения цен на книги с разных сайтов электронной коммерции, таких как amazon, homeshop18, когда пользователь вводит имя книги в интерфейсе и отображает всю информацию.извлечение цены с разных сайтов электронной коммерции с использованием python

Мои вопросы: 1) как передать этот запрос в поле поиска сайтов amazon, и я могу получить только страницы, относящиеся к запросу, вместо обхода всего сайта.

2) Что может быть использовано для разработки этого приложения? BeautifulSoup или лоскутное? API, не доступны для всех сайтов электронной коммерции, чтобы использовать его

новичка в python.so любой помощи будет высоко оценен

+1

Нужна дополнительная информация. На каком сайте вы пытаетесь очистить? Что вы пробовали? – RickyA

+0

любая книга. Торговые сайты. Я использовал модуль urllib для извлечения источника страницы html и не знаю, как производить дальше. – vr22

+0

Возможно, вы захотите использовать BeautifulSoup для своих целей. Это помогает разобрать HTML –

ответ

1

Я использую BeautifulSoup для разбора веб-страниц, но будьте осторожны, это немного медленно, если вам приходится анализировать страницы в массовом порядке. Я знаю, что lxml быстрее, но немного менее coder-friendly.To угадать правильные параметры (либо для HTTP-GET или POST) для получения страницы результата вы хотите, вы должны действовать так:

  1. Включить плагин firebug для Firefox или интегрированный инспектор для Chrome
  2. Перейдите на интересующую вас веб-страницу и выполните поиск
  3. Зайдите в firebug/inspector, чтобы просмотреть параметры HTTP-запроса. Firefox или Chrome отправлены на веб-сайт.
  4. Воспроизведение запроса в вашем скрипте python. Например, используя urllib

Существует еще один способ угадать правильные параметры HTTP GET или POST, это использовать сетевой анализатор, такой как Wireshark. Это более подробный подход, но он больше похож на , ища иглу в стоге сена, как только вы использовали инструменты в Firefox/Chrome.

Смежные вопросы