2016-03-02 2 views
0

В настоящее время я работаю webscraper, который должен извлекать все описание элемента из целой категории на Amazon. Я пишу этот скрипт с драйвером Python - Selenium - PhantomJS. Как я могу обойти ограничение на 400 страниц?Как я могу обойти результаты поиска Amazon 400 страниц?

+0

Поговорите с Amazon, запросите у них официальный доступ к данным !? – deceze

+0

Думаю, у меня нет веских оснований для этого. Мне нужно другое решение. – python010101

+2

Тогда, честно говоря, вам, вероятно, не повезло. – deceze

ответ

1

Amazon не предоставляет доступ к этим данным в своем API. У них есть только информация для «Про продавцов» (не стандартных продавцов) и связанных с его собственными продажами, доставкой или продуктами (вы можете найти информацию в Amazon marketplace Feed API page).

Единственный способ, которым я мог бы это сделать, - перебирать страницы категорий. Чтобы сделать это, вы должны начать с интересующей вас категории, получить описание, цену ... и с помощью вашего webscraper найти элемент с идентификатором «pagnNextLink». Затем загрузите следующую страницу и повторите процесс, пока вы не сможете найти этот элемент.

И помните, что вы должны перебирать страницы один за другим (вы не можете перейти на другую страницу, изменяя параметр «sr_pg_» в ссылке), поскольку Amazon включает ссылки ссылок на сеанс, и эта ссылка созданный на каждой новой странице.

Смежные вопросы