Я думаю, что каркас scrapy может быть немного негибким. И я не могу найти хорошее решение для своей проблемы.scrapy другой паук для другого типа
Вот проблема, с которой я сейчас сталкиваюсь.
Существует, например, сайт, http://example.com/
. Я хочу отказаться от некоторых данных.
Он имеет много элементов, которые URLs в форме http://example.com/item/([0-9]+)
, теперь я есть контрольный список действительного ([0-9]+)
, который имеет около индекса идентификаторов, это могло бы, кажется, простая задача, чтобы завершить все веб-страница ломает работу.
Но, структура этой миссии, как это:
- есть много данных элемента на странице
/item/
. Я хочу эту информацию, этого просто достичь. - есть ссылки на объект, относящийся к объекту, например
item owner
со ссылкой/owner/
, илиthe collections the item belongs
со ссылкой/collection/
и так далее. Я хочу, чтобы все было уникальным информации об этих объектах, чего трудно достичь. Они не должны быть вложенным элементitem
или слом однократным паука из-за следующей причине:- одного
owner
имеют[1-n]
элементы. - описание товара товар есть
[1-n]
owners
. - такой же, как
collection
с товаром.
- одного
- есть ссылки относятся к другой организации, связанной с элементом, например,
comment
с пути ссылками/comment/
илиuser
, кто любит его с путем/user/
ссылки. Очевидно, что было бы целесообразно разделитьcomment
илиuser
информацию, удаленную отitem
и использовать ключ или index для получения сущности. Этого трудно достичь одним пауком.
Итак, я предпочитаю, чтобы начать паук, чтобы обработать список http://example.com/item/([0-9]+)
, а также использовать другие типы пауков справиться с item owner
, collection
, comment
и user
соответственно.
Но, проблема у меня нет списка item owner
, collection
, comment
и user
. Я мог бы пройти через все эти сущности только путем повторения веб-страницы http://example.com/item/([0-9]+)
.
У меня много googled, но не найдено ни одного решения, соответствующего моей проблеме. Пожалуйста, не стесняйтесь высказать свое мнение.
благодарит за ваш ответ. Но я бы предпочел не выбирать 'selenium' или' request' с 'BeautifulSoup', так как могут возникнуть некоторые другие проблемы, о которых я не упоминал в своем сообщении, такие как' performance', 'scheduler',' multiple proxies', 'scrap rate' и т. д., так как эти проблемы напрямую не связаны с вопросом, который я публикую. Но использование сценариев ручной работы может быть не лучшим выбором для моего желания. Все же разрешите поблагодарить вас. – myme5261314
Очень приветствуется. Я понимаю, почему вы сейчас используете ломтик. Не могу больше помочь здесь ... – kotrfa