Я пытаюсь написать сценарий python/scrapy, чтобы получить список объявлений от https://www.donedeal.ie/search/search?section=cars&adType=forsale&source=&sort=relevance%20desc&max=30&start=0, им интересно получать URL-адреса для отдельных объявлений. Я обнаружил, что страница делает запрос XHR POST на https://www.donedeal.ie/search/api/v3/find/. Пытался написать Scrapy скрипт, чтобы попробовать мою идею:python/scrapy for dynamic content
from scrapy.http import FormRequest
url = 'https://www.donedeal.ie/search/api/v3/find/'
payload = {'section': "cars", 'adType': "forsale", 'source': "", 'sort': "relevance desc", 'area': '', 'max': '30', 'start':'0'}
req = FormRequest(url, formdata=payload)
fetch(req)
, но я не получаю никакого ответа. В инструментах Chrome dev я увидел, что такой запрос дает ответ json с идентификаторами элементов, которые я мог бы использовать для формирования собственных URL.
Я попытался Selenium подход, а также, где это дает время для страницы, чтобы загрузить динамическое содержимое, но это, похоже, не работает. Полностью потерял на этом этапе :(
Вы можете рассмотреть возможность сделать запрос из браузера, используя инструмент, как 'WireShark', чтобы выяснить, что протокол HTTPS является отправка/прием, так что вы можете убедиться, что ваша 'scrapy' ничего не потеряла в своем _payload._ – boardrider
Так что полезная нагрузка, которую показывают инструменты разработчика, может быть неполной? –