Я использую Scrapy для сканирования нескольких веб-сайтов, и мне нужен вывод, который будет в JSON. Я поставил команду:Можно ли настроить выход Scrapy json?
scrapy crawl MySpider -o "path/to/output.json" -t json
Это работает, однако, теперь мне нужно добавить статистику для вывода - список запросов, ошибок, типы ошибок (404-х и т.д.). Кроме того, мне нужно, чтобы выходной файл был переписан, а не добавлен. Я не могу найти никаких инструкций, как это сделать.
Спасибо. Есть ли способ сделать это с Python? Мне нужно иметь все в одном скрипте, а не генерировать временные файлы, если это возможно, поэтому выход должен каким-то образом перенаправляться на Python, и я хотел бы генерировать вывод json вручную. – Ognjen
Я смущен, если я должен использовать этот http://stackoverflow.com/questions/13437402/how-to-run-scrapy-from-within-a-python-script или просто создать конвейер настраиваемого элемента? – Ognjen
Зависит от того, что вы хотите сделать. Если вы хотите полностью запустить сканирование из сценария Python, вы можете найти ответы в этой ссылке. Если вы хотите изменить вывод элементов, посмотрите на [feed exporters] (http://doc.scrapy.org/en/latest/topics/feed-exports.html), вы также можете найти примеры на SO. – bosnjak