Я заинтересован в том, чтобы загрузить для последующего анализа кучу веб-страниц. Есть две вещи, которые я хотел бы сделать:Загрузка веб-страницы и связанных с ней ресурсов в WARC в python
- Загрузите страницу и связанные с ней ресурсы (изображения, несколько страниц, связанных со статьей и т. Д.) В файл WARC.
- изменить все ссылки, чтобы указать на локальные файлы.
Я хотел бы сделать это в Python.
Есть ли хорошие библиотеки для этого? Scrapy, похоже, предназначена для очистки веб-сайтов, а не от отдельных страниц, и я не уверен, как создавать файлы WARC. Вызов wget - это выполнимое решение, если нет родного языка python. Heritrix - полный избыток, и не столько решение python. wpull был бы идеальным, если бы он имел хорошо документированную библиотеку python, но вместо этого он, скорее всего, был приложением.
Любые другие идеи?