2016-12-17 4 views
1

Я заинтересован в том, чтобы загрузить для последующего анализа кучу веб-страниц. Есть две вещи, которые я хотел бы сделать:Загрузка веб-страницы и связанных с ней ресурсов в WARC в python

  • Загрузите страницу и связанные с ней ресурсы (изображения, несколько страниц, связанных со статьей и т. Д.) В файл WARC.
  • изменить все ссылки, чтобы указать на локальные файлы.

Я хотел бы сделать это в Python.

Есть ли хорошие библиотеки для этого? Scrapy, похоже, предназначена для очистки веб-сайтов, а не от отдельных страниц, и я не уверен, как создавать файлы WARC. Вызов wget - это выполнимое решение, если нет родного языка python. Heritrix - полный избыток, и не столько решение python. wpull был бы идеальным, если бы он имел хорошо документированную библиотеку python, но вместо этого он, скорее всего, был приложением.

Любые другие идеи?

ответ

1

Просто используйте wget, это самый простой и стабильный инструмент, который вы можете использовать для сканирования в Интернете и сохранения в warc.

люди Wget, или просто начать:

--warc-file=FILENAME  save request/response data to a .warc.gz file 
-p, --page-requisites   get all images, etc. needed to display HTML page 

Обратите внимание, что вам не придется менять какие-либо ссылки, то ВАКР сохранить оригинальный веб-страницу. это работа программного обеспечения для воспроизведения (openwayback, pywb), чтобы снова просмотреть содержимое warc.

, если вам нужно пойти с питоном: internetarchive/warc является стандартной библиотеки

взглянуть на это, если вы хотите вручную обрабатывая Warc файл ampoffcom/htmlwarc