2017-01-10 3 views
1

Я начал исследовательский проект, захватывая страницы, используя wget с локальными ссылками и опциями зеркала. Я сделал это таким образом в то время, чтобы получить данные, поскольку я не знал, как долго будут активны сайты. Таким образом, у меня есть 60-70 сайтов, полностью отраженных локализованными ссылками, которые находятся в директории. Теперь мне нужно просветить то, что я могу от них.используя красивый суп на местном уровне

Есть ли хороший пример анализа этих страниц с помощью beautifulsoup? Я понимаю, что beautifulsoup предназначен для получения запроса http и анализа оттуда. Я буду честен, я еще не разбираюсь в beautifulsoup, и мои навыки программирования не удивительны. Теперь, когда у меня есть время посвятить этому, я хотел бы сделать это простым способом против ручного способа.

Может ли кто-нибудь указать мне на хороший пример, ресурс или учебник для разбора html, который я сохранил? Я очень ценю это. Я передумал это?

+0

Также проверьте Scrapy. – Shubham

ответ

1

Использование BeautifulSoup с локальным содержимым точно так же, как и содержание в Интернете. Например, чтобы прочитать локальный файл HTML в BS4:

response = urllib.request.urlopen('file:///Users/Li/Desktop/test.html', timeout=1) 
    html = response.read() 
    soup = bs4.BeautifulSoup(html, 'html.parser') 

С точки зрения того, как использовать BS4 для обработки HTML, документация BS4 довольно хороший учебник. В большинстве случаев для чтения основной информации достаточно провести базовую обработку данных.

https://www.crummy.com/software/BeautifulSoup/bs4/doc/ 
0

Чтобы разобрать документ, передайте его в конструктор BeautifulSoup. Вы можете передать строку или открытым дескриптором:

from bs4 import BeautifulSoup 

soup = BeautifulSoup(open("index.html")) 

soup = BeautifulSoup("<html>data</html>") 
Смежные вопросы