2016-09-07 2 views
-2

Я использую BeautifulSoup для очистки сайта, однако этот сайт отличается. На soup.prettify() я возвращаю код Javascript, много материала. Я хочу очистить этот веб-сайт от данных фактического веб-сайта (название компании, номер телефона и т. Д.). Есть ли способ очистить эти сценарии, такие как Main.js, чтобы получить данные, которые отображаются на веб-сайте для меня?Веб-скребок Javascript Использование Python

Clear версия:

Кодекс:

<script src="/docs/Main.js" type="text/javascript" language="javascript"></script> 

Это содержит текст, который находится на сайте. Я хотел бы очистить этот текст, однако он заполнен с использованием JS not HTML (который я использовал для использования BeautifulSoup для).

+0

Не могли бы вы уточнить, что вы пытаетесь сделать? –

+0

Возможный дубликат [Веб-соскабливание страницы JavaScript с помощью Python] (http://stackoverflow.com/questions/8049520/web-scraping-javascript-page-with-python) –

+0

@ AlexanderO'Mara Извините, обновил его –

ответ

1

Вы спрашиваете, можете ли вы очистить текст, сгенерированный во время выполнения Javascript. Ответ прост.

Вам нужно запустить какой-то headless browser, например PhantomJS, чтобы Javascript выполнил и заполнил страницу. Затем вам нужно будет подать HTML-код, который безгласному браузеру генерирует в BeautifulSoup для его анализа.

+0

Когда вы говорите, заселяете страницу. На текущей веб-странице есть текст. Однако, очищая его, используя Beautiful Soup, все, что я получаю, это

Смежные вопросы