2014-10-27 3 views
1

Я хочу выяснить изменения до и после применения аддона, такого как NoScript/ghostery, к определенной веб-странице. NoScript/ghostery блокирует сценарии трекеров и рекламодателей и удаляет их из дерева DOM (в качестве примера я проверил его «http://a.visualrevenue.com/vrs.js» во время просмотра cnn.com до и после «включения» NoScript в Firefox). Тем не менее, 'http://a.visualrevenue.com/vrs.js' все еще существует, если я сбрасываю дерево DOM, используя selenium's browser.get_source. Я использую следующий код в процессе: источник get_source прибудет ДокументацииSelenium page_source не возвращает модифицированное дерево DOM

import pickle 
from selenium import webdriver 

fp = webdriver.FirefoxProfile(../<extension/addons/>) 
browser = webdriver.Firefox(firefox_profile=fp) 
browser.get("http://www.cnn.com") 
html_source = browser.page_source 
f = open("cnn.p", "wb") 
pickle.dump(html_source, f) 

Селена говорит, что он модифицируется (в моем случае, модифицированный NoScript) DOM дереве, но я не мог понял, что если это произойдет. Я был бы признателен, если бы кто-нибудь мог прокомментировать, как можно модифицировать (с помощью аддона) дерево DOM с использованием селена или любого автоматизированного инструмента.

+0

Редактировать: строка # 3 была заменена более общим форматом – imkhan

ответ

1

После нескольких попыток, наконец, решил мою проблему. Вместо использования webdriver.page_source (выводит «html source») я использовал webdriver.execute_script («return document.documentElement.outerHTML»), чтобы выгрузить отображаемый HTML.

Смежные вопросы