2013-03-09 2 views
2

Как указано в заголовке, мне интересно, есть ли способ получить сгенерированный HTML-код страницы. Очевидно, что я могу проверить страницу с помощью инструментов веб-разработчика (встроенной браузера или внешней программы) и получить ее, но мне бы очень хотелось сделать это автоматически. Возможно, с помощью API Fiddler это возможно?Возможно ли получить сгенерированный источник веб-страницы программно?

Спасибо!

+1

Вы хотите получить исходный код страницы из JavaScript на самой странице или получить источник целевого URL-адреса, используя скрипт, запущенный на вашем компьютере (и если вы используете какой-либо конкретный язык)? –

+0

Или вы ищете API Fiddler? –

+1

Может быть интересен http://phantomjs.org/? –

ответ

0

Возможно, вы сможете написать сценарий в Python, который примет переменную (URL) и вставляет ее после команды, которая будет загружать веб-страницу, например wget.

погуглить, я нашел, что это разобрать HTML файлы: может быть, вы могли бы Wget в index.html и использовать один из них: How do you parse and process HTML/XML in PHP?

2

«Источник» не получает измененную на JavaScript после загрузки страницы, это объектная модель документа (DOM), сгенерированная от источника, который изменяется. Именно этот DOM затем переводится в графический интерфейс и изменяется с каждым изменением, пока страница не загружается повторно.

DOM не является строкой кода HTML, это иерархическое представление объекта в памяти страницы. Браузер не поддерживает обновленное, плоское представление DOM по мере его изменения, поэтому, когда вы «просматриваете источник», вы только когда-либо видите, что было первоначально отправлено в браузер через HTTP.

Представление узла/узла DOM в средствах разработчика, таких как Firebug, является наиболее близким к перегенерированию исходного кода (AFAIK) без создания какого-либо нового инструмента самостоятельно.