2010-04-25 2 views
5

Я хочу очистить html, сгенерированный javascript, точно так же, как то, что вы можете видеть в Firebug.Как очистить html, сгенерированный javascript, используя python?

UPDATE: Я нашел эту статью: http://blog.motane.lu/2009/07/07/downloading-a-pages-content-with-python-and-webkit/, которые используют PyQt, чтобы решить проблему, и она работает хорошо для меня.

НО другая проблема происходит: я должен войти на сайт первый, но я не знаю, как имитировать вход в PyQt .... :(

ответ

5

Посмотрите this article который описывает использование Windmill сделать скрести страницу после того, как Javascript был выполнен браузером.

Эта статья покажет, как извлечь нужную информацию, используя те же три шага, когда веб-страница не написанные непосредственно с помощью HTML, но автоматически генерируется с использованием JavaScript для обновления дерева DOM.

У них есть несколько примеров, я уверен, что вы можете легко адаптироваться.

+0

Я видел эту статью вчера. Но кажется, что пользователь должен открыть веб-браузер, чтобы очистить страницу, и это не то, что я хочу ... Спасибо в любом случае. – wong2

+1

Возможно (не просто, но возможно) для запуска, например, Firefox в режиме без звука. –

0

Чтобы быть точным с терминологией, Javascript не генерирует HTML. Javascript генерирует и манипулирует DOM в вашем браузере. Firebug показывает вам HTML-представление этого DOM, чтобы он был доступен для чтения. HTML фактически не существует. :)

Не думаю, что готовое решение доступно. Вы можете посмотреть на this blog post and comments, которые имеют некоторые указатели.

Смежные вопросы