2009-07-30 2 views
2

Я ищу способ обработки веб-страницы и связанного с ней Javascript из командной строки, чтобы можно было отобразить полученную модель DOM.Веб-браузер командной строки, который выводит DOM

Целью этого является идентификация форм внутри страницы без каких-либо неприятных анализов HTML (и Javascript) с регулярными выражениями.

Есть ли инструменты командной строки, которые сделают это? Так гипотетически говоря, веб-браузер командной строки, который загружает контент и выводит DOM как текст, а не создает красивую страницу.

ответ

2

Я не знаю ни одного, но я хотел бы подчеркнуть одну трудность с тем, что вы предложили:

процесс веб-страницы и связанный Javascript

Когда будет выходной ? На многих веб-страницах есть зависящие от времени javascripts или скрипты onclick/onhover, которые влияют на DOM. Вы хотите, чтобы они были выполнены? Все они, или только некоторые? Нетрудно решить, когда страница «закончена» и готова для вывода DOM после обработки javascript. (Прежде чем манипулировать javascript, это более простая проблема, просто подождите, пока событие document.DOMReady ...)

Редактировать: Я не говорю, что вам вообще не нужно выполнение javascript: вы можете обрабатывать любые document.write разделы во время загрузки, так как они могут написать форму ... Я говорю, что трудно знать, когда вы сделали «достаточно» javascript ...

+0

Хороший вопрос, я думаю, «достаточно близко достаточно хорошо» в этом случае. Мне действительно нужно что-то, что даст мне лучшее усилие, перечисляющее элементы формы. –

1

PyKHTML «обрабатывает JavaScript» и позволяет вам проходить DOM.

2

Для java у меня были неплохие впечатления с htmlunit.

Я также использовал библиотеку python для анализа форм и formdata. Не нужно указывать регулярные выражения, так как это позволит вам без проблем работать с деревом DOM.

Смежные вопросы