2010-07-30 3 views
1

Фон: на странице есть таблица с данными. Существует несколько гиперссылок, которые при нажатии на них данные в таблице заменяются новыми данными. Кроме того, страница является страницей aspx.Скремблирование данных с динамического веб-сайта

Цель: Я хочу очистить данные в таблице для всех нажатых гиперссылок.

Я посмотрел, что происходит через firebug, и когда нажимается гиперссылка, он генерирует HTTP-сообщение обратно на сервер через ajax. Проблема в том, что есть много действительно заданных параметров отправки мусора. Я предполагаю, что это связано с тем, что asp выполняет некоторые операции типа сеанса. Я предполагаю, что даже если бы я скопировал точные параметры, которые отправил мой браузер, большинство из них не будут действовать позже.

Как обычно люди пишут http-скрипты, которые имеют дело с такими вещами?

ответ

0

Fool-proof метод, который я использую, - это просто интерпретировать JS со страницы в моем скрипте скремблирования и позволить ему заполнять все эти параметры сами. Самый быстрый способ сделать это - использовать некоторый готовый движок, такой как WebKit, и построить свой скребок поверх него.

Более жесткий, но более гибкий способ - использовать JS-движки Google V8 или Mozilla Spidermonkey и предоставить им свой собственный контекст DOM.

+0

можно расширить еще на «предоставить свой собственный контекст DOM для них», пожалуйста? –

0

Большая часть времени я использую WatiN для простых царапин. Только редко я пишу парсер или скреперы клиентов.

0

Я буду использовать веб-скребок irobotsoft, чтобы сделать это. Это должно быть очень просто.

0

Here is a Python example, который использует WebKit для разбора JavaScript на веб-странице и предоставить вам с окончательным HTML