Я пытаюсь очистить HTML-код (с разрешения автора). Я использовал PHP библиотеку suggested here, и она работала хорошо, пока я не обнаружил ссылку, которая выглядит следующим образом:Скребок HTML с обратной почтой JavaScript
<a href="javascript:__doPostBack('dgItem$_ctl2$_ctl0','')">
который я считаю некоторые asp.net вещь. Когда я нажимаю на него, он не изменяет URL-адрес, он просто загружает на страницу новый контент, который я также хотел бы очистить.
Как я могу обойти это?
Я предполагаю, что мне нужно будет имитировать щелчок, но я не могу этого сделать при обработке необработанного HTML, мне нужен какой-то интерпретатор браузера/JS, нет?
Есть ли подходящая библиотека для этой задачи? Я не ограничиваюсь PHP, но это предпочтительнее.
Чтение [эта статья] (http://blog.databigbang.com/web-scraping-ajax-and-javascript-sites/) сейчас ... – mpen
Возможно, вас заинтересует [этот проект] (http: /scraperblog.blogspot.com/2012/11/introducing-pgbrowser.html) – pguardiario
@pguardiario: Он говорит, что это формы и файлы cookie, но нет упоминания о JS. – mpen