Я пытаюсь создать программу для сбора ссылок и некоторых значений с веб-сайта. Он работает в основном хорошо, но я столкнулся с страницей, на которой он не работает.python, собирая ссылки/значения скриптов со страницы
С поджигатель я могу видеть, что это HTML-код иллюзорной «ссылка» (не могу найти его при просмотре источника страниц тыс):
<a class="visit" href="/tet?id=12&mv=13&san=221">
221
</a>
и это скрипт:
<td><a href=\"/tet?id=12&mv=13&san=221\" class=\"visit\">221<\/a><\/td><\/tr>
Мне интересно, как получить либо ссылку "("/tet? Id = 12 & mv = 13 & san = 221 ") из кода html, так и строку" 221 "либо из сценария, либо из html с использованием селена, механизации или запросов (или некоторой другой библиотеки)
Я сделал неудачную попытку при получении его с Mechanize использованием br.links функции(), в котором собраны несколько ссылок со стороны, просто не один я после
дополнительная информация: Это может быть важным. чтобы попасть на страницу, я должен нажать на кнопку с этим кодом:
<a id="f33" class="button-flat small selected-no" onclick="qc.pA('visitform', 'f33', 'QClickEvent', '', 'f52'); if ($j('#f44').length == 0) { $j('f44').style.display='inline'; }; $j('#f38').hide();qc.recordControlModification('f38', 'DisplayStyle', 'hide'); document.getElementById('forumpanel').className = 'section-3'; return false;" href="#">
load2
</a>
после чего «новая страница» загружает в части окна (но никогда не изменяет URL)
СРЮ, вы правы. Я пропустил часть кода сценария lol .... Я попробую эти подходы и вернусь к результатам, спасибо – user3053161
есть ли способ сделать «webdriver.find_element_by_css_selector («. Visit »). Get_attribute (« href »)) «найти все такие ссылки, а не только первые? если бы это было бы отличным решением этой проблемы – user3053161
@ user3053161 Я отредактировал свой ответ - надеюсь, что все в порядке! Я не пробовал, и мои последние приключения на Питоне были несколько месяцев назад; поэтому, пожалуйста, сообщите мне о синтаксических ошибках или не стесняйтесь исправить свой ответ самостоятельно :) – stuXnet