Я пытаюсь использовать Beautiful Soup и Python для очистки значения PHP с веб-сайта.Очистить переменную PHP с помощью Beautiful Soup, urllib2 и Python
Я также попытался использовать библиотеку lxml.
Есть ли способ сделать это таким образом? Или я должен использовать что-то другое? Заранее спасибо.
Выполняемых
- Найти вложенные HTML теги необходимы. В этом случае «320»
- Анализ HTML-страницы.
- Поиск первого тега «div».
- Попытка поиска всех детей тега «div».
- Вывести всю HTML-страницу в текстовый файл.
- Grep желаемое имя тега «span».
- Обратите внимание, что это значение является переменной PHP.
XPATH:
//*[@id="monetary_offer_content"]/div[1]/div[2]/div/div[1]/h3/span
CSS Selector
monetary_offer_content > div.monetary_offer > div.offers.clear > div > div.clearfix > h3 > span
HTML:
<span data-oldoffer="">320</span>
После вывода всей HTML страницы в текстовый файл, а затем имя оглавлению элемента:
| => cat text.txt | grep data-oldoffer
<h3>$<span data-oldoffer><%= value['offer'] %></span></h3>
<h3>$<span data-oldoffer><%= value['offer'] %></span></h3>
кода Python
from bs4 import BeautifulSoup
import urllib2
url="http://website_url.com"
page=urllib2.urlopen(url)
soup = BeautifulSoup(page.read(), "lxml")
print(soup)
Вы можете поделиться URL? –