2013-07-11 2 views
0

Я открываю xml-файл с lxml, и я уже делаю много редактирования, прежде чем сохранять его в новом XML-файле, все это работающ отлично. В моем открытом xml у меня есть URL-адрес, который ссылается на веб-страницу. На веб-странице есть некоторые значения, которые я хотел бы записать и использовать в моем открытом xml. Я искал, но не могу найти, с чего начать.Откройте файл xml, найдите url внутри, откройте ссылку и найдите значение - python lxml

С уважением.

ОБНОВЛЕНИЕ -

Я использую следующий код, чтобы блестеть URL-адрес из моего XML, и это работает. Затем я могу прочитать всю страницу в переменную данных, который печатает отлично:

url = tree.find("//video/products/product/read_only_info/read_only_value[@key='storeURL-GB']") 
if url is not None: 
    url = url.text 
    data = urllib2.urlopen(url) 
    data = data.read() 
    print data 

Как я могу найти определенную строку похоронена на веб-странице, здесь кусок данных веб-страницы Я хочу, чтобы получить:

<div id="content"> 

    <div class="padder"> 

    <div id="title" class="intro"> 
     <div class="left"> 
     <h1>This is the title</h1> 
     &nbsp;&nbsp;<span rating-system="bbfc" rating-id="37" class="content-rating">15</span> 
     <h2>this is more text</h2> 
     </div> 
     <div class="right"> 
     <a href="https://rthuere.erwerwer.ghty4e.fdfsdf.com" class="view-more">View More In Sci-Fi &amp; Fantasy</a> 

     </div> 

Мне нужно получить значение «View Подробнее в Sci-Fi & Фантазия» или что-то другое значение есть.

С уважением.

+2

Дайте образец xml и код, который показывает, что вы сделали. – falsetru

+0

Посмотрите на ElementTree и его примеры в документах Python – Mark

ответ

0

Если вы хотите, чтобы текст всех а-узлов, вы можете сделать это с помощью Beautifulsoup:

soup = BeautifulSoup(html_page) 
for link in soup.findAll('a'): 
    print link.text 

Отвечает ли это на ваш вопрос?

+0

Есть ли эквивалент lxml, так как это то, что я уже использую? – speedyrazor

0

Я использую приведенный ниже код для открытия и поиска определенного текста, который работает.

data = urllib2.urlopen(url) 
data = data.read() 
primaryGenre = data 

if "View More In Sci-Fi &amp; Fantasy" in data: 
    then do something else 

С уважением.

+0

Предполагается, что это ** ответ **? Если вы хотите задать дополнительные вопросы, не делайте этого в ответ. Вместо этого измените вопрос (или, возможно, задайте новый вопрос). – mzjn

+0

Да, это ответ, я отредактировал его, ура. – speedyrazor

Смежные вопросы