У меня есть следующий HTML повторяется несколько раз на странице (пожалуйста, не судите):Python: Извлечение разделенным текста из HTML с BeautifulSoup
<div class="container">
<div class="image">
<a href="#" title="#" class="#">
<img src="img.jpg" alt="#" class="#">
</a>
</div>
<div class="text">
<a href="#">
<h4 class="h4-class">{TITLE}</h4>
{SOME TEXT 1}<br />
<h5><img src="img.jpg" alt="#" /> {SOME TEXT 2}</h5>
{SOME TEXT 3} </a>
</div>
</div>
Я хотел бы извлечь {TITLE}
, {SOME TEXT 1}
, {SOME TEXT 2}
и {SOME TEXT 3}
Мой код выглядит следующим образом:
from BeautifulSoup import BeautifulSoup as bs
import urllib2
html = urllib2.urlopen('text')
soup = bs(html)
divs = soup.findAll("div", { "class" : "text" })
for div in divs:
inner_text = div.text
strings = inner_text.split("\n")
print strings[0] ## I want this to print just {TITLE}
На печать его, она печатает одну линию, соединяющую все т он оценивает, например.
{TITLE}{SOME TEXT 1}{SOME TEXT 2}{SOME TEXT 3}
Есть в любом случае вокруг этого? Что я пропустил?
Я не вижу 'list_txt' в данном HTML-коде. – arsho
Typo при добавлении его здесь. Проблема все еще остается. – pee2pee