Я ищу возможность снять html-теги и пробелы из разобранного текста с помощью Beautiful Soup. Проблема в том, что я не могу объединить эти два.объединение зачистки пробелов и html-тегов
Вот весь скрипт:
# -*- coding: utf-8 -*-
from urllib2 import urlopen
from bs4 import BeautifulSoup as bs
word = "Drop"
url = ('http://civil.ge/eng/category.php?id=10')
soup = bs(urlopen(url).read())
titz = soup.find("div", {"class": "archtype_category_block"})
for t in titz.find_all('div', {'class': 'archive_type_article_title'}):
if word in t.encode('utf-8').strip():
print t.prettify()
В результате с prettify()
является:
<div class="archive_type_article_title">
Prosecutors Drop Objection to Release of Ex-MoD Officials from Pretrial Detention
</div>
и get_text()
я получаю чистый текст с большим количеством белого пространства до и после него. Любые решения?
Спасибо!
Спасибо за ответы. 'join()' производит 'TypeError: объект« NoneType »не является вызываемым'. – ikechi