Я использую urllib2
, BeautifulSoup
и topia.termextract
модулей в Python 2.7 для извлечения терминов чтения параграфов сайтадобывающих термины печатают искажены кортежи
>>> extractor("he is Programmer, Visionary Entrepreneur and Investor ")
[('Entrepreneur', 1, 1), ('Programmer', 1, 1), ('Visionary', 1, 1), ('Investor', 1, 1), ('Visionary Entrepreneur', 1, 2)]
Это прекрасно работает с пунктом
но в цикле ниже
>>> def getTerms(website):
page = urllib2.urlopen(website)
text = page.read()
soup = BeautifulSoup(text)
for para in soup.findAll('p'):
print extractor(para.text)
Передача веб-страницы url в functio п выше гравюр
[(u'Entrepreneur', 1, 1), (u'Programmer', 1, 1), (u'Visionary', 1, 1), (u'Investor', 1, 1), (u'Visionary Entrepreneur', 1, 2)] .....
u
Там будет напечатано в запуске кортежей? как я могу получить форму чистых кортежей?
Примечание: Только печать para.text
печатает чистые параграфы текста в цикле выше