Я не знаю много о html ... Как удалить только текст со страницы? Например, если страница HTML гласит:Обработка HTML-файлов Python
<meta name="title" content="How can I make money at home online? No gimmacks please? - Yahoo! Answers">
<title>How can I make money at home online? No gimmicks please? - Yahoo! Answers</title>
Я просто хочу, чтобы извлечь это.
How can I make money at home online? No gimmicks please? - Yahoo! Answers
Я использую функцию Re:
def striphtml(data):
p = re.compile(r'<.*?>')
return p.sub(' ',data)
, но до сих пор это не делать то, что я намерен это сделать ..?
выше функция называется:
for lines in filehandle.readlines():
#k = str(section[6].strip())
myFile.write(lines)
lines = striphtml(lines)
content.append(lines)
возможно дубликат [HTML в анализом Python] (http://stackoverflow.com/questions/717541/parsing-html-in- python), [Обработка файла HTML с использованием Python] (http://stackoverflow.com/q/7694637) – Sathya
Проверьте этот вопрос: http://stackoverflow.com/questions/328356/extracting-text-from-html-file -Использование-питон – mgibsonbr