2015-02-06 6 views
0

Я довольно новый для Python, так застряли в этой проблеме:как удалить часть текста в питоне

есть TXT-файл, как

blahh 
blah 
blah 
... 
<start> 
some stuff 
</start> 
even more blah blah blah 

Я хочу, чтобы удалить все ли детали до <start> и после </start>. (Главное из этого link.Я хочу сделать html-материал на странице bs4, поэтому я должен сначала удалить все части, отличные от html.

Может кто-нибудь скажет мне, что лучше способ сделать это Ценит любой помогает

+1

@ AJ: Пожалуйста, не предлагайте разбор HTML с регулярными выражениями. Прочитайте http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags (и l чернилами к тегу просто бесполезно.) – geoffspear

ответ

1

нет, вам не нужно удалять, не соответствующую часть файла Пусть BeautifulSoup разобрать весь файл как и найти тег вам нужно:?!.

from urllib2 import urlopen 
from bs4 import BeautifulSoup 

url = 'http://www.sec.gov/Archives/edgar/data/70858/000119312507058027/0001193125-07-058027.txt' 
soup = BeautifulSoup(urlopen(url)) 
print(soup.document) 
+0

Большое спасибо, alecxe. Это действительно помогло мне! –

Смежные вопросы