2015-05-01 3 views
1

У меня есть html-документ, который я хотел бы извлечь из таблицы и префлотировать таблицы. До сих пор я знаю:prettifying часть html doc using beautifulsoup

with open('html.txt','r') as file1: 
    read_f=file1.read() 
soup = BeautifulSoup(read_f) 

the_soup=soup.findAll('table', {'id': 'table_id'}) 
with open('prettified.txt','w') as f2: 
    f2.write(the_soup.prettify()) 

Но я получаю сообщение об ошибке prettify, не является атрибутом.

+0

Есть ли несколько '' table_id''? –

+0

или он должен быть классным. Тем не менее, я читал беспорядочные таблицы html с тем же идентификатором. – user2883071

ответ

1

soup.findAll вернет список всех элементов таблицы. Вы должны перебирать этот список и распечатывать префиксную версию каждой согласованной таблицы:

with open('prettified.txt','w') as f2: 
    for table in the_soup: 
     f2.write(table.prettify()) 
+0

О, вот где я застрял. Спасибо! – user2883071

Смежные вопросы