2016-03-17 2 views
0

Я пытаюсь использовать BeautifulSoup для извлечения данных из таблицы HTML и преобразования его в фрейм-фрейм 7 с столбцами: дата, транзакция, номер манифеста, дата отправления, тип оплаты, сумма и предоплата Баланс.Использование BeautifulSoup для парсов Таблица

Отрывок из моего кода до сих пор:

def find_account_status(htmls): 
soup = BeautifulSoup(htmls) 
table = soup.find('table', border="0", cellpadding="2") 
table2 = table.find_all("td", {"class": "bodytext"}, text=True) 
print(table2.text.split()) 

Вот отрывок из HTML Я пытаюсь извлечь: enter image description here

ответ

0

Вы можете использовать pandas.read_html():

import pandas as pd 

soup = BeautifulSoup(htmls) 
table = soup.find('table', border="0", cellpadding="2") 
df = pd.read_html(str(table))[0] 
+0

Пробовал загружая lxml из Pycharm, но я получаю следующую ошибку: ERROR: b "'xslt-config' не распознается как внутренняя или внешняя команда, \ r \ nпеременная программа или пакетный файл. \ r \ n" –

+0

Потому что, когда я запускаю свой код, я получаю сообщение об ошибке «lxml не найден, пожалуйста, установите его» –

+0

@RileyHun, есть много информации о проблемах и решениях по установке lxml, просто их Google. Или вы можете изменить парсер, предоставив аргумент 'flavor' ([docs] (http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_html.html)). – alecxe

Смежные вопросы