Я новичок в LXML, совершенно новый для питона и не смог найти решение следующего:питона, LXML и XPath - HTML таблицы синтаксического анализ
Мне нужно импортировать несколько таблиц с 3-мя колонны и неопределенными количество строк, начиная со строки 3.
Когда второй столбец любой строки пуст, эта строка отбрасывается и обработка таблицы прерывается.
Следующий код выводит штраф данных таблицы (но я не могу повторно использовать данные впоследствии):
from lxml.html import parse
def process_row(row):
for cell in row.xpath('./td'):
print cell.text_content()
yield cell.text_content()
def process_table(table):
return [process_row(row) for row in table.xpath('./tr')]
doc = parse(url).getroot()
tbl = doc.xpath("/html//table[2]")[0]
data = process_table(tbl)
Это печатает только первый столбец :(
for i in data:
print i.next()
только следующее импортировать третий ряд, а не последующие
tbl = doc.xpath("//body/table[2]//tr[position()>2]")[0]
Любое знает, все данные из строки 3 в tbl и скопировать его в массив, чтобы его можно было обработать в модуле без зависимости lxml?
Заранее спасибо за вашу помощь, Алекс
Не могли бы вы вставить исходный документ (или часть) и ожидаемый результат? Я не эксперт в python, но я хорошо разбираюсь в xpath, и я думаю, что смогу вам помочь. – prostynick
исходный документ доступен здесь (только между 06 ч. 00 м. И 22 ч. 00 м.): http://tinyurl.com/yj4corh – user191131
ожидаемый результат: [['Premier', '05', 'name1'], [u'Deuxi \ xe8me ',' 13 ',' name2 ']] – user191131