1
Я хочу разобрать всю таблицу из финансов yahoo. Как я понимаю «TBODY» и «потока, а» метки не регистрируются LXML, а в качестве дополнительного т.р., так что я включил XPath от:Python 3.4: LXML: Parsing Tables
/html/body/div[4]/div[4]/table[2]/tbody/tr[2]/td/table[2]/tbody/tr/td/table/tbody
к тому, что видно в коде ниже
url = 'http://finance.yahoo.com/q/is?s=MMM+Income+Statement&annual'
tree = html.parse(url)
tick_content = [td.text_content() for td in tree.xpath('/html/body/div[4]/div[4]/table[2]/tr[3]/td/table[2]/tr[1]/td/table/td[1]')]
print(tick_content)
Я возвращаю пустой экран. Есть ли особый способ разобрать таблицу orrrr?
Когда путь не работает, удалите элементы с конца, пока вы не получите результаты. В '/ html/body/div [4]/div [4]/table [2]/tr [3]/td' нет элементов'
Созданный браузером XPath, как правило, довольно сложно перевести на другой синтаксический разбор того же HTML. Вы бы лучше посмотрели на собственно HTML. –
Текущий веб-сайт, на котором я синтаксический анализ: [http://finance.yahoo.com/q/is?s=MMM+Income+Statement&annual] Я уверен, что правильно настроил теги tr. –
ответ
Вместо использования огромного длинного XPath, созданного Chrome, вы можете просто найти таблицу с классом
yfnc_tabledata1
; есть только одного:добраться до вашего
<td>
оттуда:источник
2015-06-12 11:21:03
как всегда супер полезно! :-D –
Если у вас есть какие-либо данные о том, как положить это в более удобный формат, я был бы признателен. Может быть, было бы лучше очистить каждую отдельную статистику и форматировать ее таким образом? –
@AranFreel: да, вам придется разбирать информацию из таблицы оттуда. –
Смежные вопросы