Я новичок в программировании и python. Но я хочу разобрать HTML в моем скрипте python.Как выбрать конкретную таблицу веб-страницы с помощью Python
Вот это веб-страница: http://stock.finance.sina.com.cn/hkstock/finance/00759.html
Вопрос 1:
Эта страница о финансовой информации определенной доли. Эти четыре таблицы о:
- сводные финансовые показатели,
- Баланс,
- Cash Flow
- о прибылях и убытках.
И я хочу, чтобы извлечь информацию из таблицы 3 & 4. Вот мой код:
import urllib
from bs4 import BeautifulSoup
url = 'http://stock.finance.sina.com.cn/hkstock/finance/00759.html'
html = urllib.urlopen(url).read() #.read() mean read all into a string
soup = BeautifulSoup(html, "lxml")
table = soup.find("table", { "class" : "tab05" })
for row in table.findAll("tr"):
print row.findAll("td")
Но этот код только может получить первую информацию таблицы. Как изменить код, чтобы получить информацию о третьей и четвертой таблицах? Я обнаружил, что эти 4 таблицы не содержат уникальный идентификатор или имя класса, я не знаю, как их найти ....
Вопрос 2:
Кроме того, это упрощает китайский веб-страницы, как сохранить оригинал текст на выходе?
Вопрос 3:
В правом верхнем углу каждой таблицы, есть выпадающее меню для выбора присвоенного периода, а именно: «Все», «Весь год», «Полгода», «Первый квартал» и «Третий квартал». Может ли urllib
изменить это выпадающее меню?
спасибо.
Спасибо. Возможно, я неправильно понимаю ваш смысл. Я переписываю код, но я не могу получить всю информацию из этой таблицы. Последняя цифра, полученная от этого кода, составляет «-45.7852», что составляет только половину этой таблицы. – Seelfun
Это странно ... Шахта показывает, что >>> table = soup.findAll ("table", {"class": "tab05"}) >>> len (table) >>> 4 – Rick
Пожалуйста, запустите html = urllib .urlopen (url) .read() снова, чтобы убедиться, что это не проблема подключения. – Rick