Ниже код может извлечь PE из ссылки reuters ниже. Однако мой метод не является надежным, так как веб-страница для другого запаса имеет две строки меньше и приводит к смещению данных. Как я могу столкнуться с этой проблемой. Я хотел бы указать прямо на часть PE для извлечения данных, но не знаю, как это сделать. ссылка 1: http://www.reuters.com/finance/stocks/financialHighlights?symbol=MYEG.KL ссылка 2: http://www.reuters.com/finance/stocks/financialHighlights?symbol=ANNJ.KLPython: lxml xpath для извлечения содержимого
from lxml import html
import lxml
page2 = requests.get('http://www.reuters.com/finance/stocks/financialHighlights?symbol=MYEG.KL')
treea = html.fromstring(page2.content)
tree4 = treea.xpath('//td[@class]/text()')
PE= tree4[37]
Это часть я хочу, что код может извлечь только эту часть, так что любые изменения в веб-страницы не будут затронуты.
<tr class="stripe">
<td>P/E Ratio (TTM)</td>
<td class="data">36.79</td>
<td class="data">25.99</td>
<td class="data">21.70</td>
</tr>