Я пытаюсь узнать beautifulsoup, чтобы отказаться от HTML и выполнить сложную задачу. HTML Я пытаюсь скрапа не очень хорошо отформатирован и с отсутствием знаний с BeautifulSoup я вроде застряли ..Beautifulsoup Table Скребок таблицы навигации
HTML, я пытаюсь лом, как показано ниже
<table>
<tr>
<td><b>Value 1<b/>HiddenValue1</td>
<td>Value 2</td>
</tr>
<tr>
<td>NoValue</td>
</tr>
<tr>
<td><b>Value 3<b/>HiddenValue2</td>
<td>Value 4</td>
</tr>
</table>
Так что исход я Я пытаюсь получить, извлекает все строки с двумя td-тегами. Это будет извлечение первого и последнего tr. Как только я их получу, мне нужно упорядочить эти td и b и просто текст в словарь.
Мой желаемый результат список словаря
[
{ tdb : 'Value 1', tdHidden : 'HiddenValue1', tdSecond : 'Value 2' },
{ tdb : 'Value 3', tdHidden : 'HiddenValue2', tdSecond : 'Value 4' },
]
Я пытаюсь использовать FindAll функцию(), но не знаете, как проверить длину детей тд теги, а также не уверен, как перейти к первому td и second td ..
Заранее за вашу помощь!
EDIT:
могли бы вы также помочь с тем, как получить «GetThisValue» и «Current» с в теге тд?
<td align="left" valign="top">
<b>Value1</b>
<br>
<font>
<b>Current</b>
</font>
<br>
GetThisValue
</td>
ли мой ответ для вас работу? –
Да! Спасибо за начальную помощь ... теперь это имеет смысл. – superted
Я обновил вопрос. Не могли бы вы помочь мне с частью EDIT? – superted