Я получаю вторую таблицу от this page, анализирую ее и пытаюсь генерировать хэши из этих данных. Проблема в том, что каждый объект разделяется этим серым TR
, но я могу справиться с этим, получив каждый из TR
из этой таблицы.Создание хэшей из разобранного HTML
Как я могу определить надлежащее TR
, получив между серыми?
Сейчас я использую эту линию, чтобы получить каждый TR
:
parsed_html.css("table")[1].css("tr")
EDIT:
Я не знаю, если Hash это хороший способ для решения этой задачи, но вот JSON для раздела «ПОДЪЕМ И ОБРАБОТКА» (это образец один и не стесняйтесь исправить меня):
{
"chapter":"07",
"title":"LIFTING AND SHORING",
"description":"This chapter shall...",
"section":[
{
"number":"00",
"title":"GENERAL",
"description":"",
},
{
"number":"10",
"title":"JACKING",
"description":"Provides information relative...",
},
{
"number":"20",
"title":"SHORING",
"description":"Those instructions necessary...",
}
]
}
Вам нужно определить, какие из 'tr' элементы содержат' тд [BGCOLOR] '- это те серые строки, которые вам потом необходимо исключить. – BoltClock
Просто покажите мне простые снимки желаемого хэша, чтобы я мог понять, какие данные вы пытаетесь получить, каковы ключи и каковы значения? –
@Babai Я добавил то, что мне нужно в JSON в моем первом сообщении. Надеюсь, что вы получите мой POV :) – cojoj