https://en.wikipedia.org/wiki/List_of_largest_companies_by_revenueвыражения Python Regex для разбора HTML-документа
Я пытаюсь найти название компаний, в порядке доходов. Это немного сложно, потому что в названиях есть разные отформатированные теги. Если бы кто-нибудь мог придумать решение, я был бы очень благодарен.
Пример моей проблемы:
Я хотел бы, чтобы соответствовать "Wal-Mart Stores Inc." а затем «Sinopec Group» и так далее.
<td><a href="/wiki/Wal-Mart_Stores,_Inc." title="Wal-Mart Stores, Inc."class="mw-redirect">Wal-Mart Stores, Inc.</a></td>
... далее в документе ...
<td style="background: #ffffcc;"><a href="/wiki/Sinopec_Group" title="Sinopec Group" class="mw-redirect">Sinopec Group</a></td>
Спасибо заранее.
первый, вероятно, вы не хотите, регулярное выражение. Во-вторых, похоже, что все они привязаны к классу 'mw-redirect' ... Что-то вроде' BeautifulSoup' должно быть в состоянии выбирать элементы на основе этого ... – mgilson
Я понимаю, что я должен использовать 'BeautifulSoup', хотя Я должен использовать регулярное выражение. –
Почему бы вам не использовать необработанные данные? –