Я использую REGEX для компиляции списка строк из HTML-документа в Python. Эти строки находятся внутри тега td (<td>SOME OF THE STRINGS COULD BE HERE</td>
) или внутри тега div (<div style="line-height: 100%;margin:0;padding:0;">SOME STRINGS COULD ALSO BE HERE</div>
).Объединение двух REGEX в Python для компиляции
Поскольку порядок строк в конечном списке должен соответствовать порядку, в котором они отображаются внутри HTML-документа, я ищу REGEX, который позволит мне скомпилировать все эти строки, учитывая оба возможных случая.
Я знаю, как сделать это в индивидуальном порядке с чем-то, что выглядит как:
FindStrings = re.compile('(?<=\<td>)(.*?)(?=\</td>)')
MyList = re.findall(FindStrings, str(mydocument))
для первого случая, но хотел бы знать наиболее эффективный способ объединить оба случая в уникальном Regex.
Почему вы не используете beautifulsoup? –