У меня есть веб-страница, с которой я пытаюсь получить дату. Я знаю, что формат, поэтому решение должно быть столь же легко, как time.strptime(format)
, но проблема заключается в следующем:
If string cannot be parsed according to format, or if it has excess data after parsing, ValueError is raised.
Я пытаюсь разобрать то, что выглядит как:Python 3: Разбор даты из строки контейнера
<tr><td align="center"><b>Create time</b></td>
</tr><tr><td align="center" bgcolor="#DDDDDD">Between August 1, 2012, 8:05 pm and August 1, 2012, 8:06 pm</td>
соответствующий формат будет be %B %d, %Y
(на самом деле не важно, в какой дате мне просто нужна дата).
Я мог бы использовать регулярное выражение (например, ([JFMASOND][a-z]{2,8}) ([0-9]{1,2}), ([0-9]{4})
), чтобы получить соответствующую часть строки, но тогда я могу просто получить значения из регулярного выражения и самостоятельно выполнить необходимые преобразования. Есть ли способ использовать strptime на контейнерной строке, так сказать? Для strptime не должно быть слишком сложно просто хрустеть на строку до тех пор, пока она не получит формат соответствия ...
(Если мне это нужно сделать самому, есть ли лучший способ, чем регулярное выражение?)
Прежде всего, вы используете синтаксический анализатор XML для анализа HTML-кода, правильно? – MiJyn
@lkjoel: Я бы не использовал XML-синтаксический анализатор для анализа HTML. Используйте BeautifulSoup. – Blender
Что такое парсинг? Мне нужна только дата на странице. – Dubslow