Мне нужно сделать регулярное выражение, чтобы взять время и дату из текста. Я пробовал:Регулярное выражение Python - получить время и дату
re.compile("title=\".* js-short-timestamp")
мне нужно получить только что-то вроде:
21:14 - 2 de out de 2013
15:13 - 1 de out de 2013
14:16 - 1 de out de 2013
15:58 - 14 de set de 2013
16:06 - 13 de set de 2013
14:59 - 13 de set de 2013
12:43 - 13 de set de 2013
09:33 - 13 de set de 2013
набл: (я использовал некоторые re.sub получить только эти вещи) Но иногда я получаю:
18:30 - 11 de jul de 2011 href=https://twitter.com/XXXXXXXX/status/90533484464054272
22:10 - 3 de jul de 2011 href=https://twitter.com/XXXXXXXXX/status/87689583726313472
Пример моего текста:
(набл первым с-данных или iginal титульный моя проблема, потому что я получаю HREF .. и я не хочу.)
<a data-original-title="16:06 - 17 de jun de 2013" href="https://twitter.com/XXXXXXXX/status/346705537934712832" class="tweet-timestamp js-permalink js-nav js-tooltip"><span class="_timestamp js-short-timestamp " data-time="1371496016" data-long-form="true">17 de jun</span></a>
</small>
<a href="https://twitter.com/XXXXXXXX/status/407906654579998720" class="tweet-timestamp js-permalink js-nav js-tooltip" title="14:18 - 3 de dez de 2013">span class="_timestamp js-short-timestamp " data-time="1386087499" data-long-form="true">3 de dez</span></a>
Почему бы не использовать H TML-анализатор вместо этого? –