Мне нужно извлечь различные поля, связанные с новостными статьями, и я смог автоматизировать большинство из них, кроме опубликованной даты новостей. В настоящее время я вручную перехожу на соответствующий веб-сайт, проверяю тег HTML, связанный с опубликованной датой, и пишу jQuery для извлечения даты и реализации этого же в pyquery. Тем не менее, я хочу также удалить этот один шаг вручную и написать общий веб-скребок для новостных веб-сайтов, таких как NY Times и т. Д. Ближе всего я могу написать много регулярных выражений, которые могут соответствовать формату datetime в DOM но не может понять, как он может различать фактическую опубликованную дату и любую другую дату, которая может присутствовать в самой фактической статье. Я исследовал и понял, что как Google, так и Duckduckgo показывают временную метку статьи в результатах поиска, поэтому ее можно реализовать.Получите опубликованную дату новостей с помощью поискового робота Python
Редактировать: Я считаю, что язык моего вопроса был не очень ясным, поэтому мой вопрос заключается в том, есть ли способ очистить опубликованную дату от любой статьи новостей автоматически, то есть общий искатель, который может извлечь опубликованную дату из сообщений в блоге или статьи новостей.
У вас есть вопросы? – JJJ
Извинения, но я улучшил язык моего вопроса – ankits