2014-12-28 1 views
-6

Мне нужно извлечь различные поля, связанные с новостными статьями, и я смог автоматизировать большинство из них, кроме опубликованной даты новостей. В настоящее время я вручную перехожу на соответствующий веб-сайт, проверяю тег HTML, связанный с опубликованной датой, и пишу jQuery для извлечения даты и реализации этого же в pyquery. Тем не менее, я хочу также удалить этот один шаг вручную и написать общий веб-скребок для новостных веб-сайтов, таких как NY ​​Times и т. Д. Ближе всего я могу написать много регулярных выражений, которые могут соответствовать формату datetime в DOM но не может понять, как он может различать фактическую опубликованную дату и любую другую дату, которая может присутствовать в самой фактической статье. Я исследовал и понял, что как Google, так и Duckduckgo показывают временную метку статьи в результатах поиска, поэтому ее можно реализовать.Получите опубликованную дату новостей с помощью поискового робота Python

Редактировать: Я считаю, что язык моего вопроса был не очень ясным, поэтому мой вопрос заключается в том, есть ли способ очистить опубликованную дату от любой статьи новостей автоматически, то есть общий искатель, который может извлечь опубликованную дату из сообщений в блоге или статьи новостей.

+3

У вас есть вопросы? – JJJ

+0

Извинения, но я улучшил язык моего вопроса – ankits

ответ

1

Там нет универсального способа, чтобы получить дату новостной статья была написана (хотя вы можете создать правило для разбора каждого сайта новостей), но вы можете получить дату последнего изменения на страницы с помощью document.lastModified в Javascript или разборе поле Last-Modified от HTTP header.

Смежные вопросы