2016-04-25 2 views
0

Я хотел бы знать, как извлечь все ссылки Википедии, которые были добавлены и удалены в течение времени для конкретной статьи в Википедии.Wikipedia: Когда были добавлены ссылки?

До сих пор я знаю, как извлечь из Википедии пересмотров в этих вопросах: How to get full Wikipedia revision-history list from some article? А как это сделать в течение определенного временного интервала: API to get Wikipedia revision id by date

К примеру, вот как я получаю содержание ревизии, для временное окно для статьи Germanwings_Flight_9525: https://en.wikipedia.org/w/api.php?action=query&format=xml&prop=revisions&rvlimit=500&titles=Germanwings_Flight_9525&rvstart=20150325180000&rvend=20150323180000&rvprop=ids|timestamp|content

Как получить ссылки, добавленные и удаленные?

Благодаря

+0

Просьба предоставить фрагменты кода, которые вы разработали до сих пор. –

+0

Я еще не работал ни одного кода, я пытаюсь выяснить, есть ли простое решение для получения ссылок (без слишком большого кода регулярного выражения). –

+0

Приведите пример для * 'link' *, потому что существует несколько типов ссылок в Википедии – Termininja

ответ

0

Вы можете получить все ревизии, разделить их на «[[» и искать следующий «|» или "]". С этим вы найдете все ссылки, которые вы можете собрать в списке или что-то еще, чтобы распознать новые.

Смежные вопросы