2015-03-16 3 views
2

Мне нужно получить доступ к очень старым википедии (резервные копии Википедии) на французском языке. Мне удалось найти резервную копию 2010 года с archive.org, и теперь я ищу 2006 или даже раньше. Я знаю, что в последних дампах есть все данные предыдущих, но мне нужно настроить на своем компьютере версию Википедии, как это было, например, в 2006,2010,2012. Вещь, которая, я думаю, невозможна для последних дампов.Как найти старые свалки википедии

Большое спасибо за помощь.

+0

Если вы ищете конкретную статью, проверьте историю изменений статьи (вкладка «Просмотр HIstory» в верхнем правом углу). Он позволяет просматривать статью в определенный момент времени. –

ответ

2

Там, кажется, статический HTML отвалов с ноября 2006 года, можно посмотреть здесь: http://dumps.wikimedia.org/other/static_html_dumps/

Кроме того, если вы получите полный дамп (с историей редактирования), можно фильтровать, чтобы удалить все ревизии позднее определенной даты - тогда вы должны иметь возможность просмотреть его с этой даты (кроме материалов, которые позже были удалены, а значит, и не на дампе).

+1

Ecelent спасибо! можете ли вы сказать мне в нескольких словах, как я могу удалить все изменения с определенной даты? –

+0

Не совсем - вам нужно будет просмотреть структуру таблиц (возможно, таблицу ревизий) и вычислить соответствующий SQL. Пожалуйста, напишите, что вы разрабатываете, чтобы другие могли извлечь выгоду. (Также, upvote было бы хорошо. ;-)) –

+0

На самом деле, я хочу сделать поисковую систему поверх статического дампа википедии ... так что эта дампа полна для этого? –

3

Фонд Викимедиа предоставляет доступ к некоторым старым свалки on their website. Обратите внимание, что некоторые из них используют другую схему по сравнению с современной Википедией, поэтому вам может потребоваться изменить свои инструменты при работе с ними.

Другие архивы также доступны на Archive.org.

0

К сожалению, Wikimedia не хранит все исторические дампы (за некоторыми исключениями, отмеченными другими).

Учитывая ваш случай использования, я настоятельно рекомендую использовать JWPL Википедии Revision Toolkit: https://dkpro.github.io/dkpro-jwpl/WikipediaRevisionToolkit/

В частности, вы, вероятно, оценят пакет «Time Machine», который позволяет реконструировать состояние Википедии в некоторых прошлая дата. https://dkpro.github.io/dkpro-jwpl/TimeMachine/

Хотя я не использовал эту функцию специально, у меня был большой успех с использованием Revision Toolkit для других целей. Пакет JWPL содержит и другие очень полезные инструменты.

Смежные вопросы