2013-03-12 2 views
3

Я хочу загрузить все данные из Википедии в Китай (текст + изображения), я загрузил статьи, но я запутался в этих медиафайлах, а также файлы удаленных файлов смехотворно огромны, кто они такие? мне нужно их скачать?Какие файлы для скачивания для всех изображений в Википедии

От: http://ftpmirror.your.org/pub/wikimedia/imagedumps/tarballs/fulls/20121104/

zhwiki-20121104-local-media-1.tar 4.1G 
zhwiki-20121104-remote-media-1.tar 69.9G 
zhwiki-20121104-remote-media-2.tar 71.1G 
zhwiki-20121104-remote-media-3.tar 69.3G 
zhwiki-20121104-remote-media-4.tar 48.9G 

Спасибо!

+0

Я думал, что он огромен, потому что здесь http://www.kiwix.org/wiki/Wikipedia_in_all_languages, я скачал, что 3.2GB файл данных, и он выглядит хорошо (не уверен, что он загружает изображения из википедии или нет) – agou

ответ

1

Я бы предположил, что это медиа-файлы, которые входят в состав Викисклада, которые являются основными изображениями в статьях. Из https://wikitech.wikimedia.org/wiki/Dumps/media:

Для каждой вики, мы дамп изображения, imagelinks и перенаправляет таблицы с помощью /backups/imageinfo/wmfgetremoteimages.py. Файлы записываются в/data/xmldatadumps/public/other/imageinfo/на dataset2.

Из вышесказанного мы затем генерируем список всех удаленно хранимых (то есть на общедоступных) носителях на wiki, используя разные аргументы для одного и того же сценария.

И это не то, что огромный для всех файлов из китайской Википедии :-)

+0

OK спасибо за ссылку ... Кажется, мне придется загружать массивные файлы на некоторых этапах ... – agou