МедиаВики хранит файл данных в двух или трех местах, в зависимости от того, как вы считаете:
Фактические метаданные для текущих версий файлов хранится в таблице image
. Вероятно, это то, чего вы в первую очередь хотите; вы найдете последнюю справку en.wikipedia из этого here.
Данные для старых замененных изменений файла перемещаются в таблицу oldimage
, которая имеет в основном ту же структуру, что и таблица image
. Эта таблица также сбрасывается, последняя - here.
Наконец, каждый файл также (обычно) соответствует довольно обычной обычной вики-странице в пространстве имен 6 (File:
). Вы найдете их в XML-дампах, как и для любых других страниц.
О, и причина, вы не найти те файлы, которые вы связаны с в английской Википедии свалок, что они из общего хранилища на Викискладе. Вместо них вы найдете их в Commons data dumps.
Что касается загрузки фактических файлов, here's the (apparently) official documentation. Насколько я могу судить, все они подразумевают под «Bulk загрузки в настоящее время (по состоянию на сентябрь 2012 года) доступен от зеркала, но не предлагается непосредственно с серверов Викимедиа.» является то, что если вы хотите все изображения в tarball, вам придется использовать зеркало. Если вы только вытаскиваете относительно небольшое количество миллионов изображений на Википедии и/или в Commons, должно быть хорошо использовать серверы Викимедиа напрямую.
Не забудьте проявить основную любезность: отправьте user-agent string, идентифицируя себя и не попадайте слишком сильно на серверы. В частности, я бы рекомендовал загружать загрузки последовательно, чтобы вы только загрузили следующий файл после того, как закончили предыдущий.Мало того, что это проще реализовать, чем параллельная загрузка в любом случае, но это гарантирует, что вы не будете болеть больше, чем ваша доля полосы пропускания, и позволяет скорости загрузки более или менее автоматически адаптироваться к нагрузке на сервер.
Ps. Если вы скачиваете файлы с зеркалом или непосредственно с серверов Wikimedia, ваш будет необходимо выяснить, в каком каталоге они в Типичными URL-файл Википедии выглядеть следующим образом:.
http://upload.wikimedia.org/wikipedia/en/a/ab/File_name.jpg
где «wikipedia/en
» часть идентифицирует проект и язык Викимедиа (по историческим причинам Commons указан как «wikipedia/commons
»), а the "a/ab
" part задается первыми двумя шестнадцатеричными цифрами хэша MD5 имени файла в UTF-8 (поскольку они закодированы в дампах базы данных).
Вот пример второго изображения, которое проявляет те же симптомы. Я пробовал кучу и еще не нашел ни одного, находящегося на свалках. http://en.wikipedia.org/wiki/File:Aerial-SanAndreas-CarrizoPlain.jpg –