2014-01-20 4 views
3

ОК, так это то, что мне нужно:Получение конкретная «страница» из XML Википедии дампа

  • Я скачал и извлек полную Википедия XML дампа (> 40GB, один файл XML)
  • Мне нужно получить один конкретный элемент <page> (например, страница для записи «Италия»)

Как это сделать? (Желательно с помощью PHP-кода или какого-либо существующего инструмента)

+0

@ Dagon Ну, очевидно. Точка * как *? Видите ли, я действительно боюсь иметь дело с таким огромным количеством данных: как насчет скорости? (поиск, учитывая, что сортировки нет, определенно займет довольно много времени, нет?) Кроме того, как насчет памяти? (Очевидно, не загружать весь документ в память) –

+0

Любые обновления по этому вопросу? – user86895

ответ

0

Нет гарантии, что полный контент страницы будет последовательно расположен, изменения могут быть в любом месте одного и того же файла или даже в разных XML-файлах.

Пожалуйста, используйте либо web API's action=export в худшем случае Special:Export. Не добавлять ссылку здесь, потому что выход огромен.

Смежные вопросы