Получение конкретная «страница» из XML Википедии дампа

ОК, так это то, что мне нужно:Получение конкретная «страница» из XML Википедии дампа

Я скачал и извлек полную Википедия XML дампа (> 40GB, один файл XML)
Мне нужно получить один конкретный элемент <page> (например, страница для записи «Италия»)

Как это сделать? (Желательно с помощью PHP-кода или какого-либо существующего инструмента)

2014-01-20 Dr.Kameleon

@ Dagon Ну, очевидно. Точка * как *? Видите ли, я действительно боюсь иметь дело с таким огромным количеством данных: как насчет скорости? (поиск, учитывая, что сортировки нет, определенно займет довольно много времени, нет?) Кроме того, как насчет памяти? (Очевидно, не загружать весь документ в память) –

Любые обновления по этому вопросу? – user86895

Нет гарантии, что полный контент страницы будет последовательно расположен, изменения могут быть в любом месте одного и того же файла или даже в разных XML-файлах.

Пожалуйста, используйте либо web API's action=export в худшем случае Special:Export. Не добавлять ссылку здесь, потому что выход огромен.

источник

2015-04-27 23:22:47 Nemo

Получение конкретная «страница» из XML Википедии дампа

ответ

Смежные вопросы