2012-02-01 1 views
0

Я думал о возможности написания Java-программы, которая могла бы использовать XML и вставлять его в базу данных. Я извлек сжатый файл страниц в Википедии, поэтому у меня есть его в xml прямо сейчас, а не только в xml.bz2. Я смотрел веб-сайт Википедии, но безуспешно. Не мог найти что-то. Я предполагаю, что это не должно быть очень сложным процессом, и это должно быть простым, и именно поэтому я вас спрашиваю :)Импорт опций Wikipedia xml.bz2

ответ

1

Суффикс .bz2 обозначает компрессию bzip2. Если вы используете Linux или другую ОС Unixish, у вас, вероятно, уже установлен bzip2 decpresor; если вы в Windows, вы можете скачать один here.

Обратите внимание, что существуют библиотеки Java, которые позволяют вам напрямую считывать сжатые потоки bzip2 без необходимости использования внешнего декомпрессора. Один из них можно найти here.

Редактировать: Подождите, я думаю, что неправильно сформулировал ваш вопрос. Похоже, вам уже удалось распаковать дамп XML, и теперь вы хотите знать, что с ним делать. В этом случае вы можете взглянуть на mwdumper.

+0

Да, я нашел mwdumper и, похоже, работает :) спасибо – Andrew

Смежные вопросы