Я думал о возможности написания Java-программы, которая могла бы использовать XML и вставлять его в базу данных. Я извлек сжатый файл страниц в Википедии, поэтому у меня есть его в xml прямо сейчас, а не только в xml.bz2. Я смотрел веб-сайт Википедии, но безуспешно. Не мог найти что-то. Я предполагаю, что это не должно быть очень сложным процессом, и это должно быть простым, и именно поэтому я вас спрашиваю :)Импорт опций Wikipedia xml.bz2
0
A
ответ
1
Суффикс .bz2
обозначает компрессию bzip2. Если вы используете Linux или другую ОС Unixish, у вас, вероятно, уже установлен bzip2 decpresor; если вы в Windows, вы можете скачать один here.
Обратите внимание, что существуют библиотеки Java, которые позволяют вам напрямую считывать сжатые потоки bzip2 без необходимости использования внешнего декомпрессора. Один из них можно найти here.
Редактировать: Подождите, я думаю, что неправильно сформулировал ваш вопрос. Похоже, вам уже удалось распаковать дамп XML, и теперь вы хотите знать, что с ним делать. В этом случае вы можете взглянуть на mwdumper.
Смежные вопросы
- 1. Чтение очень большие файлы .xml.bz2
- 2. Parse Wikipedia Dump (.xml-файл)
- 3. Импорт данных цепочки опций из Bloomberg
- 4. Динамический импорт опций на верблюжьих маршрутах
- 5. MongoDb импорт, ошибка слишком много позиционных опций
- 6. импорт wikipedia статьи с помощью wget или curl (на окнах)
- 7. Развернуть шаблоны и wikitext в html в wikipedia (Replicating wikipedia)
- 8. Query wikipedia
- 9. wikipedia scrapping with wikipedia 1.4.0: Как пропустить плохие результаты?
- 10. Wikipedia Отображение списка изображений из wikipedia xml api
- 11. Wikipedia API для python
- 12. Wikipedia text загрузить
- 13. анализ содержимого страницы wikipedia
- 14. Wikipedia Search Page
- 15. Parser for Wikipedia
- 16. Wikipedia Reader на iPhone
- 17. wikipedia page view statistcs
- 18. Файлы дампинга Wikipedia
- 19. Wikipedia API: статьи рейтинг
- 20. wikipedia template data api
- 21. Wikipedia Infobox Parser
- 22. Actioncript/Wikipedia API
- 23. Wikipedia API infobox
- 24. Wikipedia AJAX вызова
- 25. Индексирование wikipedia с solr
- 26. Multistream Wikipedia dump
- 27. Wikipedia API запрос редиректа
- 28. java.util.Scanner и Wikipedia
- 29. Basic BeautifulSoup Wikipedia scrape
- 30. страница редактирования Wikipedia, badtoken
Да, я нашел mwdumper и, похоже, работает :) спасибо – Andrew