2016-02-21 2 views
0

Я искал парсер wikipedia dump в настраиваемый xml, в основном каждая статья должна анализироваться в виде набора тегов раздела, содержащего раздел простого текста статьи. Подхожу со следующими растворамиParse Wikipedia дамп в простой текст, где сохранение структуры (разделов)

Проблема с первым является то, что он доступен только на окнах, а второй не дают возможность создания разделов во вложенной xml-схеме. Предыдущие реализации mwlib, похоже, предоставляют такие возможности, но, к сожалению, новых версий нет. Есть ли какой-либо wikipedia xml dump parser на linux, который может создавать настраиваемые xmls?

ответ

Смежные вопросы