Parse Wikipedia дамп в простой текст, где сохранение структуры (разделов)

Я искал парсер wikipedia dump в настраиваемый xml, в основном каждая статья должна анализироваться в виде набора тегов раздела, содержащего раздел простого текста статьи. Подхожу со следующими растворамиParse Wikipedia дамп в простой текст, где сохранение структуры (разделов)

Проблема с первым является то, что он доступен только на окнах, а второй не дают возможность создания разделов во вложенной xml-схеме. Предыдущие реализации mwlib, похоже, предоставляют такие возможности, но, к сожалению, новых версий нет. Есть ли какой-либо wikipedia xml dump parser на linux, который может создавать настраиваемые xmls?

источник

2016-02-21 Yamen Ajjour

Я думаю, что это выполнимо с помощью jsonwikipedia [1]. который генерирует «json dump» из дампа XML Википедии. Более подробную информацию о jsonwikipedia и других инструментов в этом блоге [2]

[1] - https://github.com/idio/json-wikipedia

[2] - http://engineering.idioplatform.com/2016/02/18/wikipedia-toolkit.html

источник

2016-02-25 14:07:19

Parse Wikipedia дамп в простой текст, где сохранение структуры (разделов)

ответ

Смежные вопросы