2016-07-08 2 views
0

Мне нужно извлечь данные из таблиц в дампе вики в несколько удобной форме, например. список списков. Однако из-за формата дампа это выглядит довольно сложно. Я знаю о WikiExtractor, который полезен для получения чистого текста с дампа, но он вообще не удаляет таблицы. Есть ли синтаксический анализатор, который бы обеспечивал мне удобные для чтения таблицы таким же образом?Существует ли существующая библиотека для анализа таблиц Wikpedia из дампа?

+0

Вы проверили здесь: https://www.mediawiki.org/wiki/API:Main_page –

+0

@joelgoldstick , Я просмотрел страницу [parser list page] (https://www.mediawiki.org/wiki/Alternative_parsers), и я изучил некоторые из них, и я еще не нашел тот, который соответствует моим потребностям (XML дампы, один я могу использовать - Python или автономный). Некоторые из них, например. DizzyLogic, даже не доступны. Вот почему я решил спросить, кто-нибудь уже использовал один из парсеров, который может представлять таблицы аккуратно. API не помогает, поскольку он не имеет ничего общего с XML-дампами. – Vilmar

ответ

0

Мне не удалось найти хороший способ проанализировать таблицы Википедии из XML-дампов. Однако, похоже, некоторые способы сделать это с помощью парсеров HTML, например. wikitables парсер. Для этого потребуется много скрепов, если вам не нужно анализировать только таблицы с определенных страниц. Тем не менее, представляется возможным сделать его в автономном режиме, как это кажется HTML Wiki отвалы собирается возобновить (dumps, phabricator task)

Смежные вопросы