Мне нужно извлечь данные из таблиц в дампе вики в несколько удобной форме, например. список списков. Однако из-за формата дампа это выглядит довольно сложно. Я знаю о WikiExtractor, который полезен для получения чистого текста с дампа, но он вообще не удаляет таблицы. Есть ли синтаксический анализатор, который бы обеспечивал мне удобные для чтения таблицы таким же образом?Существует ли существующая библиотека для анализа таблиц Wikpedia из дампа?
0
A
ответ
0
Мне не удалось найти хороший способ проанализировать таблицы Википедии из XML-дампов. Однако, похоже, некоторые способы сделать это с помощью парсеров HTML, например. wikitables парсер. Для этого потребуется много скрепов, если вам не нужно анализировать только таблицы с определенных страниц. Тем не менее, представляется возможным сделать его в автономном режиме, как это кажется HTML Wiki отвалы собирается возобновить (dumps, phabricator task)
Смежные вопросы
- 1. Существующая системная библиотека C++ * nix?
- 2. Пользовательская библиотека .Net или существующая библиотека для обработки форматирования последовательности?
- 3. Инструменты для анализа дампа ядра из Node.js
- 4. Библиотека для чтения дампа MySQL?
- 5. Существует ли существующая библиотека методов расширения для C#? или поделиться своим собственным
- 6. OpenSSL существующая библиотека в Android
- 7. Библиотека для анализа mp3s
- 8. Выразительная библиотека python для синтаксического анализа HTML-таблиц
- 9. Библиотека для анализа звука
- 10. Сценарии Gdb для анализа дампа ядра
- 11. Библиотека Java для анализа кода
- 12. Как использовать таблицу DROP, ЕСЛИ СУЩЕСТВУЕТ СУЩЕСТВУЮЩАЯ СУЩЕСТВУЮЩАЯ процедура MySQL
- 13. Инструмент/метод анализа дампа нитей
- 14. Услуги WCF RIA и существующая библиотека
- 15. Библиотека для анализа исполняемых файлов
- 16. Библиотека для анализа операторов SQL
- 17. Как получить SLC.pdb для анализа дампа памяти
- 18. Существует ли существующая библиотека, которая имеет функции Matlab, реализованные в C/CPP/Obj-C?
- 19. Как реализовать структуру данных графа в java? Существует ли существующая библиотека?
- 20. Библиотека C++ для анализа журналов
- 21. Java библиотека для анализа HTML
- 22. Существует ли библиотека LDAP для JME?
- 23. Существует ли библиотека TypeScript для распознавания речи?
- 24. Контейнер ссылки «Android зависимостями» не существующая библиотека
- 25. PHP + MySQL + CodeIgniter: проверьте, существует ли существующая строка
- 26. Java библиотека для анализа текста и подсчитывает
- 27. Библиотека анализа настроений C++
- 28. Существует ли библиотека транслитерации .NET?
- 29. Таблицу базы данных дампа или удаленную работу для анализа?
- 30. Существует ли существующая концепция разрешения на использование в waadin JPAContainer?
Вы проверили здесь: https://www.mediawiki.org/wiki/API:Main_page –
@joelgoldstick , Я просмотрел страницу [parser list page] (https://www.mediawiki.org/wiki/Alternative_parsers), и я изучил некоторые из них, и я еще не нашел тот, который соответствует моим потребностям (XML дампы, один я могу использовать - Python или автономный). Некоторые из них, например. DizzyLogic, даже не доступны. Вот почему я решил спросить, кто-нибудь уже использовал один из парсеров, который может представлять таблицы аккуратно. API не помогает, поскольку он не имеет ничего общего с XML-дампами. – Vilmar