2015-10-11 4 views
0

Я пытаюсь сделать некоторые исследования по данным Википедии, я хорошо Python.Библиотека Python для доступа к локальной википедии?

Я наткнулся на эту библиотеку, кажется, хорошо: https://pypi.python.org/pypi/wikipedia/

Я не хочу, чтобы ударить википедии непосредственно как это происходит медленно, а также я пытаюсь получить доступ к большой объем данных и может работать в их пределах API ,

Могу ли я как-то взломать, чтобы это сделать доступ локального экземпляра данных Википедии. Я знаю, что могу запустить целый сервер википедии и попытаться сделать это, но это кажется крутым.

Есть ли способ, чтобы просто указать папку и получить эту библиотеку, чтобы работать, как это делает. Или вы знаете о каких-либо других библиотеках, которые это делают?

спасибо.

+0

Что вы называете * локальный экземпляр данных википедии *? Локальный медиа-вики-сервер? HTML-изображения некоторых страниц в Википедии? Что-нибудь другое? В настоящее время этот вопрос кажется * непонятным * ... –

+0

Мой опыт может быть полезен для вас. Сценарий, поиск в Википедии и организовать весь текст в статье для текста в речь программное обеспечение: http://bazaar.launchpad.net/~dragonos/dragonfire/desktop/view/head:/getcommand.py – mertyildiran

+0

@SergeBallesta I думаю, что wikipedia предлагает сжатый ночной дамп для загрузки, я говорил о том, что этот дамп хранится в папке локально. Не полный сервер мультимедиа. – jason

ответ

2

Я понял, что мне нужно. Я думаю, что я не должен искать API, то, что я ищу, является парсером. Вот несколько вариантов, которые я сузил до сих пор. Оба кажутся прочными отправными точками.

wikidump: https://pypi.python.org/pypi/wikidump/0.1.2

mwlib: https://pypi.python.org/pypi/mwlib/0.15.14

Update: В то время как эти хорошие парсеров для данных Википедии, я нашел их слишком ограничивающими так или иначе, не говоря уже об отсутствии документации , Поэтому я в конце концов пошел с хорошим старым python ElementTree и напрямую работал с XML.

Смежные вопросы