2012-05-23 3 views
2

Я пытаюсь написать себе простое приложение Python, чтобы получить содержание темы в Википедии. Например, в качестве примера я пытаюсь получить содержимое страницы на плоде apple. Это мой запрос:Запрос Wikipedia API для возврата xml

http://en.wikipedia.org/w/api.php?action=query&prop=revisions&rvprop=content&format=xml&titles=apple 

Это то, что выход (отформатированный) выглядит следующим образом:

http://pastebin.com/LNdDjXFj

Но это не выглядит как XML. Это больше похоже на (я думаю) php. Должен ли я просто попытаться проанализировать это с помощью Python или есть лучший способ?

ответ

0

Это не PHP, это форматирование медиа-вики.

Посмотрите на форматирование страницы мвт: http://www.mediawiki.org/wiki/API:Parsing_wikitext

Лично JSON отформатирована версия выглядит лучше меня (как только это разобрано).

+0

Да, но даже с использованием action = parse не дает другого результата. Означает ли это, что мне нужно написать парсер, если я хочу получить только конкретный раздел с каждой страницы? Я надеялся, что смогу получить кусок текста без всякой специфической битки википедии внутри. – s5s

+0

Вот как хранятся данные. Там есть целая библиотека парсеров. http://www.mediawiki.org/wiki/Alternative_parsers – FlavorScape

Смежные вопросы