Я пытаюсь написать себе простое приложение Python, чтобы получить содержание темы в Википедии. Например, в качестве примера я пытаюсь получить содержимое страницы на плоде apple. Это мой запрос:Запрос Wikipedia API для возврата xml
http://en.wikipedia.org/w/api.php?action=query&prop=revisions&rvprop=content&format=xml&titles=apple
Это то, что выход (отформатированный) выглядит следующим образом:
Но это не выглядит как XML. Это больше похоже на (я думаю) php. Должен ли я просто попытаться проанализировать это с помощью Python или есть лучший способ?
Да, но даже с использованием action = parse не дает другого результата. Означает ли это, что мне нужно написать парсер, если я хочу получить только конкретный раздел с каждой страницы? Я надеялся, что смогу получить кусок текста без всякой специфической битки википедии внутри. – s5s
Вот как хранятся данные. Там есть целая библиотека парсеров. http://www.mediawiki.org/wiki/Alternative_parsers – FlavorScape