2013-04-09 2 views
3

Я использую Mediawiki api, чтобы получить содержание с страниц Википедии. Я написал код, который генерирует следующий запрос (к примеру):Как получить Википедию «чистый» контент?

http://en.wikipedia.org/w/api.php?action=query&prop=revisions&rvprop=content&rvsection=0&titles=hawaii

который извлекает только ведущий абзац на странице Wikipdia о Гавайях.

Проблема заключается в том, что, как вы могли заметить, что есть много неуместных подстроки, такие как:

"[[Molokai|Moloka{{okina}}i]], [[Lanai|Lāna{{okina}}i]], [[Kahoolawe|Kaho{{okina}}olawe]], [[Maui]] and the [[Hawaii (island)|".

Все эти штрихи [[]] не имеют отношения к делу, и я задаюсь вопросом, существует ли какой-либо метод, чтобы вытащить только «чистый» контент с таких страниц?

Заранее спасибо.

+0

Действительно ли вы хотите, чтобы на первом раздел, или это был только пример? – svick

ответ

0

пожалуйста, попробуйте следующее:

$ = preg_replace соответствующий ('/[[.*?]]/', '', $ строка);

EDIT: только что this - надеюсь, что это полезно

+2

Это также удаляет фактические метки ссылок. – Evert

+0

Спасибо, это на самом деле отвечает моим потребностям - но я создал веб-приложение, поэтому я буду искать подобную веб-подобную функцию. – 2013-04-09 20:02:28

Смежные вопросы