Я использую Mediawiki api
, чтобы получить содержание с страниц Википедии. Я написал код, который генерирует следующий запрос (к примеру):Как получить Википедию «чистый» контент?
который извлекает только ведущий абзац на странице Wikipdia о Гавайях.
Проблема заключается в том, что, как вы могли заметить, что есть много неуместных подстроки, такие как:
"[[Molokai|Moloka{{okina}}i]], [[Lanai|Lāna{{okina}}i]], [[Kahoolawe|Kaho{{okina}}olawe]], [[Maui]] and the [[Hawaii (island)|"
.
Все эти штрихи [[]] не имеют отношения к делу, и я задаюсь вопросом, существует ли какой-либо метод, чтобы вытащить только «чистый» контент с таких страниц?
Заранее спасибо.
Действительно ли вы хотите, чтобы на первом раздел, или это был только пример? – svick