Захватить содержимое статьи Википедии

Я хочу получить содержимое статьи в википедии, используя фактический API. Теперь я хорошо знаю о action=render и action=raw, но я хочу, чтобы в качестве простого варианта можно было использовать любую версию barebone. Нет форматирования, ссылок, предпочтительно нет шаблонов, нет ссылок и нет TOC. Для примера, вот выдержка из страницы SO:Захватить содержимое статьи Википедии

<p><b>Stack Overflow</b> is a <a href="http://en.wikipedia.org/wiki/Website" title="Website">website</a>, part of the <a href="http://en.wikipedia.org/wiki/Stack_Exchange_Network" title="Stack Exchange Network">Stack Exchange Network</a>,<sup id="cite_ref-blog_legal_1-0" class="reference"><a href="#cite_note-blog_legal-1"><span>[</span>2<span>]</span></a></sup><sup id="cite_ref-stackapps_legal_2-0" class="reference"><a href="#cite_note-stackapps_legal-2"><span>[</span>3<span>]</span></a></sup> featuring questions and answers on a wide range of topics in <a href="http://en.wikipedia.org/wiki/Computer_programming" title="Computer programming">computer programming</a>.<sup id="cite_ref-secrets_3-0" class="reference"><a href="#cite_note-secrets-3"><span>[</span>4<span>]</span></a></sup><sup id="cite_ref-slashdot_4-0" class="reference"><a href="#cite_note-slashdot-4"><span>[</span>5<span>]</span></a></sup><sup id="cite_ref-google-tech-talks_5-0" class="reference"><a href="#cite_note-google-tech-talks-5"><span>[</span>6<span>]</span></a></sup></p>

Это после того, как все шаблоны и прочее даже. Я хочу полностью их вырезать и найти, где начинается настоящая статья. Тогда мне нужно брить это дальше вниз к чему-то вроде:

Stack Overflow является веб-сайт, часть Сети Stack Биржи, показывая вопросы и ответы по широкому кругу вопросов в компьютерном программировании.

Как я могу прорезать шаблоны и форматирование вики, чтобы самостоятельно получить содержимое статьи? Это будет реализовано в PHP.

источник

2011-07-05 Cyclone

Возможно, это написано в документах: http://en.wikipedia.org/w/api.php – hakre

@hakre Не похоже, если я не пропустил его? – Cyclone

wikipedia и mediawiki В api есть все, что вы ищете. Для примера SO, вот SO wiki api page.

Я не думаю, что вы можете получить простой текст прямо через API. Вам нужно выбрать из этих set of parsers за то, что вы ищете.

Надеюсь, это поможет!

источник

2011-07-06 08:01:43 Sukumar

Ни один из них, похоже, действительно не выполняет то, что я ищу:/ – Cyclone

Ну, вы не всегда получаете разрез и попробуйте готовое решение. Вам нужно начать с места и работать оттуда. – Sukumar

Но никто из них не делает ничего лучше самого API, что довольно далеко от моей цели. – Cyclone

Захватить содержимое статьи Википедии

ответ

Смежные вопросы