2012-03-18 5 views
1

Я пишу пользовательское приложение, которое принимает входные данные от пользователя в качестве текущей открытой страницы википедии. Я написал фрагмент кода, который принимает это в качестве входных данных для моего модуля и генерирует список ключевых слов, относящихся к этой конкретной статье, с использованием webscraping и обработки естественного языка.Как получить связанные темы из настоящей статьи в Википедии?

Я хочу расширить функциональность приложения, предоставив в дополнение к ключевым словам, которые я идентифицировал, набор смежных тем которые могут представлять интерес для пользователя. Есть ли какой-либо API, который предлагает wikipedia, который будет делать трюк. Если нет, может ли кто-нибудь указать мне, на что я должен смотреть (если я должен писать код с нуля). Также я буду признателен за любые указатели в определении любого алгоритма, который будет обучать машину идентификации карт тем. Я не ищет какой-либо документ, а скорее практическое осуществление чего-то основного

так обобщать,

  1. Мне нужен способ, чтобы найти темы, связанные с текущей статьи в википедии (категории также будет делать)
  2. Я также оценю образец алгоритма для обучения машины определению тем, которые обычно связаны и кластеризуются.

пс. пожалуйста, будьте конкретны, потому что я исследовал через ряд очевидных возможностей. оцените его.

+0

Если вы хотите получить категории определенной статьи, то да, они доступны через [API] (http://www.mediawiki.org/wiki/API:Main_page). – svick

+0

Это я включил, но я хочу больше имен статей, похожих на текущую статью. В категориях также, если я просто получаю связанные категории, это также будет сделано. –

ответ

0

Вы можете очистить категории, если хотите. Если вы работаете с python, вы можете прочитать wikitext непосредственно из своего API и использовать mwlib для анализа статьи и поиска ссылок.

Более интересным, но сложнее реализовать подход будет создание кластеров связанных терминов, и, учитывая список терминов, извлеченных из статьи, найдите для них самые близкие термины.

0

«См. Также» - это раздел, который часто присутствует на страницах Википедии. Она построена как пример ниже, из [[Статья (публикации)]]:

==See also== 
* [[Article directory]] 
* [[Electronic article]] 

Затем вы должны разобрать вики-(можно считать, что с помощью отвалов или API Mediawiki, как и намекал в предыдущих ответах), и используйте упомянутые статьи.

Другим способом является использование непосредственно категорий Википедии, there are APIs for that.