2

Есть ли что-то [направленное?] Понятие/реализация расстояния между категориями/страницами Википедии?Wiki-distance: расстояние между темами и категориями Wiki?

Для примера рассмотрим: A) "Сент-Луис университет" Б) "Университет"

Ясно "А" тип "B". Как вы можете извлечь это из Wiki? Если извлечь все категории подключения к A, вы бы увидели, что он дает

Category:1818 establishments in Missouri Territory 
Category:Articles containing Latin-language text 
Category:Association of Catholic Colleges and Universities 
Category:Commons category with local link same as on Wikidata 
Category:Coordinates on Wikidata 
Category:Educational institutions established in 1818 
Category:Instances of Infobox university using image size 
Category:Jesuit universities and colleges in the United States 
Category:Roman Catholic Archdiocese of St. Louis 
Category:Roman Catholic universities and colleges in Missouri 

и не содержит ничего, что бы напрямую подключиться к B (https://en.wikipedia.org/wiki/University). Но, по существу, если вы посмотрите дальше, вы сможете найти путь с несколькими переходами между A и B, возможно, несколько переходов. Каковы популярные способы достижения этого?

+0

вы можете рассмотреть глядя в мой проект по экстрагенту иерархии категорий Википедии - HTTPS://github.com/wasiahmad/Mining-Wikipedia/tree/master/WikiNomy –

+0

@WasiAhmad Как ваш проект отличается от доступа к вики-информации через MediaWiki api? – Daniel

+0

В моем проекте не используется API, он извлекает иерархию категорий непосредственно из дампа Wiki. Мне нужна вся иерархия категорий Wiki для одной из моих исследовательских работ, поэтому я разработал этот проект. –

ответ

1

Если у вас есть вся эта таксономия в Википедии, вы можете вычислить расстояние (кратчайшую длину пути) между двумя категориями. Если одна категория является предком другого, она прямолинейна.

В противном случае вы можете найти наименее распространенный Subsumer, который определяется следующим образом.

Наименее распространенный subsumer из двух понятий А и В является наиболее специфической концепцией, которая является предком А и В.

Затем вычислить расстояние между ними с помощью ЛВПА.

Я призываю вас пройти через similarity measures, где вы найдете современные техники для вычисления семантической подобия между словами.

Ресурс: Мой project по извлечению категории/концепции Википедии может вам помочь.

Один очень хороший пример, связанные

Compute семантическое сходство слов с использованием WordNet. WordNet организует английские слова по-иерархически. См. Это wordnet similarity for java demo. Он использует восемь различных состояний техники для вычисления семантического сходства между словами.

1

Некоторые идеи/ресурсы, которые я собрал. Обновит это, если найду больше.

- Использование DBPedia: база знаний, кураторская, основанная на Wiki. Они предоставляют SparQL end-point для запроса этого КБ. Но нужно имитировать желаемое поведение сходства/расстояния через их интерфейс SparQL. Некоторые идеи: here и here, но они, похоже, устарели.

- Использование UMBEL: http://umbel.org/, который является графом знаний концепций. Я думаю, что размер этого графа знаний относительно невелик. Но я подозреваю, что его точность, вероятно, высока. Это, как говорится, я не уверен, как это относится к Википедии вообще. У них есть this api для вычисления меры расстояния между любыми парами их понятий (на момент написания этого сообщения API их сходства вниз, поэтому это не возможное решение на данный момент).

- Использование http://degreesofwikipedia.com/ Я не детализирую их алгоритм и как они это делают, но они обеспечивают расстояние между концептами Wiki. А также это направление. Например, this и this.

1

Возможно, вы ищете «is a»: Q734774 (элемент Wikidata для Университета Сент-Луиса) - это университет, здание и частное некоммерческое учебное заведение. Вы можете использовать SPARQL для запроса его:

+0

Это очень приятно @Tgr! Не могли бы вы также написать эквивалентную форму первого запроса с помощью DBPedia? – Daniel

+0

Я не знаком с DBPedia. Мое общее впечатление заключалось в том, что у них больше данных, но они более плоские (в основном пара-паразиты параметров infobox), поэтому он менее подходит для таких запросов ... может быть, это было совершенно неправильно. – Tgr

+0

Я вижу спасибо @Tgr. Еще один. Как распечатать результаты запроса 'ASK' (для первой ссылки)? Как будто я хочу увидеть путь, соединяющий два. – Daniel

Смежные вопросы