2014-12-03 3 views
3

Я пытаюсь построить treegraph статей в википедии и его категорий. Что мне нужно сделать?Как построить иерархию категорий википедии?

С этого сайта (http://dumps.wikimedia.org/enwiki/latest/), я скачал:

  • enwiki-последнего page.sql.gz
  • enwiki-последнего categorylinks.sql.gz
  • enwiki-20141106- category.sql.gz

Я попытался последовал ответ здесь (Wikipedia Category Hierarchy from dumps), но это не кажется, что categorylinks имеет ту же схему (не столбец PageId).

Каков правильный способ построения иерархии?

Бонуса вопрос: Как я могу сказать, какой из 35Х страниц в enwiki-последней-page.sql.gz являются статьи (предположительно около 5M согласно статистике Википедии)

Благодарности

+0

возможно дубликат [Википедии Категория Иерархии из отвалов] (http://stackoverflow.com/questions/17432254/wikipedia-category-hierarchy-from-dumps) – leo

+0

вы абсолютно правильно @leo. У меня был приватный чат с ответчиком и резюмировал его таким образом, что это немного более подробно и, надеюсь, поможет другим, как мне. – kane

ответ

2

Да, он превращается этот stackoverflow answer был прав. Он ссылался на правильные наборы данных, но я был слишком плотным, чтобы понять, как связать их вместе.

Благодаря @svick за то, что он провел через отдельные шаги в частном чате.

В интересах других я подробно описал взаимосвязь между наборами данных и точными шагами по пересечению графика в своем блоге, что является сводкой нашего частного чата.

Parsing Wikipedia Page Hierarchy

+0

Кстати, этот чат не является частным, [кто-нибудь может его увидеть] (http: //chat.stackoverflow .com/номера/66156/обсуждение промежуточности svick-и-Kane). – svick

+1

О, хорошо знать, что моя некомпетентность обнародована для всего мира: «Но со всей серьезностью, спасибо за ваше время. вы были очень полезны, и, надеюсь, мой блог справедливо описал и точно то, что вы научили меня, поэтому вам не придется снова и снова отвечать на один и тот же вопрос. – kane

+0

Нам нравится поддерживать автономность stackoverflow. Так что просто ссылки на блог, который может исчезнуть в какой-то день, не рекомендуется. Можете ли вы обобщить его здесь? – nealmcb

0

Я встретил ту же проблему для японской википедии.

Я решил эту проблему следующим образом:

  • ПОЛУЧИТЬ SQL для категории, categorylinks, страницы и импорта на мой сервер MySQL.
  • выполните следующую команду. Вы можете получить подкатегории «学問».
 
    MariaDB [wikipedia]> select page.page_title from categorylinks join page on page.page_id = categorylinks.cl_from join category on categorylinks.cl_to = category.cat_title where categorylinks.cl_type = 'subcat' and category.cat_title like '学問'; 
+-----------------------------------+ 
| page_title      | 
+-----------------------------------+ 
| 学問の分野      | 
| 科学        | 
| 学問スタブ      | 
| 架空の思想・学問     | 
| 学者        | 
| 学術出版       | 
| 学術称号       | 
| 学術団体       | 
| 学生        | 
| 学派        | 
| 学問の賞       | 
| 研究        | 
| 高等教育       | 
| 知識        | 
| 問題        | 
| ルネサンス・ユマニスム   | 
+-----------------------------------+ 
16 rows in set (0.00 sec) 
+0

Я написал строителя, который конвертирует wikipedia sql в категорию csv для японского. Я поставил Dockerfile на dockerhub: https://hub.docker.com/r/niwatolli3/wikipedia-category-csv/ – niwatolli3

Смежные вопросы