2010-04-10 5 views
3

Это «большой» вопрос, который я не знаю, с чего начать, поэтому я надеюсь, что некоторые из вас могут дать мне направление. И если это не «хороший» вопрос, я закрою поток с извинениями.Как анализировать базу данных статьи Википедии с помощью R?

Я хочу пройти через базу данных Википедии (скажем, на английском) и делать статистику. Например, меня интересует, сколько активных редакторов (которые должны быть определены) Wikipedia имели в каждый момент времени (скажем, за последние 2 года).

Я не знаю, как создать такую ​​базу данных, как получить к ней доступ, узнать, какие типы данных она имеет и так далее. Итак, мои вопросы:

  1. Какие инструменты нужны для этого (помимо базового R)? MySQL на моем компьютере? Подключение базы данных RODBC?
  2. Как вы начинаете планировать такой проект?
+0

Является ли википедия «базой данных» как свалка базы данных? – SeanJA

+0

Привет, похоже, это выглядело бы так ... –

ответ

8

Вы хотите, чтобы начать здесь: http://en.wikipedia.org/wiki/Wikipedia:Database_download

, который доставит вас сюда: http://download.wikimedia.org/enwiki/20100312/

И файл, который вы, вероятно, хотите это:

# 2010-03-17 04:33:50 done Log events to all pages. 
    * This contains the log of actions performed on pages. 
    * pages-logging.xml.gz 1.0 GB 

http://download.wikimedia.org/enwiki/20100312/enwiki-20100312-pages-logging.xml.gz

Вы будете затем импортируйте xml в MySQL. Генерация гистограммы пользователей в день, неделю, год и т. Д. Не потребует R. Вы сможете сделать это с помощью одного запроса MySQL. Что-то вроде:

select DAYOFYEAR(wiki_edit_timestamp), count(*) 
from page_logs 
group by DAYOFYEAR(wiki_edit_timestamp) 
order by DAYOFYEAR(wiki_edit_timestamp); 

т.д.

(я не уверен, что их реальная схема есть, но это будет что-то подобное.)

Вы столкнулись с проблемами, не сомневаюсь, но вы тоже многому научитесь. Удачи!

+0

Спасибо, Роджер за голову! Итак, теперь мои следующие шаги: настроить MySQL, а затем как импортировать это.Спасибо :) –

5

Вы можете

+0

Фантастический ответ Карстен, спасибо большое! –