2014-01-08 2 views
1

Я хотел бы проанализировать две переменные, чтобы проверить корреляцию между набором данных. Одна из переменных - «строка», а другая - «дата» (которая является периодом времени). Насколько я понял, адекватное испытание должно быть «точным тестом Фишера» для моего предложения.Точный аналитический анализ и анализ времени Фишера

Поскольку в некоторых категориях существует 0 0, в результате невозможно выполнить тест на квадрат. Я имею в виду работает точный тест Фишера, но не знаю, как, потому что я совершенно новое в R.

Образец данных:

**Parking locations**   `Time sequence` 
     Other locations    9:30-13:00 
     Bicycle shed (Ground floor) 17:00-20:00 
     Bicycle parking (East side) 6:00-9:30 
     Bicycle shed (Ground floor) 13:00-17:00 
     Bicycle shed (First floor) 9:30-13:00 
     Bicycle shed (First floor) 13:00-17:00 
     Bicycle shed (Ground floor) 13:00-17:00 
     Bicycle shed (Ground floor) 13:00-17:00 
     Supervised bicycle parking 6:00-9:30 
     Bicycle shed (Ground floor) 6:00-9:30 

Мой вопрос знать, можно ли запустить анализ в Spss или я должен использовать R.?
Кроме того, какой должен быть тип данных для столбца Time sequence, пока это период времени (с 9:30 до 13:00)?

+0

Какую гипотезу вы хотите проверить? –

+0

http://stat.ethz.ch/R-manual/R-patched/library/stats/html/fisher.test.html – marbel

+0

@SvenHohenstein, я хочу знать, существует ли связь между предпочтительным местом парковки и временем парковки для велосипедов? –

ответ

1

Если бы я был вами, я бы хотел, чтобы ваши данные были в формате, разделенном запятыми (csv). Таким образом, вы можете просто читать данные, как показано на R, используя read.csv.

Если вы хотите использовать их как категориальные переменные, вы можете просто использовать R:

fisher.test(parking_location, time_sequence) 

Я буду обновлять ответ соответственно, как более конкретная информация становится доступной; это работает в случае, когда строки (например, Bicycle shed (First floor) и Bicycle shed (Ground floor)) являются уникальными, и он считает, что интервалы также должны быть исправлены.

+0

Но 'parking_location' - это строка, и, похоже, не все они равны. – Llopis

+0

Да, но, как вы указали, это зависит от того, хочет ли он рассматривать их как уникальные или нет. Если они отличаются друг от друга, этот подход совершенно прекрасен. – PascalVKooten

1

я ввел свои данные в csv file. (Примечание: Ваши данные выглядит вкладка отделено из выровненного второго столбца, который будет работать, а)

Тогда вы можете сделать это в R:

data=read.csv("~/bikes.csv", header=T) 
t<-table(data) 
fisher.test(t) 

содержание Т- и результат теста рыболова можно увидеть в this screenshot.

и здесь скопированный выход:

> t 
         Time.sequence 
Parking.locations    13:00-17:00 17:00-20:00 6:00-9:30 9:30-13:00 
    Bicycle parking (East side)   0   0   1   0 
    Bicycle shed (First floor)   1   0   0   1 
    Bicycle shed (Ground floor)   3   1   1   0 
    Other locations      0   0   0   1 
    Supervised bicycle parking   0   0   1   0 
> fisher.test(t) 

    Fisher's Exact Test for Count Data 

data: t 
p-value = 0.419 
alternative hypothesis: two.sided 

Это очень простой пример команды

?fisher.test 

вы можете видеть, что есть некоторые настройки для таблиц размером более 2 х 2. Если какой-либо из моих предположений не правы (например, разделение парковки). Я уточню свой ответ.

+0

вам следует просто скопировать/вставить код/​​вывод, а не размещать картинку – rawr

+0

, это только результат, но я могу скопировать его, если это поможет. –

Смежные вопросы