2012-03-31 5 views
1

Я хочу прочитать Uci отзывы амазонки набор данных в R, который находится в формате файла ARFF,чтение ARFF файла в R

require("foreign") 
setwd("H:/DataSet/amazon") 
reviews <- read.arff("amazon.arff") 

i get the following error 

Error in read.arff("amazon.arff") : Invalid attribute specification. 

Благодаря

+2

Пожалуйста, включите ссылку, где-нибудь мы можем скачать файл amazon.arff (в противном случае, как мы могли бы знать, что пошло не так?) –

ответ

3

Я предполагаю, что вы имеете в виду «обзоры Amazon Commerce набор данных Установите «в репозитории UCI Machine Learning. Даже Weka не может открыть этот набор данных, говоря

«... не распознан как файл файлов данных Arff ... Имена атрибутов не уникальны».

и если вы посмотрите в файл вы увидите множество записей, подобных

@attribute '\'\'\'\'\'\'\'\'\'\'r\'\'\'\'\'\'\'\'\'\'\'' numeric 

Так что-то пошло не так с файлом, это не вина R или чтения процедур любой «ARFF». Вы должны спросить создателя набора данных, чье имя и адрес электронной почты указаны на странице описания.

+0

да, это данные Amazon set from UCI repo.- Спасибо – realnumber

2

Я нашел решение для получения Weka для открытия файла .arff.

Невозможно определить структуру как arff (Причина: java.lang.illegalArgumentException: Имена атрибутов не уникальны! Причины: 'T' 'T' 'T' 'T' 'I' 'I' 'I' ' Я '' Th '' Th '' Th '' класс ').

Это не атрибуты, подобные этому атрибуту @ "\ '\' \ '\' \ '\' \ '\' \ '\' \ '\' \ '\' \ '\' \ '\' \ '\' \ '\' \ \ '\' \ '' numeric ".

Если вы откроете файл arff в текстовом редакторе (я использовал TextMate), вы найдете преступников. (в текстовом мате они показывают < NUL>)

  • @attribute G_B цифровая @attribute T цифровая @attribute Eing цифровой @attribute T цифровая @attribute RNE цифровой @attribute T цифровой @attribute T цифровую

Вы можете использовать элемент управления F для поиска по атрибутам 'I' 'T' и 'Th' Но для ускорения поиска здесь есть 3 простых в поиске атрибутов, которые находятся близко к проблемным сайтам.

для 'I' поиск 't_wo',

для поиска 'Th' для 'ff_'

для поиска 'T' для 'X_' (атрибуты будут выше для этого)

Вы не можете просто удалить их, потому что нет способа узнать, какие числа применяются, поэтому я предлагаю переименовать их в T2-4, I2-4 Th2-4. Вам также нужно переименовать атрибут «class» в «class1».

+1

Не забудьте отформатировать код в ответе, используя charachter 'или выбрав код и нажав кнопку« код формата » – Bolza

Смежные вопросы