ARFF для обработки естественного языка

Я пытаюсь взять ряд обзоров и преобразовать их в формат ARFF для использования с WEKA. К сожалению, я полностью неправильно понимаю, как работает формат, или мне придется иметь атрибут для ВСЕХ возможных слов, а затем индикатор присутствия. Кто-нибудь знает лучший способ или в идеале имеет образец файла ARFF?ARFF для обработки естественного языка

источник

2011-05-28 Dean Barnes

Потребовалось время, чтобы работать, но с этим input.arff:

@relation text_files 

@attribute review string 
@attribute sentiment {0, 1} 

@data 
"this is some text", 1 
"this is some more text", 1 
"different stuff", 0

И эта команда:

java -classpath "C:\\Program Files\\Weka-3-6\\weka.jar" weka.filters.unsupervised.attribute.StringToWordVector -i input.arff -o output.arff

производится следующим образом:

@relation 'text_files-weka.filters.unsupervised.attribute.StringToWordVector-R1-W1000-prune-rate-1.0-N0-stemmerweka.core.stemmers.NullStemmer-M1-tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"' 

@attribute sentiment {0,1} 
@attribute different numeric 
@attribute is numeric 
@attribute more numeric 
@attribute some numeric 
@attribute stuff numeric 
@attribute text numeric 
@attribute this numeric 

@data 

{0 1,2 1,4 1,6 1,7 1} 
{0 1,2 1,3 1,4 1,6 1,7 1} 
{1 1,5 1}

источник

2011-05-28 16:04:22

Знаете ли вы, что кортежи типа '0 1', разделенные запятыми в' {0 1,2 1,4 1,6 1,7 1} 'представляют? Я думаю, что это отличается от обычного формата .arff. Удалось ли вам получить значимые результаты с WEKA? – Rhubarb

Это довольно старое сообщение, но из того, что я помню, первая цифра в кортеже - это номер @attribute, а второе число - это количество встречаемости в строке. Я думаю, что в определенной степени это может означать то, что вы хотите, пока вы понимаете, что означают результаты. –

Если вы хранить отзывы в текстовых файлах и разных папках (положительный и отрицательный в вашем случае), вы можете использовать TextDirectoryLoader.

Вы найдете это в приложении KnowledgeFlow в Weka или из командной строки. Дополнительная информация здесь: http://weka.wikispaces.com/ARFF+files+from+Text+Collections

источник

2011-05-29 09:35:32 zdepablo

Является ли формат файлов одним экземпляром, скажем, просмотром, в строке в файлах txt? –

нет, вы можете иметь несколько строк на txt – zdepablo

ARFF для обработки естественного языка

ответ

Смежные вопросы