2016-06-24 3 views
0

У меня есть вопрос, что я действительно смущен, и мне жаль, если это так глупо. Я использую до сих пор только числовые данные для достижения анализа настроений в Java, которые я получаю, используя только библиотеки Python, но теперь я понимаю, что я вынужден использовать Java для предварительной обработки моих данных в виде текста с самого начала.Как объявить символы (такие как @) в строках в файле arff?

Я хочу использовать StringToWord of Weka, чтобы токенизировать мои данные, а затем применить предварительные обработки плюс tfidf. Мой вопрос: как мне обрабатывать символы в строке в файле arff? Потому что, когда я просто определяю атрибуты ниже, я получаю «номинальное значение, не объявленное в заголовке, прочитайте токен [@Microsoft] ..» для первой строки в моих данных.

@relation corpus 
@attribute id numeric 
@attribute text string 
@attribute label {positive,neutral,negative} 
@attribute label2 {neutral,non-neutral} 
@data 
628949369883000000 dear @Microsoft the... negative non-neutral 

Я также попытался представить свои данные следующим образом с запятыми. Я получаю ту же ошибку.

628949369883000000,dear @Microsoft the...,negative,non-neutral 

Как я могу объявить эту строку, которая включает символы?

Большое спасибо.

ответ

0

Итак, я просто должен был дать свою строку в кавычках.

@relation file 
@attribute id numeric 
@attribute tweet string 
@attribute label {positive,neutral,negative} 
@attribute label2 {neutral,non-neutral} 

@data 
628949369883000000,"[email protected] Microsoft .... C'mon.",negative,non-neutral 
Смежные вопросы