У меня есть вопрос, что я действительно смущен, и мне жаль, если это так глупо. Я использую до сих пор только числовые данные для достижения анализа настроений в Java, которые я получаю, используя только библиотеки Python, но теперь я понимаю, что я вынужден использовать Java для предварительной обработки моих данных в виде текста с самого начала.Как объявить символы (такие как @) в строках в файле arff?
Я хочу использовать StringToWord of Weka, чтобы токенизировать мои данные, а затем применить предварительные обработки плюс tfidf. Мой вопрос: как мне обрабатывать символы в строке в файле arff? Потому что, когда я просто определяю атрибуты ниже, я получаю «номинальное значение, не объявленное в заголовке, прочитайте токен [@Microsoft] ..» для первой строки в моих данных.
@relation corpus
@attribute id numeric
@attribute text string
@attribute label {positive,neutral,negative}
@attribute label2 {neutral,non-neutral}
@data
628949369883000000 dear @Microsoft the... negative non-neutral
Я также попытался представить свои данные следующим образом с запятыми. Я получаю ту же ошибку.
628949369883000000,dear @Microsoft the...,negative,non-neutral
Как я могу объявить эту строку, которая включает символы?
Большое спасибо.