Я пытаюсь взять ряд обзоров и преобразовать их в формат ARFF для использования с WEKA. К сожалению, я полностью неправильно понимаю, как работает формат, или мне придется иметь атрибут для ВСЕХ возможных слов, а затем индикатор присутствия. Кто-нибудь знает лучший способ или в идеале имеет образец файла ARFF?ARFF для обработки естественного языка
ответ
Потребовалось время, чтобы работать, но с этим input.arff:
@relation text_files
@attribute review string
@attribute sentiment {0, 1}
@data
"this is some text", 1
"this is some more text", 1
"different stuff", 0
И эта команда:
java -classpath "C:\\Program Files\\Weka-3-6\\weka.jar" weka.filters.unsupervised.attribute.StringToWordVector -i input.arff -o output.arff
производится следующим образом:
@relation 'text_files-weka.filters.unsupervised.attribute.StringToWordVector-R1-W1000-prune-rate-1.0-N0-stemmerweka.core.stemmers.NullStemmer-M1-tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"'
@attribute sentiment {0,1}
@attribute different numeric
@attribute is numeric
@attribute more numeric
@attribute some numeric
@attribute stuff numeric
@attribute text numeric
@attribute this numeric
@data
{0 1,2 1,4 1,6 1,7 1}
{0 1,2 1,3 1,4 1,6 1,7 1}
{1 1,5 1}
Если вы хранить отзывы в текстовых файлах и разных папках (положительный и отрицательный в вашем случае), вы можете использовать TextDirectoryLoader.
Вы найдете это в приложении KnowledgeFlow в Weka или из командной строки. Дополнительная информация здесь: http://weka.wikispaces.com/ARFF+files+from+Text+Collections
Является ли формат файлов одним экземпляром, скажем, просмотром, в строке в файлах txt? –
нет, вы можете иметь несколько строк на txt – zdepablo
- 1. Библиотеки обработки естественного языка
- 2. вид обработки естественного языка
- 3. Идеи для проекта обработки естественного языка?
- 4. Решение для обработки естественного языка в Java?
- 5. Библиотека iOS для обработки естественного языка?
- 6. Python vs Java для обработки естественного языка
- 7. Структура MySQL для обработки естественного языка
- 8. обработки естественного языка для сложных предложений
- 9. Java или Python для обработки естественного языка
- 10. Использование node.js и обработки естественного языка для обработки нескольких словосочетаний
- 11. Библиотека обработки естественного языка в java
- 12. Есть ли хорошая библиотека обработки естественного языка
- 13. API для обработки естественного языка для iOS 5
- 14. Обработка естественного языка
- 15. Библиотека обработки естественного языка для автоматической пометки (.NET)
- 16. Дизайн базы данных Laravel для обработки естественного языка по тексту
- 17. Найти семантически подобное слово для обработки естественного языка
- 18. Где найти значения перехода алгоритма витерби для обработки естественного языка?
- 19. Использование обработки естественного языка для извлечения адреса из твита
- 20. Как можно применять методы машинного обучения для обработки естественного языка?
- 21. обработки естественного языка: текстовый формат для корпуса word2vec
- 22. Последние хорошие языки и книги для обработки естественного языка, основы
- 23. Алгоритмы для понимания естественного языка
- 24. Подтипы для типов естественного языка
- 25. Обработка естественного языка в Ruby
- 26. Какая библиотека естественного языка используется для перефразирования?
- 27. создание естественного языка
- 28. Обработка естественного языка в C++
- 29. Отказ от естественного языка
- 30. Бинаризация в обработке естественного языка
Знаете ли вы, что кортежи типа '0 1', разделенные запятыми в' {0 1,2 1,4 1,6 1,7 1} 'представляют? Я думаю, что это отличается от обычного формата .arff. Удалось ли вам получить значимые результаты с WEKA? – Rhubarb
Это довольно старое сообщение, но из того, что я помню, первая цифра в кортеже - это номер @attribute, а второе число - это количество встречаемости в строке. Я думаю, что в определенной степени это может означать то, что вы хотите, пока вы понимаете, что означают результаты. –