У меня есть численный набор данных формата class, unigram count, bigram count, sentiment
. Я просмотрел некоторые документы Apache Mahout, и все это касалось текстовых данных. Я знаю, что мне нужно выполнить 3 шага, чтобы классифицировать: Преобразование в файлы последовательности, Векторизация файлов последовательности, Передача его для обучения классификатора Наивного Байеса. Но мне трудно понять разницу между классификацией набора данных текста и классификацией численного набора данных в Mahout. Что мне нужно делать по-другому в моем случае? Буду признателен за любую помощь.Как классифицировать числовые данные в Apache Mahout?
ответ
Как вы, возможно, знаете, mahout не может использовать текстовые данные для обучения модели. Если вы начнете с численного набора данных, классификация будет еще проще, потому что векторы, которые управляют mahout, являются векторами числовых данных.
Я использовал mahout в текстовом наборе данных, и я знаю, что в этом случае мне пришлось использовать dictionnary для преобразования текстовых данных в числовые данные. Некоторые алгоритмы обрабатывают его лучше других (например, Наив Байес сильно предпочитает текстовые данные).
Итак, в вашем случае попробуйте использовать другие классификаторы, такие как случайный форрест или онлайн-логистическая регрессия, чтобы получить более эффективный результат. По моему опыту, используя случайный forrest, вы можете просто определить тип функций, которые у вас есть (в вашем случае все ваши функции численные), поэтому классификация может быть выполнена довольно легко. Если вы хотите придерживаться Naive Bayes, я уверен, что по-прежнему можно классифицировать численный набор данных, но я никогда не использовал его, поэтому я не могу больше помочь.
- 1. Классифицировать данные с помощью Apache Mahout
- 2. Как классифицировать изображения с помощью Apache Mahout?
- 3. Apache Mahout- exception with file.csv
- 4. Как сделать классификацию онлайн в Apache Mahout?
- 5. WrongValueClass в apache Mahout
- 6. nGrams in apache mahout
- 7. RHadoop vs. Apache Mahout
- 8. Как классифицировать непрерывные данные?
- 9. Советы Apache Mahout?
- 10. Как классифицировать данные в Opencv
- 11. Классифицировать данные в списке
- 12. База данных, поддерживаемая apache mahout
- 13. Ошибка Apache Mahout K-Means
- 14. Наборы данных для Apache Mahout
- 15. данные Как классифицировать Струнные Javascript
- 16. Как подавать числовые данные в классификатор?
- 17. Как дополнение MySQL числовые данные с другой MySQL числовые данные
- 18. реализация пользовательской модели стереотипа в Apache Mahout
- 19. Добавление новых методов в Apache mahout
- 20. Apache Mahout Исключение в потоке «main» java.lang.NoSuchMethodException
- 21. Какова мотивация когерентности Пирсона в Apache Mahout
- 22. Как классифицировать несбалансированные данные в weka?
- 23. Взвешенный классификатор Naive Bayes в Apache Mahout
- 24. Apache Mahout Math VectorWritable отсутствует в 0.6?
- 25. Apache Mahout K - означает реализацию кластеризации
- 26. Ни одна рекомендация, доступная с Apache Mahout
- 27. Apache Mahout Database to Sequence File
- 28. Apache Mahout с архитектурой Ruby on Rails
- 29. Как совместить два экземпляра сходства в Apache mahout
- 30. Как правильно выровнять числовые данные?
Спасибо за понимание. Это моя первая попытка с Маутом, и я не могу найти примеры онлайн-классификации числовых данных с Mahout. – Rajath
Я согласен с тем, что трудно найти пример онлайн, в моих работах я адаптировал код, который у меня был из книги Mahout in Action, и некоторые коды, данные онлайн. Попробуйте проверить это: https://github.com/fredang/mahout-naive-bayes-example/blob/master/src/main/java/com/chimpler/example/bayes/Classifier.java. Вы должны иметь возможность адаптируйте код только с числовой версией (вам не нужно будет использовать текстовый анализатор/токенизатор, что является сложной задачей для классификации текстовых данных) – razafinr
Спасибо за ссылку! – Rajath