2014-09-15 2 views
0

У меня есть численный набор данных формата class, unigram count, bigram count, sentiment. Я просмотрел некоторые документы Apache Mahout, и все это касалось текстовых данных. Я знаю, что мне нужно выполнить 3 шага, чтобы классифицировать: Преобразование в файлы последовательности, Векторизация файлов последовательности, Передача его для обучения классификатора Наивного Байеса. Но мне трудно понять разницу между классификацией набора данных текста и классификацией численного набора данных в Mahout. Что мне нужно делать по-другому в моем случае? Буду признателен за любую помощь.Как классифицировать числовые данные в Apache Mahout?

ответ

1

Как вы, возможно, знаете, mahout не может использовать текстовые данные для обучения модели. Если вы начнете с численного набора данных, классификация будет еще проще, потому что векторы, которые управляют mahout, являются векторами числовых данных.

Я использовал mahout в текстовом наборе данных, и я знаю, что в этом случае мне пришлось использовать dictionnary для преобразования текстовых данных в числовые данные. Некоторые алгоритмы обрабатывают его лучше других (например, Наив Байес сильно предпочитает текстовые данные).

Итак, в вашем случае попробуйте использовать другие классификаторы, такие как случайный форрест или онлайн-логистическая регрессия, чтобы получить более эффективный результат. По моему опыту, используя случайный forrest, вы можете просто определить тип функций, которые у вас есть (в вашем случае все ваши функции численные), поэтому классификация может быть выполнена довольно легко. Если вы хотите придерживаться Naive Bayes, я уверен, что по-прежнему можно классифицировать численный набор данных, но я никогда не использовал его, поэтому я не могу больше помочь.

+0

Спасибо за понимание. Это моя первая попытка с Маутом, и я не могу найти примеры онлайн-классификации числовых данных с Mahout. – Rajath

+0

Я согласен с тем, что трудно найти пример онлайн, в моих работах я адаптировал код, который у меня был из книги Mahout in Action, и некоторые коды, данные онлайн. Попробуйте проверить это: https://github.com/fredang/mahout-naive-bayes-example/blob/master/src/main/java/com/chimpler/example/bayes/Classifier.java. Вы должны иметь возможность адаптируйте код только с числовой версией (вам не нужно будет использовать текстовый анализатор/токенизатор, что является сложной задачей для классификации текстовых данных) – razafinr

+0

Спасибо за ссылку! – Rajath

Смежные вопросы