0

Я новичок в Machine Learning. Я работаю над проектом, в котором должна применяться концепция машинного обучения.Machine Learning Text Классификация техники

Постановка задачи:

У меня есть большое количество (скажем, 3000) ключевые words.These должны быть разделены на семь категории фиксированной categories.Each оказывает учебные данные (примеры ключевых слов) .Я необходимо прийти с алгоритмом , когда к нему передается новое ключевое слово, он должен предсказать, к какой категории принадлежит это ключевое слово.

Мне неизвестно, какую технику классификации текста нужно применять для этого. У нас есть инструменты, которые можно использовать.

Пожалуйста, помогите.

Заранее спасибо.

+0

http://stackoverflow.com/questions/32073662/machine-learning-techniques-to-use –

ответ

0

Это относится к линейной классификации. Для этого вы можете использовать классификатор наивных байков. Большинство рамок ml будут иметь реализацию для наивных заливов. ex: mahout

+0

Спасибо за ваш ответ. – user1648855

+0

Есть ли у нас какой-либо другой классификатор, отличный от naive-bayes. Также я могу использовать существующие классификаторы как реализованные или мне нужно делать какие-либо изменения. Я ищу WEKA Tool.Any идею об этом. – user1648855

0

Да, я бы также предложил использовать Naive Bayes, который является более или менее базовым алгоритмом классификации. С другой стороны, очевидно, что существует много других алгоритмов. Случайные леса и машины поддержки Vector приходят на ум. См. http://machinelearningmastery.com/use-random-forest-testing-179-classifiers-121-datasets/ Если вы используете стандартный инструментарий, такой как Weka, Rapidminer и т. Д., Эти алгоритмы должны быть доступны. Существует также OpenNLP для Java, который поставляется с максимальным классификатором энтропии.

0

Вы можете использовать расстояние Word2Vec Слово косинус между описаниями каждой вашей категории и ключевые слова в наборе данных, а затем простое совпадение каждого ключевого слова к категории с близкого расстояния

В качестве альтернативы, можно создать обучающий набор данных из уже сопоставляются с категорией, ключевыми словами и используют любой классификатор ML, например, на основе искусственных нейронных сетей, используя векторы ключевых слов. Косинусные расстояния до каждой категории в качестве входных данных для вашей модели. Но для получения хорошей точности может потребоваться большое количество данных для обучения. Например, набор данных MNIST содержит 70000 выборок, и это позволило мне достичь точности проверки перекрестной точности 99,62% с помощью простого CNN, для другого набора данных с только 2000 образцами я смог достичь только приблизительно 90% точности.

0

много алгоритмов классификации. Ваш пример выглядит как проблема классификации текста - некоторые хорошие классификаторы для тестирования - это SVM и наивные байки. Для SVM, liblinear и libshorttext классификаторы хорошие варианты (и используются во многих промышленных applcitions):

liblinear: https://www.csie.ntu.edu.tw/~cjlin/liblinear/ libshorttext: https://www.csie.ntu.edu.tw/~cjlin/libshorttext/

Они также включены инструменты ML, такие как scikit-learna и WEKA ,

Смежные вопросы