2016-03-09 2 views
-1

У меня около 3000 слов, и я хотел бы сгруппировать их примерно в 20-50 разных категорий. Мои слова - это типичные фразы, которые вы можете найти в названиях компаний. «Лицо», «Книга», «Продажи», «Сила», например.Сортировка слов по категориям в Python

Библиотеки, на которые я смотрел до сих пор, являются пандами и scikit-learn. Мне интересно, есть ли алгоритм машинного обучения или глубокого обучения, который бы хорошо подходил для этого?

Темы, которые я искал, - это классификация: определение категории, к которой принадлежит объект, и уменьшение размерности: уменьшение случайного числа переменных для рассмотрения.

Когда я ищу слова для разметки в категориях в Google, он вызывает детские головоломки, такие как «вещи, которые вы делаете с карандашом» - рисовать. Или «части дома» - двор, комната.

+0

Это пользовательские входы? может ли слова быть написаны неправильно? как facebook -> facbeook? если это так, вам, вероятно, придется создать длинный список всех слов и слов с ошибками и закодировать их для классификации. – Deusdeorum

+0

У меня есть полный список слов, которые я хочу использовать уже, поэтому он не будет введен пользователем –

ответ

1

Для глубокого обучения работе над этим вам необходимо разработать большой набор данных, скорее всего, вручную. самый большой набор данных обработки естественного языка был фактически создан вручную. НО, даже если бы вы смогли найти набор данных, который могла бы изучить модель. Тогда модель, такая как деревья с усиленным градиентом, будет, среди прочего, подходящей для классификации нескольких классов. Классическая библиотека для этого - xgboost.

Смежные вопросы