У меня около 3000 слов, и я хотел бы сгруппировать их примерно в 20-50 разных категорий. Мои слова - это типичные фразы, которые вы можете найти в названиях компаний. «Лицо», «Книга», «Продажи», «Сила», например.Сортировка слов по категориям в Python
Библиотеки, на которые я смотрел до сих пор, являются пандами и scikit-learn. Мне интересно, есть ли алгоритм машинного обучения или глубокого обучения, который бы хорошо подходил для этого?
Темы, которые я искал, - это классификация: определение категории, к которой принадлежит объект, и уменьшение размерности: уменьшение случайного числа переменных для рассмотрения.
Когда я ищу слова для разметки в категориях в Google, он вызывает детские головоломки, такие как «вещи, которые вы делаете с карандашом» - рисовать. Или «части дома» - двор, комната.
Это пользовательские входы? может ли слова быть написаны неправильно? как facebook -> facbeook? если это так, вам, вероятно, придется создать длинный список всех слов и слов с ошибками и закодировать их для классификации. – Deusdeorum
У меня есть полный список слов, которые я хочу использовать уже, поэтому он не будет введен пользователем –