Вот процесс классификации предложений:
1) Нормализация текст - привести весь текст в нижний регистр
2) Удалить все стоп-слова - гарантирует, что только соответствующие функции оставлены
3) Токенизировать предложения для токенов униграмм
4) Примените технику штока - попробуйте использовать другие модели/lemmatizer, чтобы привести слова к их базовому слову. Посмотрите, какой из них лучше всего подходит для вашего дела. Например: воспроизведение, воспроизведение, воспроизведение будет преобразовано в базовое слово «play». Этот шаг уменьшает количество функций.
5) Создайте матрицу документов для всех предложений. Каждая строка TDM соответствует предложению, и каждый столбец TDM соответствует токену предложения. (Существует другой способ представления текста в виде матрицы, называемой Tf-Idf).
6) Теперь эта матрица терминов содержит маркеры в виде столбцов. У вас уже есть ярлыки на месте. Теперь вы можете начать обучение моделей ML. Я предполагаю, что вы знаете, как сделать эту часть.