Я строю систему, которая выполняет классификацию текста. Я строю систему на Java. В качестве функций я использую модель суммирования слов. Однако одна проблема с такой моделью заключается в том, что количество функций действительно велико, что делает невозможным сопоставление данных в памяти.Установка учебного набора данных для классификации текста в Java
Однако я столкнулся с этим tutorial от Scikit-learn, который использует конкретные структуры данных для решения проблемы.
Мои вопросы:
1 - Как люди решают такую проблему с помощью Java в целом?
2- Есть ли решение, подобное решению, данному в scikit-learn?
Редактировать: единственное, что я нашел до сих пор, - это лично написать реализацию разреженного вектора с использованием HashTables.
Пожалуйста, напишите ваше требование, связанное с сбором здесь, в частности. –