Направляйте меня, если я не размещаю в правой части.Текстовая классификация с использованием наивных заливов
У меня есть текстовые файлы для моих данных обучения, которые неформатированы в текстовых документах. Все они содержат только символы ASCII.
Я хотел бы обучить модель текстовым файлам с использованием методов интеллектуального анализа данных.
Текстовые файлы имеют в среднем около 300 слов в каждом файле.
Есть ли программное обеспечение, которое рекомендуется для меня, чтобы начать с него?
Моя первоначальная идея состоит в том, чтобы использовать все слова в одном файле как данные обучения, а оставшиеся в качестве тестовых данных. Это делается для проверки перекрестной сгиба.
Однако, у меня есть такие инструменты, как WEKA, но это не похоже, чтобы удовлетворить свои потребности в преобразовании в CSV-файлов не представляется осуществимым в моем случае, как текстовые файлы разделены
Я пытаюсь выполнить перекрестная проверка таким образом, чтобы все слова в данных обучения рассматривались как признаки.