2014-03-11 4 views
1

Направляйте меня, если я не размещаю в правой части.Текстовая классификация с использованием наивных заливов

У меня есть текстовые файлы для моих данных обучения, которые неформатированы в текстовых документах. Все они содержат только символы ASCII.

Я хотел бы обучить модель текстовым файлам с использованием методов интеллектуального анализа данных.

Текстовые файлы имеют в среднем около 300 слов в каждом файле.

Есть ли программное обеспечение, которое рекомендуется для меня, чтобы начать с него?

Моя первоначальная идея состоит в том, чтобы использовать все слова в одном файле как данные обучения, а оставшиеся в качестве тестовых данных. Это делается для проверки перекрестной сгиба.

Однако, у меня есть такие инструменты, как WEKA, но это не похоже, чтобы удовлетворить свои потребности в преобразовании в CSV-файлов не представляется осуществимым в моем случае, как текстовые файлы разделены

Я пытаюсь выполнить перекрестная проверка таким образом, чтобы все слова в данных обучения рассматривались как признаки.

ответ

2

Вам необходимо использовать фильтр we12 StringToWord и преобразовать ваши текстовые файлы в файлы arff. После этого вы можете использовать алгоритмы классификации weka. Следите за video, чтобы узнать основы.

Смежные вопросы