2013-07-04 2 views
1

Я новичок в Rapidminer. У меня много XML-файлов, и я хочу классифицировать эти файлы вручную на основе ключевых слов. Затем я хотел бы обучить классификатор, такой как Naive Bayer и SVM, по этим данным и вычислить их характеристики с использованием кросс-валидатора.Как обрабатывать XML-файлы с помощью Rapidminer для классификации

Не могли бы вы сообщить мне разные шаги для этого?

Должен ли я использовать операции обработки текста, такие как токенизация, TFIDF и т. Д.?

ответ

0

шаги пошли бы что-то вроде этого

  1. Loop над файлами - т.е. перебрать все файлы в папке и прочитать каждый из них по очереди.
  2. Для каждого файла
    • прочитал его как документ.
    • tokenize с помощью операторов, таких как Extract Information или Cut Document, содержащих подходящие запросы XPath для вывода строки, соответствующей извлеченной информации в документе.
  3. Создать документ со всеми строками. Здесь будут использоваться TF-IDF или другие подходы. Выбор зависит от проблемы, с которой TF-IDF является обычным выбором, когда важно уделять больше внимания токенам, которые часто появляются в относительно небольшом числе документов.
  4. Создайте модель и используйте перекрестную проверку, чтобы получить оценку производительности по невидимым данным.

Я включил link в процесс, который вы могли бы использовать в качестве основы для этого. Он читает репозиторий RapidMiner, который содержит файлы XML, поэтому является хорошим примером обработки XML-документов с использованием методов обработки текста. Очевидно, вам придется сделать некоторые большие изменения для вашего дела.

Надеюсь, это поможет.

0

Возможно, пока не поздно ответить. Но это могло помочь другим людям. Существует расширение, называемое «расширением текста», я использую версию 6.1.0. Поэтому вы можете перейти в RapidMiner> help> обновить и установить это расширение. Он получит все файлы из одного каталога. Она имеет различные алгоритмы интеллектуального анализа текста, который вы можете использовать

Кроме того, я нашел это видео-учебник, который мог бы быть какой-то помочь вам, а https://www.youtube.com/watch?v=oXrUz5CWM4E

Смежные вопросы