2013-03-18 4 views
1

Я пытаюсь создать модель с учебным набором данных и хочу пометить записи в наборе тестовых данных.Использование набора тестовых данных в RapidMiner

Все учебные пособия или помощь, которые я нахожу в Интернете, имеют информацию только с использованием перекрестной проверки с использованием одного набора данных, то есть набора учебных материалов. Я не мог найти, как использовать тестовые данные. Я попытался применить модель результата к тестовому набору. Но набор тестов, похоже, дает разные нет. атрибутов, чем набор тренировок после предварительной обработки. Это проблема классификации текста.

В конце я получаю некоторый выход как этого

18.03.2013 01:47:00 Results of ResultWriter 'Write as Text (2)' [1]: 
18.03.2013 01:47:00 SimpleExampleSet: 
5275 examples, 
366 regular attributes, 
special attributes = { 
confidence_1 = #367: confidence(1) (real/single_value) 
confidence_5 = #368: confidence(5) (real/single_value) 
confidence_2 = #369: confidence(2) (real/single_value) 
confidence_4 = #370: confidence(4) (real/single_value) 
prediction = #366: prediction(label) (nominal/single_value)/values=[1, 5, 2, 4] 
} 

Но то, что я хотел это все мои примеры должны быть промаркированы.

Похоже, что у моих тестовых данных и данных обучения нет другого. из атрибутов, я вижу много из следующих в журналах.

18 марта 2013 г. 1:46:41 ВНИМАНИЕ: Модель ядра: данный примерный набор не содержит обычного атрибута с именем «wireless». Это может вызвать проблемы для некоторых моделей в зависимости от этого конкретного атрибута.

Но как мы решаем такую ​​проблему в классификации текста, которую мы не можем знать. и имя атрибутов перед началом работы.

Может кто-нибудь бросить некоторые указатели.

ответ

0

Возможно, вы используете оператор Process Documents для предварительной подготовки как набора для обучения, так и тестирования. Здесь важно, чтобы оба этих оператора были установлены одинаково. Чтобы «синхронизировать» список слов, то есть учитывать один и тот же набор слов в обоих из них, вам необходимо подключить вывод wordlist (wor) оператора Process Documents, используемый для обучения, в соответствующий входной порт оператора Process Documents, который используется для предварительной обработки тестовый набор.

+0

Спасибо. Это помогло. – TechCrunch

+0

@Marius Я имею дело с одной и той же проблемой, но немного другой, можете ли вы любезно сказать мне, что, если нам нужно применить выбор функции («Усиление информации») для обучения набору и предоставить сокращенный словарь для «Обработать документы из файла», используемые для тестирования? –

Смежные вопросы