2015-05-26 2 views
1

Я пытаюсь запустить логистическую регрессию на выборочных данных в vowpal. Я создал образец набор данных выглядят следующим образом:Расчет балла на vowpal

1 1.0 | a:3.28 b:1.5 c:2.0 |example 
-1 1.0 | a:1.25 b:0.4 c:1.4 |example 
1 1.0 | a:1.40 b:0.8 c:1.6 |example 
1 1.0 | a:2.00 b:4.2 c:2.1 |example 
-1 1.0 | a:2.51 b:2.7 c:1.9 |example 
1 1.0 | a:1.72 b:2.3 c:0.6 |exampleone 
1 1.0 | a:1.81 b:2.1 c:0.9 |example 

, когда я попытался запустить логистическим его показывая ошибку «вы используете метку 0 не -1 или 1, как определено специалисты функциональных потерь или искаженными, например»

После этого я хочу, чтобы вычислить счет в конце и как рассчитать счет или ППК кривой в vowpal

ответ

2

Убедитесь, что используется правильный input data format для Vowpal Wabbit.

Ошибка «вы используете метку 0» возникает, если вы используете --loss_function=logistic (или --loss_function=hinge), а некоторые из ваших примеров имеют метку 0. Я не могу воспроизвести ошибку с образцом, который вы предоставили.

«|example» в вашем примере интерпретируется как пространство имен без каких-либо функций, что, вероятно, не то, что вы хотели. «1.0» интерпретируется как пример веса важности, но 1.0 является значением по умолчанию, поэтому вы можете его опустить. Если вы хотите использовать теги, они должны быть до первой вертикальной полосы (без пробела перед баром). Таким образом, образец должен выглядеть следующим образом:

1 tag1| a:3.28 b:1.5 c:2.0 -1 tag2| a:1.25 b:0.4 c:1.4 1 tag3| a:1.40 b:0.8 c:1.6 1 tag4| a:2.00 b:4.2 c:2.1 -1 tag5| a:2.51 b:2.7 c:1.9 1 tag6| a:1.72 b:2.3 c:0.6 1 tag7| a:1.81 b:2.1 c:0.9

вычислить счет в конце, и как рассчитать счет или ППК

Какой счет? VW вычисляет прогрессивную потерю проверки (или потерю удержания, если вы используете несколько проходов и не используете --holdout_off). Если вы хотите вычислить area under ROC curve, вы должны использовать какой-либо внешний инструмент, например. perf. См. Calculating AUC when using Vowpal Wabbit.

+0

Спасибо за предложение.Перф не доступен для Mac. Я изменил данные и получил файл прогнозов во время тестирования. Являются ли эти значения вероятностями каждого пользователя. – user3456

+0

Если вы хотите интерпретировать оценки в файле предсказания ('-p file') как вероятности, вы должны использовать' --loss_function = logistic --link = logistic'. Обратите внимание, что для вычисления области под кривой ROC вам не нужно преобразовывать предсказания в вероятности через функцию логистической ссылки - это монотонная функция. –

+0

С помощью --link = logistic выходной файл имеет вероятности. Могут ли они использоваться для расчета точности логистической регрессии? – user3456

Смежные вопросы