Я делаю линейную регрессию с несколькими переменными. В моих данных у меня есть n = 143 особенности и m = 13000 примеры обучения. Некоторые из моих функций - непрерывные (порядковые) переменные (площадь, год, количество комнат). Но у меня также есть категориальные переменные (район, цвет, тип). На данный момент я представил некоторые из моих возможностей против прогнозируемой цены. Например вот сюжет area
против предсказанного price
: Как визуализировать (сделать график) выход регрессии против категориальной входной переменной?
Поскольку area
непрерывно порядковой переменный у меня не было никаких проблем визуализации данных. Но теперь я хотел как-то визуализировать зависимость моих категориальных переменных (таких как округ) от прогнозируемой цены. Для категориальных переменных я использовал однострунную (фиктивную) кодировку.
Например, что такие данные:
Если бы я использовал порядковое кодирование для районов таким образом:
DistrictA - 1
DistrictB - 2
DistrictC - 3
DistrictD - 4
DistrictE - 5
Я бы сюжета этих значений против прогнозируемой цены довольно легко, поставив 1-5 на ось X и цену на ось Y.
Но я использовал фиктивное кодирование, и теперь я не знаю, как я могу показать (визуализировать) зависимость между ценой и категориальной переменной «Район», представленную как ряд нулей и единиц.
Как я могу составить график, показывающий регрессионную линию округов по сравнению с прогнозируемой ценой в случае использования фиктивного кодирования?
Перекрестная ссылка на Stats.SE, SO и DataScience.SE: http://stats.stackexchange.com/q/186027/2921, http://stackoverflow.com/q/34193685/781723, http: //datascience.stackexchange.com/q/9301/8560. Пожалуйста, не публикуйте тот же вопрос на нескольких сайтах (http://meta.stackexchange.com/q/64068). У каждого сообщества должен быть честный ответ на вопрос, если никто не будет потрачен впустую. –
Я голосую, чтобы закрыть этот вопрос как не по теме, потому что он был размещен на нескольких сайтах Stack Exchange. – Matt