У меня очень большой набор данных в файле csv (1,700,000 сырых и 300 разреженных объектов). - У него много недостающих значений. - данные варьируются между численными и категориальными значениями. - зависимая переменная (класс) является двоичной (1 или 0). - данные сильно искажены, число положительных ответов низкое.Модель регрессии для категориальных данных
Теперь от меня требуется применить регрессионную модель и любой другой алгоритм машинного обучения по этим данным.
Я новичок в этом, и мне нужна помощь. -ужели иметь дело с категориальными данными в случае регрессионной модели? и недостающие значения слишком сильно влияют на него? - Какая лучшая модель прогнозирования я могу попробовать для больших, редких, перекошенных данных? - какую программу вы посоветуете мне работать? Я попробовал Weka, но он даже не может открыть большую часть данных (сбой памяти). Я знаю, что Matlab может открывать либо числовые csv, либо категории csv, которые не смешиваются, а недостающие значения должны быть вменены, чтобы позволить ему открыть файл. Я знаю немного R.
- Я пытаюсь манипулировать данными, используя excel, access и perl script. и это очень сложно с этим объемом данных. excel не может открыть более чем 1M записи, и доступ не может открыть более 255 столбцов. любое предложение.
Спасибо за помощь заранее
Отличный вопрос! Вы можете взглянуть на деревья классификации и регрессии (http://en.wikipedia.org/wiki/Predictive_analytics#Classification_and_regression_trees), которые реализованы в R в пакете RPART (http://www.statmethods.net/ advstats/cart.html). – arboc7