Слишком много данных для SVM?

Итак, я запускаю классификатор SVM (с линейным ядром и вероятностью false) из sklearn на кадре данных с примерно 120 функциями и 10 000 наблюдений. Программа требует нескольких часов для запуска и продолжает сбой из-за превышения вычислительных ограничений. Просто интересно, может ли этот dataframe быть слишком большим?Слишком много данных для SVM?

источник

2016-08-02 MrDinkleburg

Это должно быть нормально для линейного ядра (по крайней мере, с LinearSVC; не уверен в SVC с kernel = linear). Покажите нам код! – sascha

Вы можете попробовать изменить параметры для алгоритма.

Tips on practical use from the documentation.

Вы можете попробовать другой алгоритм, вот шпаргалка может оказаться полезной:

источник

2016-08-02 15:31:32 bobo

Он использует линейное ядро, поэтому нет кеша ядра (используется)! – sascha

Спасибо - обновил мой пост – bobo

И чит-лист точно рекомендует то, что он делает (классификация <100k samples -> linear SVC). Так что с этой информацией ничего не получится. – sascha

Короче нет, это не слишком большой, на всех. Линейные svm могут масштабироваться намного дальше. С другой стороны, библиотека libSVC не может. Хорошая вещь, даже в scikit-learn, у вас есть масштабная реализация svm - LinearSVC, которая основана на liblinear. Вы также можете решить его с помощью SGD (также доступного в scikitlearn), который будет сходиться и для гораздо больших наборов данных.

источник

2016-08-03 08:09:28 lejlot

Реализация основана на libsvm. Сложная временная сложность - это больше , чем квадратичная с количеством выборок, что затрудняет масштабирование до набора данных с более чем несколькими 10000 образцами.

Offical данные о sklearn svm сказал theshold 10000 образцов так SGD может быть лучше попробовать.

источник

2017-08-22 09:16:50

Слишком много данных для SVM?

ответ

Смежные вопросы