2016-01-19 2 views
1

Я использую метод поиска сетки через svm.tune, чтобы получить оптимальный параметр гамма и С для моего svm. Набор данных содержит 7M строк и 11 переменных функции.R - улучшающая производительность настройки e1071

Кажется, что настройка на 5M строк моих данных занимает много времени или закончится без памяти (когда я уменьшу диапазон поиска сетки).

Есть ли у кого-нибудь советы о том, как я могу улучшить производительность? Масштабирование функций? Или, возможно, сокращение количества строк для обучения?

ответ

2

Выполняйте поиск по сетке на случайном подмножестве данных, затем используйте лучшие параметры для обучения вашего svm для всего набора данных. Установка svm - это как процессор, так и голод.

+0

Это факт, что время обучения svm не масштабируется линейно по размеру данных, посмотрите на эту статью для возможного решения этой проблемы: http://www.datasciencecentral.com/ профили/блоги/машинное обучение-в-параллельном-с-поддержкой-вектор-машинах – latorrefabian

+0

Не могли бы вы добавить функцию настройки или параметры, которые вы использовали? –

Смежные вопросы