Я использую метод поиска сетки через svm.tune, чтобы получить оптимальный параметр гамма и С для моего svm. Набор данных содержит 7M строк и 11 переменных функции.R - улучшающая производительность настройки e1071
Кажется, что настройка на 5M строк моих данных занимает много времени или закончится без памяти (когда я уменьшу диапазон поиска сетки).
Есть ли у кого-нибудь советы о том, как я могу улучшить производительность? Масштабирование функций? Или, возможно, сокращение количества строк для обучения?
Это факт, что время обучения svm не масштабируется линейно по размеру данных, посмотрите на эту статью для возможного решения этой проблемы: http://www.datasciencecentral.com/ профили/блоги/машинное обучение-в-параллельном-с-поддержкой-вектор-машинах – latorrefabian
Не могли бы вы добавить функцию настройки или параметры, которые вы использовали? –