Я пробую случайную модель классификации леса, используя библиотеку H2O
внутри R на обучающем наборе, имеющем 70 миллионов строк и 25 числовых функций. Общий размер файла составляет 5,6 ГБ.Почему соединение заканчивается
Размер файла проверки составляет 1 ГБ.
У меня 16 ГБ оперативной памяти и 8-ядерный процессор на моей системе.
Система успешно считывает оба файла в объекте H2O.
Тогда я даю ниже команду, чтобы построить модель:
model <- h2o.randomForest(x = c(1:18,20:25), y = 19, training_frame = traindata,
validation_frame = testdata, ntrees = 150, mtries = 6)
Но после нескольких минут (без создания каких-либо дерево), я получаю следующее сообщение об ошибке:
"Error in .h2o.doSafeREST(conn = conn, h2oRestApiVersion = h2oRestApiVersion, : Unexpected CURL error: Recv failure: Connection reset by peer"
Однако, если Я пробовал код с 1 деревом, и он работает успешно.
Вышеупомянутая ошибка возникает из-за проблемы с памятью? Любая помощь будет оценена.
Я проверил использование памяти во время роста леса. Память быстро падает, и, наконец, я получаю ошибку подключения. я убью другой процесс и запустим только RF-альго. – rks
Сообщите нам, если это поможет. В качестве альтернативы вы можете попробовать менее требовательный к ресурсу ML подход, например, глубокие нейронные сети, которые также существуют в базовой версии H2O. – cyberj0g
Это была моя ошибка. Раньше я запускал экземпляр H2O с опцией памяти по умолчанию (для моих данных это было слишком мало). Теперь я запускаю экземпляр H2O с опцией -Xmx14g, и algo работает успешно. Ура ... :). Я рассмотрю ваше предложение о глубоком обучении, если я получу точность меньше порога в моем случае. – rks