пытается запустить классификатор RF в наборе данных ~ 50 000 записей с 20 или около того ярлыков, которые, как я думал, должны быть хорошими, но при попытке подгонки я следую следующим образом:Ошибка сегментации случайного лесного классификатора
Exception MemoryError: MemoryError() in 'sklearn.tree._tree.Tree._resize' ignored
Segmentation fault (core dumped)
Набор данных передан через TfidfVectorizer, а затем TruncatedSVD с n = 100 для уменьшения размерности. RandomForestClassifier работает с n_jobs = 1 и n_estimators = 10, пытаясь найти минимальную точку, в которой он будет работать. Система работает с 4 ГБ оперативной памяти, и РФ ранее работал в аналогичном наборе данных с гораздо большим количеством оценок и т. Д. Scikit-learn работает в текущей версии 0.14.1.
Любые советы?
Thanks
попробуйте запустить его на меньшее количество данных или более низкое значение n. Посмотрите, появляется ли такая же ошибка. У меня также есть 4 ГБ ОЗУ, и я использовал случайные леса на некоторых довольно больших наборах данных (не такой большой) и никогда не получал эту ошибку. Скажите, пожалуйста, если вы все равно получите ту же ошибку при ее снижении. –
Вы должны сообщить об этом на [sckikit bug tracker] (https://github.com/scikit-learn/scikit-learn/issues), если он воспроизводится. –
Я бы попытался уменьшить размер набора данных, предложенный @RyanSaxe. Я запустил RF на наборах данных намного больше, чем это, но имел доступ к очень большому количеству ОЗУ. –