Мне нужно обучить классификатор svm в sklearn. Размеры векторов признаков идут сотнями тысяч, и есть десятки тысяч таких векторов признаков. Однако каждый размер может быть 0, 1 или -1. Только около 100 отличных от нуля в каждом объекте. Любой эффективный способ предоставить информацию об объектных векторах в классификатор?Ошибка памяти Python - огромные входные данные Sklearn?
ответ
Мне нужно обучить классификатор svm в sklearn.
Вы имеете в виду sklearn.svm.SVC
? Для высокоразмерных разреженных данных и многих образцов LinearSVC
, LogisticRegression
, PassiveAggressiveClassifier
или SGDClassifier
может быть намного быстрее, чтобы тренироваться для сопоставимой точности прогноза.
Размеры вектора признаков идут в lakhs, и есть десятки тысяч таких векторов признаков. Однако каждый размер может быть 0, 1 или -1. Только около 100 отличных от нуля в каждом объекте. Любой эффективный способ предоставить информацию об объектных векторах в классификатор?
Найти способ загрузки данных в виде матрицы scipy.sparse
, которая не хранит нули в памяти. Посмотрите на documentation on feature extraction. Это даст вам инструменты для этого, в зависимости от характера представления исходных данных.
- 1. Ошибка памяти sklearn в python
- 2. Ошибка памяти sklearn parwise_distances вычисление
- 3. Огромные наборы данных в машинном обучении sklearn
- 4. Python interprocess communication, огромные данные
- 5. Основные данные executeFetchRequest потребляет огромные объемы памяти
- 6. python multiprocessing.Array: огромные временные временные ресурсы памяти
- 7. Ошибка памяти Python MeanShift
- 8. Огромные утечки памяти NSData
- 9. Sklearn multi-task: входные данные не 3-мерные?
- 10. Принимая входные данные в python
- 11. Python [модуль sklearn]: Ошибка при попытке нормализовать данные
- 12. ошибка памяти в python
- 13. Ошибка памяти памяти Python
- 14. Огромные данные в списке (Таблица)
- 15. Unity3d Огромные текстуры использования памяти
- 16. Ошибка памяти Параллельный Python (большие данные параллельно)
- 17. Python, ValueError, Broadcast Ошибка с SKLearn Preproccesing
- 18. Хранить огромные данные
- 19. Как показать огромные данные
- 20. Радиовещательный приемник. Огромные данные
- 21. Ошибка Sklearn __init__.py
- 22. Невозможно хранить огромные строки в памяти
- 23. Объем памяти словаря и хотите хранить огромные данные в словаре в python
- 24. SVR sklearn python, ошибка типа смешивания Y
- 25. импорт sklearn ошибка с anaconda python 3.52
- 26. Огромные коллекции в Python
- 27. Python: ошибка памяти Pandas
- 28. Входные данные о трубопроводе через подпроцесс python
- 29. Полиномы как входные данные в Python
- 30. Python: проверьте входные данные первых символов
Спасибо! Редкие матрицы работали блестяще. Однако классификатор занимает много времени, чтобы пройти подготовку. Какие-либо предложения? – user2115183
Пожалуйста, откройте новый вопрос с подробностями: какой класс sklearn, какова форма данных, каков уровень разреженности, сколько целевых классов ... – ogrisel
Обратите внимание, что согласно документации ваш массив должен быть c-смежным. Если вы работаете с Pandas DataFrame, вы, вероятно, работаете с f-смежными массивами. Это может привести к исключению памяти Python при запуске любого алгоритма scikit. – mjaskowski