У меня очень большой набор данных, извлеченный из машины (данные потока), где большая часть данных попадает под одну категорию , если я тренирую классификатор с использованием текущих данных, точность будет очень низкой. как определить ключевые особенности при предоставлении данных? также как я могу измерить вероятность некоторых предыдущих функций в временном ряду?Как определить заранее ключевые функции из большого набора данных, где большая часть данных попадает под одну категорию, используя контролируемое обучение
ответ
Типичные методы идентификации важных функций включают PCA и ICA. Однако даже более ценным, чем эти методы, является понимание базовой системы, которую представляют ваши данные.
Трудно ответить без дополнительной информации о структуре данных. Лучший подход к классификации зависит от структуры ваших данных и целей вашего анализа. Есть некоторые классификаторы, которые могут очень хорошо справляться с перекошенными данными, я бы предположил, что вы посмотрите на некоторые из таких ансамблевых методов, как усиление и случайные или ротационные леса. Некоторые из этих методов классификации, например ротационные леса, предоставляют информацию о переменной важности в рамках учебного процесса. Если вы просто хотите решить, какие функции наиболее важны, вы можете попробовать использовать CART/random леса. Однако, если вам нужна подробная помощь, я настоятельно рекомендую вам предоставить дополнительную информацию о вашей структуре данных и о том, чего вы хотите достичь.
: структура данных следующая: –
- 1. Оценка тегов (контролируемое обучение)
- 2. рандомизация большого набора данных
- 3. Что такое слабо контролируемое обучение (самонастройка)?
- 4. Обработка большого набора данных
- 5. Удаление повторяющихся строк из большого набора данных
- 6. Подкачка большого набора данных
- 7. Разбиение большого набора данных
- 8. Parse.com: генерировать статистику из большого набора данных
- 9. Вычисление большого набора данных из CSV
- 10. Выбор конкретных строк из большого набора данных, используя столбец значений
- 11. Таблица Rstudio из большого набора данных
- 12. оптимизировать извлечение текста из большого набора данных
- 13. Полу-контролируемое обучение с помощью sklearn
- 14. Гистограмма для большого набора данных
- 15. Потребление памяти большого набора данных
- 16. Solr индексация большого набора данных
- 17. Попытка получить данные из большого набора данных
- 18. Выберите часть набора данных
- 19. Как нарисовать графики, используя d3.js для большого набора данных?
- 20. Создание схемы базы данных MySQL для большого набора данных
- 21. Вывод большого набора данных из веб-сервиса
- 22. Как сделать обучение и тестирование из набора данных?
- 23. Хранение большого статического набора данных
- 24. Поиск дубликатов из большого набора данных с использованием Apache Spark
- 25. Выбор базы данных для большого набора данных
- 26. Повторяя обучение с теми же набора данных
- 27. Удалить часть фильтра набора данных
- 28. Извлечение данных из очень большого набора данных с использованием matlab
- 29. Идентификация закрытых текстурных патчей из большого набора данных
- 30. Как сгруппировать изображения из большого набора данных в группы
Что для вас означает термин «ключевые функции»? И, скорее всего, любой ответ будет зависеть от используемого вами классификатора, структуры ваших данных и цели вашей системы - ни один из них не указан. – ealdent
Обучение Структура данных следующим образом: Окно 4-х различных значений и целевой выход Пример: В момент времени t1: V1 = 100, V2 = 200, V3 = 150, В4 = 400, целевая = -1 В момент времени t2 : V1 = 102, V2 = 220, V3 = 170, V4 = 430, target = + 1 И так далее В некоторых случаях одним или несколькими значениями V1, V2, V3 или V4 являются основной функцией, которая имеет/имеют основное влияние на целевом выходе для данных онлайн-потока (инкрементный) –