1

Я новичок в области машинного обучения. Я взял курс «Введение в машинное обучение» Udacity. Поэтому я знаю, как запустить базовые классификаторы с помощью sklearn и python. Но все классификаторы, которые они преподавали на курсе, обучались по одному типу данных.Как тренировать классификатор по разным типам объектов вместе? Как String, числовая, категориальная, временная метка и т. Д.

У меня проблема, когда я хочу классифицировать код как «чистый» или «багги». У меня есть набор функций, который содержит данные String (например, имя человека), категориальные данные (скажем, «чистый» и «багги»), числовые данные (например, количество коммитов) и данные временной метки (например, время фиксации). Как я могу обучать классификатор на основе этих трех функций одновременно. Предположим, что я планирую использовать классификатор Naive Bayes и sklearn. Пожалуйста помоги!

Я пытаюсь реализовать paper. Любая помощь будет действительно заметна.

ответ

0

Многие классификаторы машинного обучения, такие как логистическая регрессия, случайный лес, деревья решений и SVM, отлично работают как с непрерывными, так и с категориальными функциями. Я предполагаю, что у вас есть два пути. Первый - данные предварительная обработка. Например, преобразуйте все строковые/категорические данные (имя человека) в целые числа или вы можете использовать ансамблевое обучение.

Изучение ансамбля - это когда вы комбинируете различные классификаторы (каждый из которых имеет дело с одним видом гетерогенной функции), например, с использованием большинства голосов, чтобы они могли найти консенсус в классификации. Надеюсь, поможет.

+0

Hi Victor. Я работал над проблемой, но не смог найти ничего существенного. Я использую для этого библиотеку scikit-learn. Можете ли вы помочь мне с некоторым фрагментом примера о том, как использовать разные типы элементов вместе в классификаторе? заранее спасибо – harshlal028

Смежные вопросы