2016-06-17 2 views
1

У меня есть сомнения в наивных заливах с числовыми и не числовыми функциями. например, у меня есть 5 независимых независимых параметров. Я хочу классифицировать данные.тип текста независимая переменная до числового типа искра наивные заливы

Мужчина, подозрение на алкоголе, день недели, 12 am-4am, 75,30-39 Мужчину, перемещение трафика Нарушения, день недели, 12 am-4am, 0,20-24 Мужчина, подозрение на алкоголь, выходные, 4 AM- 8 утра, 12,40-49 Муж, подозрение на алкоголь, будний день, 12 утра и 4 ночи, 0,50-59 Женщины, столкновение с дорожным движением, выходные, 12 час. 00 мин., 0,20-24 Муж, Столкновение с дорожным движением, Будние дни, 12 час. 00 мин., 0,25-29 Муж, Столкновение с дорожным движением, будний день, 20 час. 00 мин., 0, Прочие Мужчина, другое, будний день, 8: 00-12: 00, 23,60-69 Мужчина, Выходные, 12 ч. 00 м.д., 26,30-39 Женщины, столкновение с дорожным движением, выходные, 4 ч. 00 м., 61,16-19 Мужчины, нарушение правил дорожного движения, выходные, 4 п. м-8 вечера, 74,25-29 Муж, Столкновение с дорожным движением, будний день, 12 ч. 00 м., 0, Прочие Мужчины, нарушение правил дорожного движения, будний день, 20.00-12.00, 0,16-19 Муж, Столкновение с дорожным движением, Будний день, 20: 00-12: 00, 0, Прочие Мужчины, нарушение правил дорожного движения, выходные, 4 утра и 8 утра, 0,30-39

Вы можете видеть, что некоторые параметры являются числовыми, некоторые не являются числовыми. Любой знает, как конвертировать не числовые данные в числовые данные.

  1. Как конвертировать нечисловой в числовые
  2. Если я использую TF, то это будет правильно или нет
  3. Если TF прав, то почему

ответ

0

Вы можете начать со следующим:

  • преобразовать каждую из функций в категориальное значение, применяя factorizer. Пример:

  • Feature1: Мужчина = 0 Женщина = 1

  • feature2: Alcohol = 0 коллизия = 1 Moving-Нарушений = 2
  • ..

и так далее.

Каждое различное возможное значение одного столбца должно иметь свое конкретное числовое представление в вашем факторизованном результате. Надеемся, что такие вещи, как 4pm-8pm, не перекрываются друг с другом: но если они есть, вы можете начать с игнорирования этой детали, а затем сделать еще более интеллектуальную рутическую фэратизацию, если позволяет время.

Каждая запись/строка на вашем входе состоит из около десятка «функций». Затем вы можете создать вектор функции из каждой строки. Получены результаты tf-idf ready (TM). Вы можете применить алгоритм NB к вашим недавно отчеканенным векторам объектов - и найти относительные сходства.

Смежные вопросы