2016-10-26 4 views
0

Я пытаюсь классифицировать некоторые инциденты как истинные положительные и ложные срабатывания, используя машинное обучение.Как я могу обрабатывать реляционные данные в классификации машинного обучения?

У меня есть набор данных об инцидентах, где каждый столбец описывает атрибут инцидента. И есть список предупреждений, связанных с каждым инцидентом. Список предупреждений может содержать 0-10 предупреждений с каждой строкой предупреждения, содержащей сведения об этом оповещении. то есть существует взаимосвязь между инцидентом и предупреждениями.

У меня есть опыт в классификации простых наборов данных, которые имеют набор столбцов для каждой строки, но я не уверен, как обрабатывать реляционные данные, подобные этому.

Я использую scikit-learn для этого.

ответ

1

Насколько я понимаю, ваши данные выглядит следующим образом:

incident table: 
id | i_attr0 | alerts 
0 | foo  | [alert0, alert1] 
... 

alert table: 
id  | a_attr0 
alert0 | bar 
alert1 | baz 
... 

Если это так, я бы денормализовать таблицу что-то вроде:

incident-alert table: 
id | i_attr0 | alert0 | alert0_a_attr0 | alert1 | alert1_a_attr0 | etc.. 
0 | foo  | true | bar   | true | baz   | 

, а затем работать оттуда.

Смежные вопросы