Я начинаю с машинного обучения и аналитики, и мой подход заключается в том, чтобы погрузиться прямо в данные и изучить методы/инструменты по мере необходимости.Классификация данных о событиях
У меня есть набор данных о событиях, регистрирующих движение людей в/из комнаты с помощью RFID-чипов с уникальными идентификаторами, чтобы у меня была отметка времени, когда чип входит в комнату и когда он уходит. Я хочу классифицировать идентификаторы чипов, основываясь на их перемещениях и выходе из комнаты.
Например,
- чип, который уходит и возвращается на регулярной основе может принадлежать кому-то, кто работает в этой комнате.
- Чип, который входит и остается в течение длительного времени, может принадлежать к электронному оборудованию, которое перемещается.
- Чип, который приходит и оставляет короткое время спустя, с несколькими или только одним набором входов/выходов может быть посетителем.
- Чип, который проводит минимальное время в комнате и не посещает часто, может просто быть кем-то, кто проходит.
Это мои четыре основные категории.
До сих пор я пробовал кластеризацию k-mean. Для каждого чипа я вычисляю некоторые параметры, которые могут указывать на определенную категорию: среднее время, проведенное в комнате, количество дней в неделю, общее время, проведенное в комнате, и среднее количество входов/выходов в день.
С этим я видел некоторые разумные результаты, но в зависимости от того, какие параметры я использую, результаты сильно меняются. Рассматривая параметры чипа, которые я генерирую на графике, в классификации есть много вариаций. У меня нет хороших данных по обучению, поэтому я сначала попробовал метод классификации.
В основном я ищу советы о том, какие могут быть лучшие алгоритмы или методы для использования, или даже если мой подход ушел. Я могу предоставить код или фиктивные данные, если это необходимо, но я действительно ищу хорошего направления.
Не могли бы вы привести примеры функций, которые вы используете?Я подозреваю, что технология разработки - это область, которую вы, вероятно, не заметите, окажет самое непосредственное влияние на то, что выходит из метода. –
Возможно, вы захотите использовать контролируемые методы для этого вместо кластеризации. В частности, k-mean действительно просто грубая эвристика, и я вовсе не удивлен, что она не работает надежно. –
Проводка образца ваших данных будет действительно полезна. – Mike