2016-05-06 2 views
0

Я участвую в конкурсе небольших данных в нашей школе.
Мы используем приспособления для ношения одежды Fitbit, которые предоставляются каждому участнику во время соревнований.
За 2 месяца во время конкурса, они идут и спать с этим маленьким устройством 24/7,
позволяют ей собирать данные о прогулке участника подсчитывать с ЧСС (уд) и т.д.
, и мы должны решить некоторые проблемы на основе данные
, как, например,анализ Fitbit прогулки и спальные данные

  • показывает отношения между дождливыми днями и участниками эти участниками разработкой скорости с использованием диаграммы,

я думаю, что цель задачи,
из-за дождя, ожидается, что многие участники будут дома.
Вы можете показать некоторые причины и следствия численно?

Я сейчас изучаю библиотеку python numpy, панды с ноутбуком ipython.
, но все же я понятия не имею о решении этих проблем.
Вы могли бы порекомендовать некоторые проекты или сайты для ссылок? я действительно стремится выиграть этот конкурс. :(
и, наконец, извините за мой плохой английский.

Спасибо.

+0

Можете ли вы добавить [Минимальный, полный и проверенный пример] (http://stackoverflow.com/help/mcve)? – jezrael

ответ

2

это интересный проект. Я работаю над чем-то вроде похож.

Вот что вам нужно сделать:.

  • Изучает FitBit API и поток данных из FitBit акселерометра и гироскопа Если вы можете совместить это с данными сердечного ритма, большим чем больше типов данных, которые вы имеете,. mor Эффективным будет ваш алгоритм. Вы можете хранить эти данные в простом csv-файле (рекомендуется потоковая передача данных ускорения/гироскопа с частотой 50 Гц). Или настроить веб-сервер и сохранить его в базе данных для легкого доступа

  • Узнайте, как использовать панд и scikit узнать

  • [необязательно, но рекомендуется]: Научитесь Matplotlib, так что вы можете построить график вам данные и получить ощущение как это выглядит

  • Загрузите данные в панды и создайте объекты на основе данных - особенно используя 1-2-секундный скользящий оконный анализ с перекрытием 50%. Хорошие функции включают (для всех трех Accel X, Y, Z): max, min, стандартное отклонение, средний квадрат корня, квадрат корня и наклон. Полиномы помогут.

  • Поскольку это контролируемая проблема классификации, вам нужно будет создать некоторые помеченные данные - так сделайте это вручную (состояние 1 = дождливый день, состояние 2 = ненабойный день), а затем подготовьте алгоритм классификации. Я бы рекомендовал random forest

  • тест с использованием непомеченных данных - не забудьте использовать cross validation

Вуаля, теперь у вас есть очень точная модель и выиграют конкурс.Кроме того, вы узнали о множестве действительно классных Python и машинного обучения.

Дополнительные учебники о том, как работает все эти вещи, я настоятельно рекомендую Kaggle tutorial projects

БОНУС: Если вы хотите, чтобы принять его на новый уровень, вы можете начать добавлять на вершине методы сглаживания вашего классификатора, для пример с использованием скрытой марковской модели, как объяснено в this talk

БОНУС 2: Идите получить докторскую степень в области распознавания человеческой деятельности.

+0

БОНУС 2 хорош :) – jezrael

+0

Не должно быть наоборот (т. Е. Прогнозировать скорость работы людей с использованием погодных условий)? – ayhan

+0

Я предполагаю, что вы могли бы структурировать его в любом случае - причина, по которой я ответил так, заключается в том, что чем более интересной проблемой (для меня) является использование данных fitbit в качестве функций вашего классификационного алгоритма. Да, вместо этого вы можете загрузить все данные о погоде - показания барометра, минимальные/максимальные темпы, влажность, все это. Может быть, тоже весело. –

Смежные вопросы