У вас есть проблема с двоичной классификацией, то есть вы должны решить, является ли данный ввод хорошим или нет.
Попробуйте различные алгоритмы регрессии, scikits-learn позволяет легко переключаться с алгоритмами, позволяя вам видеть, что работает, а что нет.
Из верхней части моей головы, вот некоторые методы, которые я хотел бы попробовать:
- SVM
- Случайные леса (лес рандомизированных деревьев в scikits)
- регрессия (Ридж, Лассо, IRLS , логистика)
- Наивный байесовский
- K ближайших соседей
Как оценить качество данного метода? Используйте перекрестную проверку (сделайте это 10 раз, если у вас достаточно данных и в 5 раз в противном случае). Для этого есть полный раздел (5.1) руководства по изучению scikits-learn.
Добавление новых данных в набор для обучения потребует переподготовки вашей модели. В зависимости от вычислительной мощности, которую вы имеете под рукой, это может быть или не быть проблемой. Если у вас много примеров, добавление одного не сильно изменится, поэтому обязательно заново подготовьте свой алгоритм с помощью нескольких новых примеров. Это будет экономить вычислительное время.
Алгоритм, который использует обучающие наборы, называется автономными алгоритмами. С другой стороны, онлайн-алгоритмы учатся каждый раз, когда им представлен новый пример. Если вам это действительно нужно, попробуйте онлайн-методы, например, k ближайших соседей.
Если вам нужен пример кода, scikit учиться документ является очень полезным: - http://scikit-learn.org/0.10/auto_examples/linear_model/logistic_l1_l2_sparsity.html#example-linear-model-logistic-l1-l2-sparsity-py - http://scikit-learn.org/0.10/modules/linear_model.html#ridge-regression
http://scikit-learn.org/0.10/user_guide.html
Вместо того, чтобы читать документацию для 0.10 вы должны прочитать последнюю стабильную документ по адресу://scikit-learn.org/stable/ или doc для версии dev, если вы создаете scikit-learn из ведущей ветки, размещенной на github: http://scikit-learn.org/dev/ – ogrisel