2012-05-01 1 views
3

У меня есть данные за год с сайта. Я хотел бы подготовить алгоритм машинного обучения, чтобы предсказать успех нового контента на основе определенных переменных (например, количество слов, время дня публикации и т. Д.)Использование scikit научиться прогнозировать хороший контент на веб-сайте

Я хотел бы взять новый фрагмент данных , вводят некоторые характеристики об этом и получают вероятность того, насколько хорошо он будет работать на сайте.

Кроме того, я хотел бы продолжить добавлять будущие данные в учебный комплект и постоянно обучать алгоритму, чтобы он стал более умным с течением времени.

Мой вопрос: как я могу использовать scikit-learn для этого?

ответ

3

У вас есть проблема с двоичной классификацией, то есть вы должны решить, является ли данный ввод хорошим или нет.

Попробуйте различные алгоритмы регрессии, scikits-learn позволяет легко переключаться с алгоритмами, позволяя вам видеть, что работает, а что нет.

Из верхней части моей головы, вот некоторые методы, которые я хотел бы попробовать:

  • SVM
  • Случайные леса (лес рандомизированных деревьев в scikits)
  • регрессия (Ридж, Лассо, IRLS , логистика)
  • Наивный байесовский
  • K ближайших соседей

Как оценить качество данного метода? Используйте перекрестную проверку (сделайте это 10 раз, если у вас достаточно данных и в 5 раз в противном случае). Для этого есть полный раздел (5.1) руководства по изучению scikits-learn.

Добавление новых данных в набор для обучения потребует переподготовки вашей модели. В зависимости от вычислительной мощности, которую вы имеете под рукой, это может быть или не быть проблемой. Если у вас много примеров, добавление одного не сильно изменится, поэтому обязательно заново подготовьте свой алгоритм с помощью нескольких новых примеров. Это будет экономить вычислительное время.

Алгоритм, который использует обучающие наборы, называется автономными алгоритмами. С другой стороны, онлайн-алгоритмы учатся каждый раз, когда им представлен новый пример. Если вам это действительно нужно, попробуйте онлайн-методы, например, k ближайших соседей.

Если вам нужен пример кода, scikit учиться документ является очень полезным: - http://scikit-learn.org/0.10/auto_examples/linear_model/logistic_l1_l2_sparsity.html#example-linear-model-logistic-l1-l2-sparsity-py - http://scikit-learn.org/0.10/modules/linear_model.html#ridge-regression

http://scikit-learn.org/0.10/user_guide.html

+1

Вместо того, чтобы читать документацию для 0.10 вы должны прочитать последнюю стабильную документ по адресу://scikit-learn.org/stable/ или doc для версии dev, если вы создаете scikit-learn из ведущей ветки, размещенной на github: http://scikit-learn.org/dev/ – ogrisel

Смежные вопросы