У меня есть набор данных в файле .tsv, доступный here. Я написал несколько классификаторов, чтобы решить, является ли данный сайт эфемерным или вечнозеленым.Какое ваше эмпирическое правило для первоначального выбора алгоритма машинного обучения/выполнения первоначальной настройки?
Моей первоначальная практика быстрое прототипирования, сделали случайный классификатор, 1Р классификатор, пробовала некоторые функции инженерию, линейную регрессию, логистическую регрессию, наивный Байес ... и т.д. и т.п.
Я сделал все это в перемешаны однако, некогерентно. Я хотел бы знать, если вам дали набор данных (ради аргумента, данные выше), как бы вы проанализировали его, чтобы найти подходящий классификатор? На что бы вы попытались извлечь смысл из своего набора данных изначально?
Это то, что я сделал правильно в этом возрасте программирования высокого уровня, где я могу запускать 5/6 алгоритмов по моим данным за ночь? Является ли метод быстрого прототипирования лучшей идеей здесь или существует более разумный, логичный подход, который можно принять?
На данный момент я очистил данные, удалив все бессмысленные строки (их мало, поэтому их можно просто отбросить). Я написал скрипт для проверки подлинности моего классификатора, поэтому у меня есть метрика для проверки смещения/дисперсии, а также для проверки общей производительности алгоритма.
Куда я иду отсюда? Какие аспекты мне нужно учитывать? Что я здесь думаю?
Бесстыдная самозарядка: http://peekaboo-vision.blogspot.de/2013/01/machine-learning-cheat- лист-для-scikit.html –