Прежде всего, спасибо за чтение этого сообщения.Каков правильный способ подготовки набора данных для машинного обучения?
Я новичок, когда дело доходит до машинного обучения, и я пытаюсь использовать ML для классификации некоторых данных. Теперь я сделал некоторое базовое чтение по контролируемым и неконтролируемым алгоритмам обучения, таким как деревья решений, кластеризация, нейронные сети ..etc.
То, что я пытаюсь понять, - это правильная общая процедура подготовки наборов данных для проблемы ML.
Как подготовить набор данных для ML, чтобы я мог измерять точность алгоритмов?
Мое настоящее понимание заключается в том, что для оценки точности алгоритм должен быть снабжен предварительно помеченными результатами (из значительного подмножества набора данных?), Чтобы оценить разницу между ожидаемым результатом и решением алгоритма?
Если это так, то как же сделать предварительную маркировку больших наборов данных? Мой набор данных довольно большой, и ручная маркировка невозможна.
Кроме того, любые советы по обучению машинам в Python были бы высоко оценены!
Благодарим вас за помощь!
С наилучшими пожеланиями,
Майк
Это очень широкий вопрос. Данные для маркировки/аннотации дороги: исследователи платят студентам, платят анонимным незнакомцам за Механический Турк и, вероятно, используют кучу других методов, с которыми я не знаком. Много исследований проводится с использованием стандартных наборов данных для a) обеспечения количественного сравнения методов и b) не нужно беспокоиться о маркировке .... В Python некоторые наборы данных включены в sklearn - http://scikit-learn.org/stable /tutorial/basic/tutorial.html#loading-an-example-dataset - или, в более общем плане, смотрите здесь: http://mark.reid.name/blog/a-meta-index-of-data-sets.html – YXD
Спасибо Г-н E. Mechanical Turk - хороший крик! – Mike