Я только что выполнил код here (с незначительными изменениями для sklearn 0.17). В этом примере данные представляют собой только списки или массивы numpy. Теперь я хочу подготовить набор данных для обучения игрушек на диске и использовать datasets.load_files
, чтобы загрузить его для классификации по нескольким методам. Однако, просто следуя соглашению load_files
, а затем копируя один и тот же файл в несколько папок, не создается список списков (наборы этикеток) для dataset.target
.Подготовьте учебный набор данных для классификации многокласн.
Итак, каков правильный способ подготовки набора данных для многосегментной классификации?
Спасибо @maxymoo, это хороший момент. Я сканирую и храню несколько файлов, поэтому, возможно, я просто буду называть каждый документ, используя список меток, больше не структуры папок, и напишу функцию для анализа имен файлов и чтения содержимого ... – treslumen
, если вы сканируете, вы можете хотите рассмотреть возможность использования базы данных, такой как mongodb или postgres, вы можете быть рады этому в долгосрочной перспективе, а не иметь кучу файлов, плавающих вокруг. Кроме того, вы можете сделать некоторые предварительные операции в базе данных, которые могут быть удобными. – maxymoo