2

Как получить категориальные и непрерывные данные из файла CSV (например, Titanic dataset) и получить его в хорошем формате для Tensorflow без использования API tf.learn (т. Е. Чистого Tensorflow) ?Смешивание категориальных и непрерывных данных в чистом Tensorflow

Например,

  • Категориальные данные могут быть (в моем случае) 'vehicle_make', 'vehicle_model'
  • Непрерывные данные могут быть 'цена', 'пробег'

I затем захотите использовать эти данные в качестве входных данных для многослойной нейронной сети персептрона, как показано в следующем примере:

https://github.com/aymericdamien/TensorFlow-Examples/blob/master/notebooks/3_NeuralNetworks/multilayer_perceptron.ipynb

Приветствие,

Баз

ответ

3

Вы можете использовать один-горячее кодирование для категориальных данных.

В принципе можно сопоставить vehicle_model с числовым значением

Tesla S -> 1

Ford Focus -> 2

... -> я

А затем использовать вектор со всеми нули и 1 в i-м положении для представления этого значения:

Tesla S -> [1, 0, 0]

Ford Focus -> [0, 1, 0]

как tensorflow и scikit learn имеют функции, чтобы сделать это.

Включить непрерывные данные как есть, как одно из значений входного вектора.

+0

Нужно ли масштабировать непрерывные значения в диапазоне от 0 до 1? Если да, как вы это рекомендуете? Приветствия. –

+1

Нормализация входных данных - это почти всегда разумный шаг, просто убедитесь, что все данные нормализованы одинаково, и данные тестирования не «утечка» какой-либо информации в учебные комплекты e.t.c. – hamilyon

Смежные вопросы