У меня есть большой файл csv ~ 90k строк и 355 столбцов. Первые 354 столбца соответствуют наличию разных слов, показывающих числовое значение 1 или 0 и последний столбец.numpy неправильная форма импортированных данных и разделение значения y
Например:
table, box, cups, glasses, total
1,0,0,1,30
0,1,1,1,28
1,1,0,1,55
Когда я использую:
d = np.recfromcsv('clean.csv', dtype=None, delimiter=',', names=True)
d.shape
# I get: (89460,)
Так что мой вопрос:
- Как получить 2d массив/матрицы? Это имеет значение?
- Как я могу выделить столбец «total», чтобы создать поезд, cross_validation и тестовые наборы и обучить модель?
Благодаря мат я получил, что далеко. Проблема в том, как мне получить все остальные столбцы отдельно от последнего столбца? – holografix
Nitpick: все массивы записей *, возвращаемые 'recfromcsv' *, являются одномерными. Они не все 1-й вообще. –
Не знаю, что вы имели в виду под этим Уорреном. Не могу поверить, что это трудно выбрать диапазон колонок в numpy! Не могу ли я сделать что-то вроде X = d [:, 0: 3]; Y = d [:, 4]?! – holografix