2
x_train:(153347,53) 
x_test:(29039,52) 
y:(153347,) 

Я работаю с sklearn. Для того, чтобы пересечь проверить и изменить свой набор данных я сделал:Как исправить изменение набора данных для перекрестной проверки?

x_train, x_test, y_train, y_test = cross_validation.train_test_split(
x, y, test_size=0.3) 

x_train = np.pad(x, [(0,0)], mode='constant') 
x_test = np.pad(x, [(0,0)], mode='constant') 
y = np.pad(y, [(0,0)], mode='constant') 
x_train = np.arange(8127391).reshape((-1,1)) 
c = x.T 
np.all(x_train == c) 
x_test = np.arange(1510028).reshape((-1,1)) 
c2 = x.T 
np.all(x_test == c2) 
y = np.arange(153347).reshape((-1,1)) 
c3 = x.T 
np.all(y == c3) 

Мое сообщение об ошибке: ValueError: Найдены массивы с противоречивым числом образцов: [2 153347]

Я не уверен, что мне нужно раздуть мой набор данных в этом случае и изменение не работает. Любые идеи о том, как я могу это исправить?

+0

Возможно, вам стоит упомянуть, что вы используете sklearn и описываете больше, что вы делаете. В противном случае шансы высоки, что их просто игнорируют. – fricke

+0

Хорошо, спасибо за подсказку. – Bolajio

+0

где это сообщение, исходя из? Кажется, что вы просто передали транспонированный 'y' – lejlot

ответ

1

С маленьким мы видим здесь один, я считаю, что вызов cross_validation.train_test_split дампов, потому что длина двух векторов не совпадает. Поэтому для каждого X (кортеж данных, который мы наблюдаем) вам нужен Y (точка данных, которая наблюдается в результате).

По крайней мере, это приводит к ошибке, показанной выше.

Вы должны определенно улучшить формулировку проблемы. Даже очень.

привет, fricke

+0

. Я вижу, что вы говорите, проблема заключается в вызове y_test, поскольку он не существует в dataframe. Благодаря! – Bolajio

+0

Если это решает проблему, вы можете принять решение, спасибо – fricke

+0

Хорошо, если вы можете помочь. Нужно ли объединять отдельные файлы поезда и теста для выполнения перекрестной проверки? У меня есть csv как поезд csv и тестовый csv. Могу ли я просто объединить их в один и программа, основанная на разделении моего набора данных вместо x и y? – Bolajio

Смежные вопросы