Предположим, у меня есть программа, называемая script.py
:random_state поддерживается при запуске скрипта еще раз?
import pandas as pd
import numpy as np
from sklearn.cross_validation import train_test_split
if __name__ == "__main__":
df = pd.DataFrame({"x": [1,2,3,4,5,6,6,5,6,3], "y": [1,1,0,0,0,0,1,0,0,1]})
train, test = train_test_split(df, test_size = 0.20, random_state = 100)
Если я запускаю этот скрипт из моей командной строки сразу:
H:\>python script.py
Как я могу гарантировать, что train
и test
dataframes в последующих запусках (т.е. когда я снова запускаю script.py
) идентичны кадрам данных train
и test
из предыдущих итераций? Я знаю, что random_state
работает, если вы не покидаете консоль, но сохранилось бы равенство этих train
и test
наборов, если я вернусь завтра, снова включил свой компьютер и перезапустил script.py
?
Я тестирую точность различных алгоритмов машинного обучения, все они хранятся в разных сценариях, поэтому я хочу убедиться, что поезда и тестовые наборы идентичны по сценариям.
Для DataFrame той же формы он будет возвращать те же самые расколы, да. Вы можете попробовать его с помощью своего примера. У меня есть индексы 7 и 6 в тестовом наборе данных. Вы должны иметь то же самое. – ayhan