2016-09-04 3 views
-2

У меня есть огромный файл csv, который имеет 5000 столбцов и 5 000 000 строк. Я знаю, что в этом файле есть несколько столбцов, которые в точности совпадают. Я хочу идентифицировать такие столбцы. Пожалуйста, не то, что я не могу получить этот огромный файл в память, а также время работы.Поиск похожих столбцов в огромном файле csv

+2

все те теги и код нет? добавьте python и код, вы можете получить ответы. –

+0

Если у вас есть сортировка по CSV, вам не нужно много хранить в памяти в то же время – andlrc

ответ

1

Точно так же?

Я полагаю, вы можете проверить его с помощью хеш-функций.

Шаг 1 - Вы можете загрузить 5'000 значений первой строки и вычислить 5'000 хеш-значений; исключить значения (столбцы) без соответствующего значения.

Шаг 2 - Загрузите значение (только сохранившийся столбец) и вычислите хэш конкатенации предыдущего хэша с загруженным значением; исключить значения (столбцы) без соответствующего значения.

следующие шаги: точно так же, как шаг 2: загрузка и конкатенация/хэш, исключая столбцы без совпадений.

+0

Я следовал за вашим предложением с bash и вычислял хэш для каждого столбца. У меня есть следующая команда в цикле for. hash = $ (tail -n +2 train.csv | cut -d ',' -f $ i | sha256sum) – Mojtaba

Смежные вопросы