У меня есть огромный файл csv, который имеет 5000 столбцов и 5 000 000 строк. Я знаю, что в этом файле есть несколько столбцов, которые в точности совпадают. Я хочу идентифицировать такие столбцы. Пожалуйста, не то, что я не могу получить этот огромный файл в память, а также время работы.Поиск похожих столбцов в огромном файле csv
ответ
Точно так же?
Я полагаю, вы можете проверить его с помощью хеш-функций.
Шаг 1 - Вы можете загрузить 5'000 значений первой строки и вычислить 5'000 хеш-значений; исключить значения (столбцы) без соответствующего значения.
Шаг 2 - Загрузите значение (только сохранившийся столбец) и вычислите хэш конкатенации предыдущего хэша с загруженным значением; исключить значения (столбцы) без соответствующего значения.
следующие шаги: точно так же, как шаг 2: загрузка и конкатенация/хэш, исключая столбцы без совпадений.
Я следовал за вашим предложением с bash и вычислял хэш для каждого столбца. У меня есть следующая команда в цикле for. hash = $ (tail -n +2 train.csv | cut -d ',' -f $ i | sha256sum) – Mojtaba
- 1. Объединение CSV линий в огромном файле
- 2. Удаление дубликатов в огромном файле .csv
- 3. Применение фильтров к заголовкам в огромном файле csv
- 4. Индексирование столбцов в файле CSV
- 5. Группировка похожих строк предложений в файле csv
- 6. Поиск всех похожих строк в текстовом файле
- 7. Поиск в файле CSV - python
- 8. Перестановка столбцов в CSV-файле
- 9. сортировка столбцов в CSV-файле
- 10. pandas найти постоянные переменные в огромном файле csv
- 11. Поиск имени в CSV-файле
- 12. Поиск и использование содержимого ключевого слова в огромном файле
- 13. оболочки заменить в огромном файле
- 14. удалять пустые столбцы в огромном файле
- 15. поиск столбцов csv и вставка в mysql
- 16. Coalesce на огромном количестве столбцов
- 17. Поиск похожих названий в BASH
- 18. Переустановка столбцов в файле csv в php
- 19. strstr на огромном mmapped файле
- 20. Выбор различного количества столбцов в CSV-файле
- 21. Значения отдельных столбцов в файле csv
- 22. номера изменения столбцов в файле CSV
- 23. Найти количество столбцов в файле csv
- 24. пакет для перемещения столбцов в CSV-файле
- 25. группы столбцов в CSV-файле, панд
- 26. Сравнение двух файлов csv с использованием Python и поиск похожих значений в двух файлах и сохранение похожих значений в другом файле в соответствии с значениями
- 27. Поиск в CSV с переменным количеством столбцов
- 28. Поиск дубликатов значений столбцов в CSV
- 29. Поиск в varchar в огромном столе
- 30. Поиск общего количества дубликатов в CSV-файле
все те теги и код нет? добавьте python и код, вы можете получить ответы. –
Если у вас есть сортировка по CSV, вам не нужно много хранить в памяти в то же время – andlrc