Предположим, что у меня очень большой набор данных, который не может быть помещен в память, в наборе данных есть миллионы записей, и я хочу удалить повторяющиеся строки (фактически сохраняя одну строку из дубликаты)Удаление повторяющихся строк из большого набора данных
Каков наиболее эффективный подход с точки зрения пространственной и временной сложности?
То, что я подумал:
1.Using цветения фильтра, я не уверен, как это реализовано, но я предполагаю, что побочный эффект, имеющий ложные срабатывания, в этом случае, как мы можем найти, если это действительно дублировать или нет?
2.Using хэш-значение, в этом случае, если у нас есть небольшое количество повторяющихся значений, число уникальных значений хэша будет большим и снова мы можем иметь проблемы с памятью,
Я полагаю, что вы исключаете сортировку на диске? – hivert
Сколько у вас памяти? –
1 ГБ памяти и размер файла 25 ГБ (я еще не уверен в размере файла, я еще не получил его) –