У меня действительно большой файл с примерно 15 миллионами записей. Каждая строка файла содержит одну строку (назовите ее ключ).Найти дубликаты в большом файле
Мне нужно найти дубликаты записей в файле с помощью java. Я попытался использовать хэш-карту и обнаружить повторяющиеся записи. Видимо, этот подход бросает мне ошибку «java.lang.OutOfMemoryError: Java heap space».
Как я могу решить эту проблему?
Я думаю, что я мог бы увеличить кучу пространства и попробовать его, но я хотел знать, есть ли более эффективные решения, без необходимости настраивать кучу пространства.
Offtopic: Как вы получили 15 миллионов записей в первую очередь? – Mob
Хорошим способом работы должно быть отсутствие дубликатов. Не должно быть необходимости в удалении дубликатов. –
@Martijn Courteaux: Вы не знаете, какие данные это. Например, если у вас есть книга и вы хотите знать, какие слова используются в книге, нет способа избежать дубликатов, таких как 'the' в первую очередь. – DarkDust