У меня есть набор данных из 26 миллионов строк, и когда я пытаюсь разобрать его с помощью синтаксического анализа uniVocity, он читает его как только 18 миллионов строк. Число полей моих строк варьируется от 158 до 162 с разделителем как ASCII '\ u0001'.Анализатор UniVocity CSV имеет разную длину?
туалет -l выход из Linux >>>> туалет -l withHeader.dat 26351323 withHeader.dat
Но анализатор читает как Общее количество строк в файле = 18554088 (выход из списка .размер parser.parseAll())
Может кто-нибудь объяснить, что может быть проблемой?
это мой parserSettings
settings.getFormat().setLineSeparator("\n");
settings.selectFields("acctId","tcat", "transCode");
settings.getFormat().setDelimiter('\u0001');
//settings.setAutoConfigurationEnabled(true);
//settings.setMaxColumns(86);
settings.setHeaderExtractionEnabled(false);
// creates a CSV parser
CsvParser parser = new CsvParser(settings);
// parses all rows in one go.
List<String[]> allRows = parser.parseAll(newReader(filePath));
System.out.println("Total # of rows in file = " + allRows.size());
@ jeronimo-backes - Можете ли вы проверить и прокомментировать – Gokul