У меня есть большой текстовый файл (~ 100 МБ), который нужно разобрать для извлечения информации. Я бы хотел найти эффективный способ сделать это. Файл структурирован в блоке:Извлечение данных из большого структурированного файла с использованием Java/Python
Mon, 01 Jan 2010 01:01:01
Token1 = ValueXYZ
Token2 = ValueABC
Token3 = ValuePQR
...
TokenX = Value123
Mon, 01 Jan 2010 01:02:01
Token1 = ValueXYZ
Token2 = ValueABC
Token3 = ValuePQR
...
TokenY = Value456
Есть ли библиотека, которая могла бы помочь разобрать этот файл? (В Java, Python, любой инструмент командной строки)
Edit: Я знаю, что вопрос является расплывчатым, но ключевым элементом является не способом чтения файла, разобрать его с регулярным выражением, и т.д. Я искал более в библиотеке или предложениях инструментов с точки зрения производительности. Например, Antlr, возможно, была возможностью, но этот инструмент загружает весь файл в память, что не очень хорошо.
Спасибо!
Вы собираетесь загрузить их все или выбрать и выбрать по дате/значку? И что вы будете делать с анализируемыми данными? –
Какая информация? Вы можете прокручивать его по строкам и прерывать каждую строку, но это поможет узнать, чего вы хотите от нее. – snapshoe
Необходимая информация будет храниться во внутренней структуре. Например, хэш-карта. – legege