я пытаюсь разобрать текстовый файл, который выглядит следующим образом, используя панд:Разбор не регулярные текстовый файл в панд
Some random text
more random text that may be of different length
JUNK 0 9 8
GOOD 0 1 1
GOOD 5 5 5
more random text interdispersed
GOOD 123 321 2
JUNK 55 1 9
GOOD 1 2 3
Файл ограничен пространством. Мне только нравятся строки, начинающиеся с «GOOD», которые будут иметь одинаковое форматирование.
Я считаю, что read_table()
- это правильная команда, но я не знаю, как ее фильтровать.
Мой текущий метод анализа файлов - это открыть файл, использовать регулярное выражение для соответствия строкам, которые меня волнуют, а затем разделить строку на пробелы. Это может быть медленным, и я ищу более быстрый способ.
Это будет большая проблема скорости, потому что я открываю тысячи файлов в директории с десятками из тысяч файлов. Я хочу избежать промежуточного письма и чтения, если это вообще возможно. У меня возникает соблазн подумать, что моя текущая реализация быстрее, чем эта. – deltap
Если вы собираетесь читать десятки тысяч файлов, самое быстрое, что вы можете сделать, это предварительно обработать каждый файл один раз и преобразовать его в обычный формат, который вы можете легко прочитать. Попытка фактически анализировать нерегулярный файл каждый раз менее эффективна, чем пытаться преобразовать его в хорошо читаемую форму. – BrenBarn