синтаксический анализ на основе правил

Мне нужно разобрать файл по строкам по заданным правилам.синтаксический анализ на основе правил

Это требование.

файл может иметь несколько строк с разными данными ..

01200344545143554145556524341232131 
1120034454514355414555652434123213101200344545143554145556524341232131 
2120034454514

и правила могут быть.

Я ищу для любого языка, который может сделать это в быстром с очень длинным размером файла, например> 2 ГБ.

Цените всю помощь заранее.

Благодаря

2010-06-06 user359490

Лично я хотел бы сделать это в коде. У меня нет всех ваших правил, но я вижу шаблон, который сделает его тривиальным. –

Если все ваши правила подобны, я считаю, что вам следует сосредоточиться на эффективности ввода-вывода. –

Является ли ваш файл двоичным или содержит простые текстовые данные? – Behrang

Он не появляется в списке тегов, но я хотел бы использовать:

sed -n -e '/^0/w /tmp/record0.dat' \ 
     -e '/^1/w /tmp/record1.dat' \ 
     -e '/^2/w /tmp/record2.dat' "[email protected]"

Вы также можете сделать это на других языках, но для краткости и вероятной правильности, в этом случае sed сложно обыграть.

2010-06-06 02:42:05

+1 Для вероятного правильного использования слова «вероятный» –

Это будет работать независимо от значения первого символа, так что весы без добавления правил:

awk '{c=substr($0,0,1); print $0 > "/tmp/record" c ".dat"}' inputfile.dat

2010-06-06 02:49:39

+1 ... «Работает ли« {print> "/ tmp/record" substr ($ 0,0,1) ".dat"}? –

@belisarius: да, это так. –

awk -vFS= 'NF{print $0>"/tmp/record"$1".dat"}' file

2010-06-07 10:38:51 ghostdog74

ответ