У меня есть много текстовых данных с разной структурой. Мне нужно извлечь часть этих текстов на основе некоторых текстовых правил. Я бы использовал регулярные выражения, но, к сожалению, люди, которые используют приложение, никогда не слышали об этом.Извлечение содержимого из текстовых файлов с помощью общих правил
основном приложение делает следующее дело:
- Загрузите данные в текстовое поле
- типа структура вывода в качестве простого набора правил в другое текстовое поле
- Получить результаты в третье текстовое поле
примеров структур данных (у меня мегабайт этих данных):
Label1: value1, measurement
Label2; value2; something else
Nr, value3 (comment)
...
Мне нужен другой подход, который я мог бы использовать вместо регулярных выражений. Это может быть чрезвычайно просто, потому что мне нужно только одно значение из каждой строки.
Из приведенного выше примера, я должен получить следующую структуру:
"value1, value2, value3"
Есть более простой альтернативой регулярное выражение? Кто-то уже реализовал что-то подобное?
Я также могу представить, что я приближаюсь к проблеме с неправильным углом, например, заставляя простого пользователя писать правила извлечения данных. В этом случае вопрос преобразуется в нечто более общее, например: «Как создать приложение, которое позволяет очень простому пользователю извлекать данные из отдельных текстов?»
Edit: У меня есть следующий простейший максимально соответствия реализованного для них: контент
Файл:
"Strain at break Ax2";"Unknown"
"Strain at break Ax1";"Unknown"
"Strain at break";"Unknown"
"Yield point strain";"Unknown"
"Uniform elongation";25.4087;"%"
"Tensile strength";261.323;"MPa"
"End test phase Yield point";1;"%"
"Maximum tensile force";5.22647;"kN"
Выкройка:
"Tensile strength";(?<value>[^;\n]*);
"Maximum tensile force";(?<value>[^;\n]*);
еще слишком сложны. Проблема в том, что если я начну заменять уродливую часть с другой строкой, чтобы получить, например:
"Tensile strength", [First value after]
я потеряю всю общую природу добычи, потому что каждый файл выглядит отличается от этого.
Вы посмотрели LEX? – GETah
_ «Я бы использовал регулярные выражения, но, к сожалению, люди, которые используют приложение, никогда не слышали об этом». Являются ли пользователи разработчиками или вы? –
Пользователи - лаборанты, которые работают с гидравлическими прессами, абсолютно не тренируются в программировании. – Germstorm