Итак, у меня есть счет-фактура, из которого мне нужно сделать отчет. Это в среднем составляет около 250 страниц. Поэтому я пытаюсь создать скрипт, который будет извлекать конкретное значение счета-фактуры и делать отчет. Вот моя проблема:разделение текстовых файлов на основе столбца wise
- счет-фактура в формате pdf, с ним охватывая две колонки. В команде Linux я хочу использовать команду «pdftotext» Linux для преобразования в несколько текстовых файлов (с каждым файлом txt, представляющим каждую страницу pdf). Как это сделать?
- Я признаю, что команда «pdftotext» разделяет ее, оставляя часть страницы и правую часть страницы, имея 21 пробел между ними. Как я могу по правую сторону данных (идентифицированных после прочтения как минимум 21 пробела в строке) до конца файла
- Поскольку файл большой и я всего лишь несколько страниц из файлов, как удалить все эти текстовые файлы в скрипте (не вручную), пока я не прочитаю ключевое слово (давайте просто скажем ключевое слово = Start Invoice)?
Я знаю, что это много вопросов, но я смущен тем, что может сделать команда Linux. Можете ли вы, ребята, вести меня в правильном направлении? Благодаря
PS: Я использую CentOS 5.2