2012-04-05 4 views
0

Итак, у меня есть счет-фактура, из которого мне нужно сделать отчет. Это в среднем составляет около 250 страниц. Поэтому я пытаюсь создать скрипт, который будет извлекать конкретное значение счета-фактуры и делать отчет. Вот моя проблема:разделение текстовых файлов на основе столбца wise

  1. счет-фактура в формате pdf, с ним охватывая две колонки. В команде Linux я хочу использовать команду «pdftotext» Linux для преобразования в несколько текстовых файлов (с каждым файлом txt, представляющим каждую страницу pdf). Как это сделать?
  2. Я признаю, что команда «pdftotext» разделяет ее, оставляя часть страницы и правую часть страницы, имея 21 пробел между ними. Как я могу по правую сторону данных (идентифицированных после прочтения как минимум 21 пробела в строке) до конца файла
  3. Поскольку файл большой и я всего лишь несколько страниц из файлов, как удалить все эти текстовые файлы в скрипте (не вручную), пока я не прочитаю ключевое слово (давайте просто скажем ключевое слово = Start Invoice)?

Я знаю, что это много вопросов, но я смущен тем, что может сделать команда Linux. Можете ли вы, ребята, вести меня в правильном направлении? Благодаря

PS: Я использую CentOS 5.2

ответ

0

насчет:

pdftotext YOUR.pdf | sed 's/^\([^ ]\+\) \{21\}.*/\1/' > OUTPUT 
pdftotext YOUR.pdf | sed 's/.* \{21\}\(.*\)/\1/' >> OUTPUT 

Но вы должны проверить -raw и -layout варианты слишком pdftotext «s. И есть больше способов сделать это ...