Я хочу извлечь информацию из pdf-файлов.Извлечь продукты и цены из счета-фактуры
Ниже приводится выдержка из политики, в которой формат pdf преобразуется в документ txt с использованием https://github.com/yob/pdf-reader/.
Vehicle Description 2007, PORSCHE, CAYMAN 3.2
Registration Number USD-2394 Vin Number FSDFKJL23123KFAS
MY COVER DETAILS
Cover USD37.45
Я хотел бы извлечь, например. Описание транспортного средства и стоимость покрытия:
vehicle.description => "2007, PORSCHE, CAYMAN 3.2"
vehicle.registration => "USD-2394"
vehicle.cost_of_cover => "37.45"
Может кто-нибудь посоветует соответствующий метод. Проблема в том, что макет политики может измениться, но данные будут в основном одинаковыми, просто с разными значениями.
Если regex - это способ пойти, может кто-нибудь просто предоставить пример кода.
Это зависит от того, сколько времени и денег вы готовы потратить, и о том, как непоследовательно ваши данные. Возможно, лучшим решением является использование сервиса, такого как механический турк. Как и сейчас, мы не можем дать хороший ответ на ваш вопрос (см. «Рекомендации по SO» (http://stackoverflow.com/help/asking)). –
Возможный дубликат [Ruby: Чтение файлов PDF] (http://stackoverflow.com/questions/773193/ruby-reading-pdf-files) – phoet
Пробовал ли вы 'PDF :: Reader' https://github.com/ yob/pdf-reader – Casper