Недавно я нашел эту очень удобную библиотеку для преобразования PDF. Я пытаюсь преобразовать pdf в строковые значения. Для анализа данных и преобразования в файл csv. Я хочу автоматизировать это для будущего, поэтому я не могу использовать Tabula.Путь не печатает строковые значения
Я вызываю некоторые модули, чтобы преобразовать PDF в строку. Часть для преобразования строк не работает. (pdf2string.py
) Вот часть преобразования pdf в строку.
У меня нет ошибки. Успех. Но выхода нет.
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import HTMLConverter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO
import re
import csv
import sys
def convert_pdf_to_html(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = HTMLConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = file(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0 #is for all
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching, check_extractable=True):
interpreter.process_page(page)
fp.close()
device.close()
str = retstr.getvalue()
retstr.close()
return str
print str
if __name__ == '__main__':
if len(sys.argv) == 2:
path = sys.argv[1]
convert_pdf_to_html(path)
Это мой бах.
python pdf2string.py example.pdf
Сценарий pdf2string.py
и путь example.pdf
.
Я также новичок в высокоуровневой логике в python.
Объясните больше, что не работает. Есть ли ошибка? Некоторые результаты, которые не выглядят так, как вы ожидаете? –
Модули преобразуют PDF-файл в значения строки html. Это говорит мне, в каком формате следует разбирать файл. Предположим, я дам html-тег. Я не ошибаюсь. Я действительно получаю успешное завершение с выходом. Мне нужен выход 'str'. Я думаю, что мой путь настроен неправильно. Я не могу найти ничего плохого в функции. –