У меня есть файл в формате pdf. Он содержит четыре столбца, и на всех страницах нет линий сетки. Это знаки учеников.разобрать pdf с использованием python
Я хотел бы провести некоторый анализ этого распределения (гистограммы, линейные графики и т. Д.).
Я хочу разобрать этот pdf-файл в таблицу или файл HTML (который я могу разобрать очень легко).
Ссылка на PDF является:
это публичный документ, и доступен на этом домене открыто для всех.
примечание: я знаю, что это можно сделать, экспортировав файл в текст из Adobe Reader, а затем импортируйте его в Libre Calc или Excel. Но я хочу сделать это, используя скрипт python.
Просьба помочь мне с этой проблемой. спецификации: Windows 7 Python 2.7
Есть ли у нее для анализа в формате PDF? Например, я смог создать ваши данные как вкладку с разделителями только с помощью моего любимого текстового редактора, вставив из PDF-файла и сделав несколько заметок: http://pastebin.com/ih6tKMpH –
Да! Я знаю, что мы можем сделать это, экспортируя его как текст из Adobe, а затем импортируем его в excel. Но я хочу сделать это, используя скрипт! – IcyFlame
Связанный: http://stackoverflow.com/questions/1848464/advanced-pdf-parsing-using-python-extracting-text-without-tables-etc-whats –