2013-09-12 4 views
5

У меня есть файл в формате pdf. Он содержит четыре столбца, и на всех страницах нет линий сетки. Это знаки учеников.разобрать pdf с использованием python

Я хотел бы провести некоторый анализ этого распределения (гистограммы, линейные графики и т. Д.).

Я хочу разобрать этот pdf-файл в таблицу или файл HTML (который я могу разобрать очень легко).

Ссылка на PDF является:

Pdf

это публичный документ, и доступен на этом домене открыто для всех.

примечание: я знаю, что это можно сделать, экспортировав файл в текст из Adobe Reader, а затем импортируйте его в Libre Calc или Excel. Но я хочу сделать это, используя скрипт python.

Просьба помочь мне с этой проблемой. спецификации: Windows 7 Python 2.7

+1

Есть ли у нее для анализа в формате PDF? Например, я смог создать ваши данные как вкладку с разделителями только с помощью моего любимого текстового редактора, вставив из PDF-файла и сделав несколько заметок: http://pastebin.com/ih6tKMpH –

+0

Да! Я знаю, что мы можем сделать это, экспортируя его как текст из Adobe, а затем импортируем его в excel. Но я хочу сделать это, используя скрипт! – IcyFlame

+0

Связанный: http://stackoverflow.com/questions/1848464/advanced-pdf-parsing-using-python-extracting-text-without-tables-etc-whats –

ответ

16

Использование PyPDF2:

from PyPDF2 import PdfFileReader 

with open('CT1-All.pdf', 'rb') as f: 
    reader = PdfFileReader(f) 
    contents = reader.getPage(0).extractText().split('\n') 
    pass 

При печати contents, он будет выглядеть следующим образом (я обрезается здесь):

[u'Serial NoRoll NoNameCT1 Marks (50)111MA20026KARADI KALYANI212AR10029MUKESH K 
MAR5', u'312MI31004DEEPAK KUMAR7', u'413AE10008FADKE PRASAD DIPAK27', u'513AE10 
22RAHUL DUHAN37', u'613AE30005HIMANSHU PRABHAT26.5', u'713AE30019VISHAL KUMAR39 
, u'813AG10014HEMANT17', u'913AG10028SHRESTH KR KRISHNA37.51013AG30009HITESH ME 
RA33.5', u'1113AG30023RACHIT MADHUKAR40.5', u'1213AR10002ACHARY SUDHEER11', u'1 
13AR10004AMAN ASHISH20.5', u'1413AR10008ANKUR44', u'1513AR10010CHUKKA SHALEM RA 
U11.5', u'1613AR10012DIKKALA VIJAYA RAGHAVA20.5', u'1713AR10014HRISHABH AMRODIA 
1', u'1813AR10016JAPNEET SINGH CHAHAL19.5', u'1913AR10018K VIGNESH42.5', u'2013 
R10020KAARTIKEY DWIVEDI49.5', u'2113AR10024LAKSHMISRI KEERTI MANNEY49', u'2213A 
10026MAJJI DINESH9.5', u'2313AR10028MOUNIKA BHUKYA17.5', u'2413AR10030PARAS PRA 
Смежные вопросы