2013-02-27 5 views
0
import pyPdf 
f= open('jayabal_appt.pdf','rb') 
pdfl = pyPdf.PdfFileReader(f) 
output = pyPdf.PdfFileWriter() 
content="" 
for i in range(0,1): 
    content += pdfl.getPage(i).extractText() + "\n" 
outpu = open('b.txt','wb') 
outpu.write(content) 
f.close() 
outpu.close()  

Это не записывает содержимое pdf в файл txt ... что я делаю ???Как читать txt по строкам из pdf-файла

ответ

0

Итерация через каждую страницу и вызвать extractText() так:

content = "" 
for i in range(0, num_pages): 
    content += pdfl.getPage(i).extractText() + "\n" 

После того, как у вас есть полное содержание вы можете легко расколоть линии через разделитель «\ п».

EDIT: Проверьте после цикла for, независимо от того, содержит ли переменная contents любой текст. Не все файлы PDF содержат текстовую информацию.

+0

импорта pyPdf F = открыт ('jayabal_appt.pdf', 'Rb') pdfl = pyPdf.PdfFileReader (е) выход = pyPdf.PdfFileWriter() содержание = "" для я в диапазоне (0, 1): content + = pdfl.getPage (i) .extractText() + "\ n" output.addPage (pdfl.getPage (0)) outpu = open ('b.txt', 'wb') outpu.write (content) f.close() outpu.close() будет ли это wrk ??? –

+0

@VenkatramanK Обновите свой вопрос и добавьте отформатированный код. Но из того, что я могу прочитать, у вас есть несколько опечаток в вашем коде. – Howie

+0

Извините, я новичок в переполнении стека ... –

Смежные вопросы