2013-06-12 3 views
-1

Как я могу обнаружить, поврежденные pdf-файлы (используя python)?Обнаружение и удаление поврежденных PDF-файлов

У меня есть много PDF-файлов. Некоторые из этих pdf-файлов стали повреждены и должны быть удалены. Как я могу обнаружить и удалить?

я использовал:

from pyPdf import PdfFileReader 

try : 
    mypdf = PdfFileReader(file('sample.pdf', 'rb')) 
except: 
    print ' is invalid pdf' 

Но как автоматически считывать файлы PDF из файла и удалять поврежденные файлы PDF?

+0

Не могли бы вы прояснить смысл термина «поврежденный PDF», если он не читается Adobe Reader? –

+0

Да, не открывайте его –

+0

повреждение pdf файл –

ответ

1

Adobe Reader действительно включает в себя множество возможностей автоматического ремонта, поэтому он откроет очень много поврежденных файлов PDF.

+0

Да, конечно, но pdf файлы загружены неполными и не ремонтируются. –

+0

Затем просто проверьте, есть ли %% EOF в последних 1024 байтах –

+0

Как я могу проверить? –