Как я могу обнаружить, поврежденные pdf-файлы (используя python)?Обнаружение и удаление поврежденных PDF-файлов
У меня есть много PDF-файлов. Некоторые из этих pdf-файлов стали повреждены и должны быть удалены. Как я могу обнаружить и удалить?
я использовал:
from pyPdf import PdfFileReader
try :
mypdf = PdfFileReader(file('sample.pdf', 'rb'))
except:
print ' is invalid pdf'
Но как автоматически считывать файлы PDF из файла и удалять поврежденные файлы PDF?
Не могли бы вы прояснить смысл термина «поврежденный PDF», если он не читается Adobe Reader? –
Да, не открывайте его –
повреждение pdf файл –