Я пытаюсь сделать некоторую файловую резьбу на диске с помощью C++. Я не могу найти какие-либо ресурсы в Интернете, связанные с дисковой структурой PDF-файла. Дело в том, что я могу найти токен% PDF-1.x в начале кластера, но я не могу найти размер файла PDF в любом месте.Разбор удаленных pdf-файлов
Предположим, гипотетически, что запись в файловой системе для данного документа потеряна. Я нахожу начало документа, и я продолжаю читать, пока не наткнулся на «startxref номер %% EOF». Дело в том, что я не знаю, когда остановиться, поскольку в содержании документа есть несколько маркеров «%% EOF».
Я попытался прекратить чтение, скажем, 10 кластеров и не найти какое-либо конкретное ключевое слово в формате PDF, например «obj», «stream», «trailer», «xref». Но это довольно произвольно, и это не детерминированный метод поиска конца документа, поэтому я могу определить его размер.
Я также видел некоторые «длины номер» маркеры в начале некоторых «объектов», но число не очень подходит в большинстве случаев.
Любые идеи о том, что я могу попробовать дальше? Есть ли способ определить точный размер всего документа? Я заинтересован в программном восстановлении документов.
Вы посмотрели ссылку на pdf? http://www.adobe.com/devnet/pdf/pdf_reference.html – PureW
Да, я искал некоторые подсказки, но я не совсем прочитал его. Я делаю это сейчас, но я не уверен, что это поможет. Кроме того, меня интересуют все версии pdf, а не только 1.7. –