Недавно я узнал об основной структуре файла .docx (это специально структурированный zip-архив). Однако docx не формируется как документ.Как работает формат .doc?
Как работает файл doc? Каков формат файла, структура и т. Д.?
Недавно я узнал об основной структуре файла .docx (это специально структурированный zip-архив). Однако docx не формируется как документ.Как работает формат .doc?
Как работает файл doc? Каков формат файла, структура и т. Д.?
полный формат для двоичных файлов .doc документирована в this pdf из формата (the Wikipedia article on .doc)
Почему я могу открыть файл .doc через WinRar, если это просто формат двоичного файла? – teenup 2014-04-02 12:58:44
* .doc является довольно сложным. Как и в большинстве форматов Microsoft, он отражает долгую историю изменений между версиями и старой поддержкой. Они опубликовали его не так давно, поэтому, если вы хотите просмотреть его (и другие форматы pre-Office 2007), knock yourself out here.
Существует файл .doc Microsoft Word, а затем есть обычный текст .doc. Похоже, вы интересуетесь запатентованным форматом Microsoft.
От Wikipedia:
Формат DOC варьируется в зависимости от форматов Microsoft Office Word. Варианты слов до 97 используется другой формат, начиная с версии Microsoft Word между 97 и 2003.
Это не было до Word 2007, где .docx, хотя упакованный файл, не обязательно .zip архив. Это структурированный XML-документ.
Это не прямой ответ на ваш вопрос, но я настоятельно рекомендую прочитать статью Джоэл Спольски, Why are the Microsoft Office file formats so complicated? (And some workarounds). Это даст вам некоторое представление о том, насколько сложным является формат .doc - и почему. Джоэл также дает очень простой обзор того, что формат .doc состоит из:
Вы видите, Excel 97-2003 файлы OLE составные документы, которые, по существу, файл системы в одном файле. Это достаточно сложно, потому что вы должны прочитать еще одну страницу, чтобы понять это. И эти «спецификации» больше похожи на C-данные структур, чем мы традиционно рассматриваем как спецификацию. Это целый иерархический файл .
(Цитата относится к файлам Excel, но это относится и к документам Word). Информационная статья и полезная для понимания того, почему файлы .docx и ODF структурированы и спроектированы гораздо логичнее при рассмотрении с внешней точки зрения.
Основная идея формата MS Word DOC - это OLE Compund Document, который, как уже писал Кибби, в основном является дампом памяти. Это очень сложный и запутанный способ хранения документов, но если вы когда-либо действительно врывались в приложение Word, вы узнаете, как безумно много его функций, и если вы использовали его в бизнес-настройке, у вас будет хороший как он интегрируется с другими программами в серии Office.
В общем, OLE Compund Documents - это очень расширяемые структуры, которые позволяют загружать все виды данных в один файл и даже в определенные данные дескриптора, для которых не установлено приложение. Например, если вы вставляете объект Equation (из редактора уравнений MS) в документ, он хранится как под-объект, который похож на файл внутри файла, но этот объект не просто содержит данные, необходимые для редактора уравнений для редактирования и рендеринга, он также имеет общее представление растрового изображения (или метафайла, возможно), которое может быть отображено, хотя и не отредактировано, на машине без установленного редактора уравнений.
Это был почему, для как вы должны прочитать спецификации других людей, связанных с уже;)
Если вы хотите простой способ, чтобы работать с файлами, хотя, убедитесь, что ваше программное обеспечение работает на Windows-машине с установленным Word, затем используйте COM/OLE Automation, чтобы открыть и обработать документы. Тогда вам не придется беспокоиться о формате файла.
Doc - это двоичный формат словарного документа - вот документ Microsoft Office Word 97-2007 Binary File Format Specification [*.doc].
Это двоичный код, и спецификация доступна в соответствии с условиями [Microsoft Open Specification Promise] (http://en.wikipedia.org/wiki/Microsoft_Open_Specification_Promise) – 2008-09-24 01:24:46