2008-09-24 2 views
14

Недавно я узнал об основной структуре файла .docx (это специально структурированный zip-архив). Однако docx не формируется как документ.Как работает формат .doc?

Как работает файл doc? Каков формат файла, структура и т. Д.?

+0

Это двоичный код, и спецификация доступна в соответствии с условиями [Microsoft Open Specification Promise] (http://en.wikipedia.org/wiki/Microsoft_Open_Specification_Promise) – 2008-09-24 01:24:46

ответ

11

полный формат для двоичных файлов .doc документирована в this pdf из формата (the Wikipedia article on .doc)

+0

Почему я могу открыть файл .doc через WinRar, если это просто формат двоичного файла? – teenup 2014-04-02 12:58:44

1

* .doc является довольно сложным. Как и в большинстве форматов Microsoft, он отражает долгую историю изменений между версиями и старой поддержкой. Они опубликовали его не так давно, поэтому, если вы хотите просмотреть его (и другие форматы pre-Office 2007), knock yourself out here.

0

Существует файл .doc Microsoft Word, а затем есть обычный текст .doc. Похоже, вы интересуетесь запатентованным форматом Microsoft.

От Wikipedia:

Формат DOC варьируется в зависимости от форматов Microsoft Office Word. Варианты слов до 97 используется другой формат, начиная с версии Microsoft Word между 97 и 2003.

Это не было до Word 2007, где .docx, хотя упакованный файл, не обязательно .zip архив. Это структурированный XML-документ.

14

Это не прямой ответ на ваш вопрос, но я настоятельно рекомендую прочитать статью Джоэл Спольски, Why are the Microsoft Office file formats so complicated? (And some workarounds). Это даст вам некоторое представление о том, насколько сложным является формат .doc - и почему. Джоэл также дает очень простой обзор того, что формат .doc состоит из:

Вы видите, Excel 97-2003 файлы OLE составные документы, которые, по существу, файл системы в одном файле. Это достаточно сложно, потому что вы должны прочитать еще одну страницу, чтобы понять это. И эти «спецификации» больше похожи на C-данные структур, чем мы традиционно рассматриваем как спецификацию. Это целый иерархический файл .

(Цитата относится к файлам Excel, но это относится и к документам Word). Информационная статья и полезная для понимания того, почему файлы .docx и ODF структурированы и спроектированы гораздо логичнее при рассмотрении с внешней точки зрения.

5

Основная идея формата MS Word DOC - это OLE Compund Document, который, как уже писал Кибби, в основном является дампом памяти. Это очень сложный и запутанный способ хранения документов, но если вы когда-либо действительно врывались в приложение Word, вы узнаете, как безумно много его функций, и если вы использовали его в бизнес-настройке, у вас будет хороший как он интегрируется с другими программами в серии Office.

В общем, OLE Compund Documents - это очень расширяемые структуры, которые позволяют загружать все виды данных в один файл и даже в определенные данные дескриптора, для которых не установлено приложение. Например, если вы вставляете объект Equation (из редактора уравнений MS) в документ, он хранится как под-объект, который похож на файл внутри файла, но этот объект не просто содержит данные, необходимые для редактора уравнений для редактирования и рендеринга, он также имеет общее представление растрового изображения (или метафайла, возможно), которое может быть отображено, хотя и не отредактировано, на машине без установленного редактора уравнений.

Это был почему, для как вы должны прочитать спецификации других людей, связанных с уже;)

Если вы хотите простой способ, чтобы работать с файлами, хотя, убедитесь, что ваше программное обеспечение работает на Windows-машине с установленным Word, затем используйте COM/OLE Automation, чтобы открыть и обработать документы. Тогда вам не придется беспокоиться о формате файла.

Смежные вопросы