2009-08-26 9 views
1

Я хотел бы преобразовать документы doc/docx в семантический HTML.Преобразование doc/docx в семантику HTML

Некоторые пожелания/требования:

  1. Семантический HTML таким образом, что заголовки в документе, являются <h1>, <h2> и т.д., таблицы < таблицы > и так далее.

  2. Должно быть предпочтительно иметь возможность обрабатывать заголовки, списки, таблицы и изображения. Графики и математические формулы - отличная дополнительная.

• Не должен быть преобразован прямо из DOC/DOCX в HTML, можно использовать промежуточный формат, например, XML или DocBook.

• Должен работать программно и с большим количеством документов.

Ближе всего к решению, которое я нашел до сих пор, является http://holloway.co.nz/docvert/index.html, но, к сожалению, существует множество ошибок, небольшая пользовательская база и не может обрабатывать множество документов. Больше доказательств концепции.

ответ

1

Существует инструмент под названием upCast, который способен конвертировать документы Word в XML.

+0

вентиляционные находится в правильном направлении, хотя и не совсем то, что я ищу. Я все еще ищу, поэтому дальнейшие советы приветствуются. Однако я хочу присудить «ответ» кому-то и выбрал это. – sandstrom

1

Я написал утилиту, которая реализует перечисленные вами требования, за исключением изображений, графиков и математических формул. Это бета-качество (т. Е. Работает на моей машине). Я опубликовал его на http://www.modeltext.com/word

2

«заголовки в документе« Я думаю, что это невозможно. Поскольку MS Word записывает только результат, с разными стилями <p> , как и напечатанный текст на бумаге, исходная информация не записывается.

Ваши другие пожелания могут быть подобраны. Там вы два коммерческих инструменты могут сделать это (не верьте тем, бесплатные инструменты или инструменты онлайн, они не делают реальную работу.)

1 Word Cleaner от Zapadoo www.zapadoo.com
2 HTML Cleaner for Word by wonder Studio www.htmlcleaner.com

Я предпочитаю второй, который был выпущен только в прошлом году. Вы можете попробовать их обоих.

1

docx4j (только для docx, а не doc) пишет чистый вывод HTML. Вам нужно немного изменить ситуацию, если вы хотите < h1> вместо < p class = "h1">, но с открытым исходным кодом, чтобы вы могли это сделать.

Смежные вопросы