Я хотел бы преобразовать документы doc/docx в семантический HTML.Преобразование doc/docx в семантику HTML
Некоторые пожелания/требования:
Семантический HTML таким образом, что заголовки в документе, являются <h1>, <h2> и т.д., таблицы < таблицы > и так далее.
Должно быть предпочтительно иметь возможность обрабатывать заголовки, списки, таблицы и изображения. Графики и математические формулы - отличная дополнительная.
• Не должен быть преобразован прямо из DOC/DOCX в HTML, можно использовать промежуточный формат, например, XML или DocBook.
• Должен работать программно и с большим количеством документов.
Ближе всего к решению, которое я нашел до сих пор, является http://holloway.co.nz/docvert/index.html, но, к сожалению, существует множество ошибок, небольшая пользовательская база и не может обрабатывать множество документов. Больше доказательств концепции.
вентиляционные находится в правильном направлении, хотя и не совсем то, что я ищу. Я все еще ищу, поэтому дальнейшие советы приветствуются. Однако я хочу присудить «ответ» кому-то и выбрал это. – sandstrom