2009-10-16 2 views
0

Есть ли способ извлечь гиперссылки из .doc. Я получил кучу гиперссылок в документе, которые мне нужно импортировать в мою базу данных.Извлечь гиперссылки из .doc

Я пробовал преобразовать документ в HTML, но гиперссылки не переносятся.

Regardz, Младен

ответ

0

Я сделал следующее. Я открыл файл .doc с помощью officeXP, а затем опубликовал его как блог, после чего я сохранил этот блог в виде фильтрованной веб-страницы. Это дает вам хороший HTML-код, который можно легко анализировать.

2

У нас была аналогичная проблема и в конечном итоге, используя компонент третьей стороны под названием Aspose.Words. Вы можете найти его здесь: http://www.aspose.com

Он доступен для .NET и Java.

+0

Вау, я думаю, это должно быть новое. Несколько лет назад я искал и искал такое решение, которое не требовало установки Microsoft Office. Но я ничего не мог найти, поэтому мне пришлось использовать Office Automation. Я думаю, это немного дорого, но я бы предпочел использовать такой компонент. –

+1

Я могу поручиться за Aspose.Words. Это спасло нас за сотни часов разработки и позволило нам динамически создавать текстовые документы выше и дальше того, что можно сделать с простыми почтовыми слияниями. Мы также используем его, чтобы удалить весь текст из документов Word для индексирования. Я настоятельно рекомендую этот продукт, если вам нужно работать с большим количеством документов MS Word. Он также обрабатывает RTF, который является бонусом. –

0

Вы можете попробовать импортировать файл в OpenOffice и посмотреть, переносятся ли гиперссылки. OpenDocument - это всего лишь ZIP-файл с XML внутри, очень простой для анализа, как только вы его повесили.

0

Я понимаю, что через несколько месяцев после вашего первоначального вопроса вы также можете извлечь гиперссылки в формате .doc через Word Automation. В API есть объекты гиперссылки, которые вы можете легко извлечь.