2011-01-12 6 views
2

Я бы хотел преобразовать файлы с расширениями doc/docx/xls/xlsx/pdf в файлы HTML. Есть ли способ сделать это простым способом в Solaris с помощью Perl?perl doc/pdf/xls to HTML convertor

ответ

2

Библиотеки perl, которые я использовал для обработки файлов Microsoft Office, довольно не хватает, и мне еще предстоит найти те, которые хорошо справляются с обработкой расширений Office 2007 и Office 2010 (укажите один в комментариях если вы знаете об этом!)

Если у вас есть компьютер с Microsoft Office, вы можете использовать win32ole для управления приложением Office из unix. Я делал это раньше с Ruby: http://rubyonwindows.blogspot.com/2007/03/automating-excel-with-ruby.html

Вот Perl модуль для использования win32 OLE: http://metacpan.org/pod/Win32::OLE

лично я не рекомендую подход OLE, потому что он имеет много головной боли (например, вы должны оставьте Office, работающий на ПК, для работы сценария unix, брандмауэр Windows почти случайно заблокирует скрипт unix, когда ваш ПК будет обновляться с помощью патчей).

Я не пробовал, но вот ява программа, которая будет использовать OpenOffice и GhostScript сделать пакетное преобразование для вас: http://www.codeproject.com/KB/java/PDFCM.aspx

1

В качестве опоры, есть утилита под названием xpdf, которая converts pdf files to text. Это было скомпилировано на Solaris, хотя вам придется скомпилировать исходный код (вы можете вызвать утилиту из командной строки). Я использовал его, и это здорово.

Более того,, есть модифицированная версия которого converts pdf to html. Это я не проверял, но, возможно, стоит попробовать.

1

для первенствует в HTML -> вы можете использовать exceltohtml

потребности следующие модули:

use Spreadsheet::ParseExcel; 
use File::Find ; use Cwd ;