2009-10-28 4 views
26

Какие хорошие библиотеки существуют на любом распространенном языке для преобразования PDF в HTML?Как конвертировать PDF в HTML?

+0

Попытка превратить его в вопрос программирования. И я вижу много вопросов, идущих от HTML к PDF, но не наоборот, поэтому, вероятно, стоит его сохранить? – Cruachan

+0

Это абсолютно субъективно. Повторите свой вопрос, чтобы не быть субъективным и немного рассказать о том, что вы пытаетесь сделать. –

+3

Я де-субъективировал вопрос и пересказывал его тем, что, как я думаю, задает ОП. Жаль, что у SO нет функции для удаления закрытых голосов. – Ether

ответ

0

, если вы ищете способ конвертировать PDF в HTML один или два раза, то я рекомендую Adobe Online Conversion

Если это API вы после то http://www.pdfonline.com/ есть SDK, который должен удовлетворить ваши потребности.

Если это ваша библиотека, пожалуйста, сообщите нам, какой серверный язык вы предпочитаете.

+0

Спасибо Russ! До сих пор я использую Adobe Online. Я пробовал веб-сайт, и результаты трудно оценить. Но спасибо за помощь! – user178644

+0

Кажется, что он больше не работает. Перенаправление в PDF Creator –

3

Если вы работаете в ящике Windows, я думаю, у Amyuni есть библиотека для этого. Их PDF Document Convertor доступен как DLL, может широко использоваться среди языков, поддерживаемых Visual Studio, и может конвертировать в RTF, TML, EXCEL, JPEG и TIFF.

0

Учитывая неопределенность первоначального вопроса, я собираюсь идти дальше и дать решение, которое будет работать на любом языке, который может выполнять приложения с командной строкой. Хотя для настройки можно немного запутаться, OpenOffice может быть запущен в режиме безголового на сервере и с помощью jodconverter может конвертировать любой формат файла в любой другой формат файла (ну, любые преобразования формата, которые openoffice могут обрабатывать , то есть).

Вот несколько ссылок, которые помогут с установкой:

1

http://www.lowagie.com/iText/ Opensource библиотека как Java и C#

+0

Это, вероятно, лучший выбор. Разбирайте PDF с помощью библиотеки и генерируйте HTML из данных. – TJB

0

Программа pdftohtml преобразует PDF в HTML и XML и сохраняет информацию о местоположении текста, который является полезным для скребковых таблиц ..

Это, как представляется, на основе библиотеки Xpdf и имеет окна бинарного тоже.

+0

Теперь это входит в состав утилиты 'poppler'. 'yum install poppler', если он еще не установлен. –

0

В Linux установить pdftohtml - Для пакетной конвертации всех файлов в папке использования:

ls *.pdf | xargs -I{} pdftohtml {} 

Это позволит создать HTML сайт со всеми ссылками и изображениями из оригинальных документов. Каждая страница в отдельном html-файле. Очень полезно преобразовать проектную документацию для поиска файлов по фразе, используя общий поиск системного файла.

Смежные вопросы