2014-10-14 2 views
1

Я пытаюсь разбить PDF-файл на отдельные HTML-файлы. Я имею в виду для каждой страницы PDF, мне нужен файл HTML. Вот как я это делаю:разделить pdf на несколько html-файлов с pdf2htmlEX

pdf2htmlEX --split-pages 1 LMS.pdf --page-filename lms%03.html 

В результате я получил пустую LMS.html и другие файлы: lms%031.html, lms%032.html. Проблема в том, что эти html-файлы неправильно отформатированы, не имеют стиля CSS?

ответ

2

Смешная вещь об этом ... Я наткнулся на ваш вопрос, пытаясь решить идентичную проблему. Я использовал ту же команду, что и ваша, кроме параметра --page-filename. Используя ваш пример, мой pdf2htmlEX вызов будет аналогичен:

pdf2htmlEX --split-pages 1 LMS.pdf 

Тогда я открыл основной HTML-файл в Chrome, чтобы найти кучу пустых страниц. После небольшого поиска я открыл тот же файл в Firefox. Это сработало. Очень странно. На выходе консоли отсутствуют ошибки. Конечно, я даже не думал смотреть на выходе консоли Chrome. Когда я это сделал, я обнаружил:

Uncaught NetworkError: Failed to execute 'send' on 'XMLHttpRequest': Failed to load 'file:///...'. 

Слава Богу за StackOverflow. Я не знаю, почему он работает в Firefox, но если вы получаете ошибки, сообщаемые Chrome, вам нужно запустить веб-сервер.

Самый простой и быстрый способ для меня, чтобы сделать это было изменить в каталог, в котором я преобразовал PDF и запустить:

python -m SimpleHTTPServer 

По умолчанию, ваша страница будет подаваться вверх на http://localhost:8000. Задача решена. Используйте любой сервер, который вам подходит.

+1

Это связано с различием в реализации одной и той же политики происхождения. Для загруженных HTML-файлов Chrome не разрешает доступ к внешнему файлу, а Firefox разрешает доступ в этом каталоге. Такая же политика происхождения через веб-сервер проходит по доменному имени, что гораздо более разумно. –

Смежные вопросы