Я хотел бы создать приложение, которое преобразует PDF-сценарии в HTML. Сценарии - очень простые тексты без изображения и других объектов, но форматирование очень важно. К счастью, также нет соглашений о форматировании.JAVA pdfbox PDF to очень простой HTML
Это говорит о том, что я нашел в Интернете библиотеку PDFbox, и я хотел бы использовать ее, но я не могу найти примеры того, как получить информацию о форматировании (или о координатах текста).
Мне нужно знать координаты поля поля и текст, чтобы я мог сравнить их, чтобы проверить, нет ли отпечатка текста.
Надеюсь, я был достаточно ясен.
Спасибо заранее!
Спасибо за ваш ответ, но нет, он не делает того, что мне хотелось бы. Мне нужно знать текстовые координаты, пожалуйста, –
Является ли ваше фактическое требование конвертированием PDF-файлов так же, как HTML, или извлечение текста из PDF, отступ и создание HTML. Вы открыты для программ, отличных от PDFBox? – FFL
Хороший улов, @ Эмили, интересно, почему нет такого примера, как extract html из pdf на официальном сайте pdfbox, это может быть полезно. – Oleg