Я использую PDFBox для извлечения текста из PDF. PDF имеет табличную структуру, которая довольно проста, а столбцы также очень сильно расставлены друг с другом.Сохранять «длинные» пробелы в извлечении текста PDFBox
Это работает очень хорошо, за исключением того, что все виды горизонтального пространства преобразуются в один символ пробела, так что я не может больше раскрыть столбцы (пространство внутри слов в столбце выглядит просто как пробел между столбцами).
Я понимаю, что общее решение очень сложно, но в этом случае столбцы действительно далеки друг от друга, поэтому достаточно простого дифференцирования между «длинными пространствами» и «пространством между словами».
Есть ли способ сказать PDFBox, чтобы превратить горизонтальные пробелы более чем x дюймов в нечто иное, чем одно пространство? Также будет работать пропорциональный подход (x inch станет y пробелами).
pdftotext C library/tool имеет переключатель «-layout», который пытается сохранить макет. В принципе, если я смогу подражать этому с помощью PDFBox, это будет идеально.
Возможно, вы захотите посмотреть [этот ответ] (https://stackoverflow.com/a/45842515/1729265). – mkl