Чтение файла PDF для получения табличных данных в структурированном формате,

Мне нужно прочитать pdf-файл, содержащий таблицу с несколькими столбцами. Используя iTextSharp, я могу прочитать файл, но я получаю кучу неформатированного текста. Я не могу структурировать данные, чтобы я мог вставлять их в базу данных.Чтение файла PDF для получения табличных данных в структурированном формате,

Любые предложения?

источник

2009-11-25 asyncwait

В целом, чтение данных из файлов PDF затруднено и подвержено ошибкам. Когда вы говорите «Я могу прочитать файл», что именно вы имеете в виду? Вы используете класс PdfReader? –

есть. Я использую PdfReader для чтения файла. Но он полностью рассеялся. Я не смог прочитать его правильно, так как данные находятся в таблице. – asyncwait

Я заключая нет нет прямого способа сделать это. По крайней мере, чтение данных в табличном формате. Я пробовал предложения, предоставленные Марком, но, похоже, это невозможно в соответствии с моим требованием.

источник

2009-12-02 14:35:17 asyncwait

Если я правильно понимаю, текст в формате pdf сохраняется позиционно, поэтому он не имеет понятия о строках или столбцах. Это означает, что вам нужно использовать эвристику на основе «вероятности», которую вы читаете из другого столбца.

Вы можете попробовать сделать это, сравнив количество пробелов между словами. (Я не знаком с интерфейсом ITextSharp, поэтому, пожалуйста, простите меня, если я упомянул о вещах, которые он не способен ... Я в основном знаком с pdfNet.

Еще одна идея, которая только что пришла ко мне, заключается в том, что если текст имеет визуальные подсказки, такие как вертикальных линии, разделяющие столбцы. Если это так, вы должны быть в состоянии придумать эвристики, чтобы определить, является ли текст слева или справа от линии колонн.

...

Однако самое лучшее, что можно сделать, , если возможно, должно получить ах старые данные в более дружественном формате. Это, скорее всего, спасет страдания в долгосрочной перспективе.

- Джейсон

источник

2009-11-26 03:08:19

Если его структурированный текст нет тегов, чтобы показать столбцы. Такие инструменты, как PdfBox, делают «догадки», чтобы попытаться извлечь таблицу.

Существует статья объясняет, почему извлечение текста так трудно на http://pdf.jpedal.org/java-pdf-blog/bid/12670/PDF-text

источник

2009-11-26 08:40:26

Чтение файла PDF для получения табличных данных в структурированном формате,

ответ

Смежные вопросы