Если я правильно понимаю, текст в формате pdf сохраняется позиционно, поэтому он не имеет понятия о строках или столбцах. Это означает, что вам нужно использовать эвристику на основе «вероятности», которую вы читаете из другого столбца.
Вы можете попробовать сделать это, сравнив количество пробелов между словами. (Я не знаком с интерфейсом ITextSharp, поэтому, пожалуйста, простите меня, если я упомянул о вещах, которые он не способен ... Я в основном знаком с pdfNet.
Еще одна идея, которая только что пришла ко мне, заключается в том, что если текст имеет визуальные подсказки, такие как вертикальных линии, разделяющие столбцы. Если это так, вы должны быть в состоянии придумать эвристики, чтобы определить, является ли текст слева или справа от линии колонн.
...
Однако самое лучшее, что можно сделать, , если возможно, должно получить ах старые данные в более дружественном формате. Это, скорее всего, спасет страдания в долгосрочной перспективе.
- Джейсон
В целом, чтение данных из файлов PDF затруднено и подвержено ошибкам. Когда вы говорите «Я могу прочитать файл», что именно вы имеете в виду? Вы используете класс PdfReader? –
есть. Я использую PdfReader для чтения файла. Но он полностью рассеялся. Я не смог прочитать его правильно, так как данные находятся в таблице. – asyncwait