См. Прилагаемый документ K-1. Я попытался использовать многочисленные твики с библиотекой iTextSharp, но не успел правильно загрузить данные.Parsing Complex PDF-документ с C#
В идеале я хотел бы проанализировать документ, похожий на то, как люди будут их читать, по одному текстовому блоку за раз, читая его содержимое.
var reader = new PdfReader(FILE, Encoding.ASCII.GetBytes(password));
string[] lines;
var strategy = new LocationTextExtractionStrategy();
string currentPageText = PdfTextExtractor.GetTextFromPage(reader, 1, strategy);
lines = currentPageText.Split(new string[] {"\r\n", "\n"}, StringSplitOptions.None);
Я также пробовал играть с обработкой аннотаций, но не повезло.
Я новичок и, вероятно, смотрю не туда. Можете ли вы помочь мне в правильном направлении?
Большое спасибо.
* В идеале я хотел бы проанализировать документ, похожий на то, как люди будут их читать, по одному текстовому блоку за раз, считывая его содержимое. * - Это означает, что вам сначала придется попробовать и программно распознать эти текстовые поля. Вы можете извлечь текст по этим разделам. Для новичков это не тривиальная задача. – mkl
ну, я разработчик программного обеспечения, владеющий C#. У меня просто нет большого опыта анализа PDF-файлов. можете ли вы поделиться примером кода? – Ros