Использование iTextSharp, я пытаюсь извлечь текст из следующего файла PDF:iTextSharp вставив пространства внутри слов из файла в формате PDF
https://www.treasury.gov/ofac/downloads/sdnlist.pdf
Это код:
var currentText = PdfTextExtractor.GetTextFromPage(pdfReader, 2, new SimpleTextExtractionStrategy());
if (currentText.Length > 0)
{
var capture = new Capture();
capture.Text = currentText;
// write the results to the DB, if any data was found
_dataService.AddCapture(capture);
}
Использование SimpleTextExtractionStrategy, результаты записываются в базу данных с мириадами нежелательных пробелов внутри слов. Первые несколько строк на странице 2 записи, как:
ОФИСА контроля иностранных активов СПЕЦИАЛЬНО Гражданин & ЗАБЛОКИРОВАН ЛИЦА 3 февраля 2017 года - 2 - зенитные RASPLET IN; a .k. a. AL MAZ -AN TEY MSDB; a .k.a. AL MAZ -ANTEY PV O 'AI R DEFENSE' CO NCERN LEAD SYSTE M S КОНСТРУКТОРСКОЕ БЮРО ОАО 'OPEN JO INT -STOCK КОМПАНИЯ' IMENI ACADEMIC IAN A.A. Расплетина; a.k .a. GO LOVNOYE SISTEMN OYE KONS TRUKT ORSKOY E BYURO OPEN J OIN T-S TOCK C OMP ANY OF ALMAZ -AN TEY PVO C ONCERN I MEN I ACADEMICIAN A .A. РАСПРОСТРАНЕНИЕ; a.k. а. JO INT STOCK C OMPANY A LMA Z-AN TEY AI R DEFENSE CON CERN MA IN SYSTE M КОНСТРУКТОРСКОЕ БЮРО ИМЕНИ АКАДЕ МИКИАНА А.А.
См, например, слово «JO INT» в 4-й & 6-й линии, а слово «CON CERN» в 2-го по последней строке. Эти типы пространств встречаются во всех результатах. К сожалению, запрос к тексту невозможен.
Кто-нибудь есть идеи, почему это делает это и как это разрешить?
Я видел вас вокруг этих частей, и вы, безусловно, являетесь Королем этого предмета. Спасибо за вашу великую мудрость и помощь! – Stpete111