У меня есть файл PDF, который содержит данные, которые нам нужно импортировать в базу данных. Файл представляет собой PDF-сканирование печатного текста. данные структурированы как этотизвлечь данные из отсканированных документов C#
N° Facture : 45526203
Date : 01/12/2014
Nom de la société : company
Но эти данные не всегда присутствует на одних и тех же регионах document.So я хочу инструмент или API, который может распознавать это filelds. Любые советы приветствуются.
После прочтения каждой строки вы можете извлекать числа, даты или любой тип с помощью 'Regex.Match (yourLine, RegexString) .Value' – CAS
Вы можете посмотреть https://www.leadtools.com/sdk/ocr /. Он позволяет извлекать текст с изображения и выводить его в другом формате. Тогда вам просто нужно проанализировать результат, чтобы получить необходимую информацию – Aymeric