извлечь данные из отсканированных документов C#

У меня есть файл PDF, который содержит данные, которые нам нужно импортировать в базу данных. Файл представляет собой PDF-сканирование печатного текста. данные структурированы как этотизвлечь данные из отсканированных документов C#

N° Facture : 45526203 
Date : 01/12/2014 
Nom de la société : company

Но эти данные не всегда присутствует на одних и тех же регионах document.So я хочу инструмент или API, который может распознавать это filelds. Любые советы приветствуются.

источник

2015-01-21 ItShine

После прочтения каждой строки вы можете извлекать числа, даты или любой тип с помощью 'Regex.Match (yourLine, RegexString) .Value' – CAS

Вы можете посмотреть https://www.leadtools.com/sdk/ocr /. Он позволяет извлекать текст с изображения и выводить его в другом формате. Тогда вам просто нужно проанализировать результат, чтобы получить необходимую информацию – Aymeric

ABBYY Cloud OCR SDK может это сделать.
Используйте метод processTextField для распознавания текстовых полей.
Подробную документацию вы можете найти на странице ABBYY's website.
Если вам нужна помощь, пожалуйста, не стесняйтесь спрашивать меня в комментариях (я работаю для ABBYY).

источник

2015-01-22 22:19:44

извлечь данные из отсканированных документов C#

ответ

Смежные вопросы