2015-01-21 3 views
0

У меня есть файл PDF, который содержит данные, которые нам нужно импортировать в базу данных. Файл представляет собой PDF-сканирование печатного текста. данные структурированы как этотизвлечь данные из отсканированных документов C#

N° Facture : 45526203 
Date : 01/12/2014 
Nom de la société : company 

Но эти данные не всегда присутствует на одних и тех же регионах document.So я хочу инструмент или API, который может распознавать это filelds. Любые советы приветствуются.

+0

После прочтения каждой строки вы можете извлекать числа, даты или любой тип с помощью 'Regex.Match (yourLine, RegexString) .Value' – CAS

+0

Вы можете посмотреть https://www.leadtools.com/sdk/ocr /. Он позволяет извлекать текст с изображения и выводить его в другом формате. Тогда вам просто нужно проанализировать результат, чтобы получить необходимую информацию – Aymeric

ответ

0

ABBYY Cloud OCR SDK может это сделать.
Используйте метод processTextField для распознавания текстовых полей.
Подробную документацию вы можете найти на странице ABBYY's website.
Если вам нужна помощь, пожалуйста, не стесняйтесь спрашивать меня в комментариях (я работаю для ABBYY).

Смежные вопросы