2016-08-05 3 views
2

Я работаю над проектом, в котором квитанции можно читать с помощью OCR и анализировать его, чтобы получить важную информацию, такую ​​как имя продавца, дату, количество и т. Д. Я использую vision API, предоставленный google для анализа изображения и вывода текста из него в формате JSON. Теперь я хочу перейти к следующему шагу, где я могу разобрать текст и попытаться идентифицировать информацию по его местоположению или выражениям. Теперь я могу извлечь сумму из простой валюты, за которой следует числовая строка. С этого момента я должен искать анализ текста для извлечения любой информации (Пытаясь разработать систему, которая может извлекать информацию из любого типа квитанций). Даже небольшое руководство поможет мне продвинуться вперед.Анализ и анализ поступлений с использованием OCR

Спасибо.

ответ

0

Я начал извлекать информацию из возвращаемого текстового формата, ища токены, такие как «Дата», «Сумма», «Всего», «Rs». Я разработал алгоритм, который оценивает различное число, найденное как фактическое количество. Также я получаю имя продавца, которое в большинстве случаев находится на верхней части квитанции, удаляя токены вроде («the», «in», «welcome») и т. Д.

+0

В настоящее время я нахожусь на этом случай тоже. Можете ли вы подробнее объяснить свой алгоритм ранга? @sandy –

+0

Привет @DharmaSaputra, я использовал регулярное выражение для строки, чтобы проверить, составляет ли она сумму. Такая строка, ближайшая к ключевым словам типа «Всего», «сумма», получила более высокий ранг. – sandy

Смежные вопросы