2009-05-21 4 views
2

Нам нужно высококачественное сканирование объема и OCr решениесканирование большого объема и автоматическое решение ocr?

мы о оцифровке говорим о 4000 документах в день, и сохранения их в виде PDF-файл с ОРЗ (со скрытым текстом) ...

решение должно позволить операторы отсканировать документ и автоматически сохранять файлы к определенному сетевому ресурсу, которые должны быть приняты приложение, которое загружает его в БД ...

мы оцениваем корпоративное решение от Kofax http://www.kofax.com/

что другие продукты вы знаете?

любой опыт работы с аналогичными требованиями?

любое решение с открытым исходным кодом (или, по крайней мере, доступное)?

com, activex api поддержка?

ответ

0

Kofax не очень полезен или удобен (для моих коллег, работающих с округом). Это адекватно, но не хорошо.

Мы используем все решения Adobe. Подробности для наблюдения (я не отвечаю за управление этой областью, поэтому я должен собрать для вас некоторую информацию).

Обновление: Мы используем

Adobe Acrobat Capture 3.0
Two RICOH Color Scanner IS760D с АПД
Acrobat Standard или Professional (в зависимости от пользователя)

Мы имеем обширную библиотеку (почти 6000 документов) с сотнями тысяч отсканированных страниц. У компьютера, выполняющего сканирование, есть ключ, который мы покупаем (250 000 сканирований, пока нам не нужно приобрести «обновление»); У меня нет доступных затрат, так как джентльмен, который справляется с этим, вернулся домой в течение дня, но я помню, что он был в микроцентах на страницу.

Мы часто просматриваем документы с несколькими сотнями страниц, которые должны быть выполнены в тот день, и у нас нет проблем с выполнением этой задачи.

Ссылка на некоторые из наших усилий (веб-интерфейс или сортировка в нашей библиотеке) доступна по адресу http://acequia.ccrfcd.org/FileLibrary2/FileLibrary.aspx, если вы хотите получить представление о том, что мы сделали.

Что касается размещения этих PDF-файлов в базе данных, было бы довольно легко создать приложение (возможно, службу) для мониторинга каталога и захвата каждого PDF-файла, который появляется там после запуска Capture, копировать информацию в базу данных , то либо удалите его, либо переместите в новый дом.

+0

Большое спасибо за информацию, майкл, если вы можете предоставить сказать мне цену за PEGA это будет замечательно ... , кстати, делают каждый поставщик реализует на странице политики? ?? Я думаю, что kofax предлагает аналогичное решение, ключ и вы платите за каждую отсканированную страницу ... – opensas

4

Есть много поставщиков продуктов сканирования, которые могут делать то, что вы хотите - сканировать, индексировать, генерировать PDF с наложением OCR (лично я предпочитаю подложку OCR в формате PDF). Эти требования довольно тривиальны для поставщика, который специализируется на сканировании.Назвать лишь несколько других вендоров/продуктов в дополнение к Kofax:

  • EMC/Captiva в InputAccel продукт
  • Datacap
  • eCopy ShareScan
  • Верити/Кардифф/Автономия

Многие документ решения для управления также имеют встроенные интерфейсы сканирования, но они, как правило, не так функциональны, как специализированные продукты захвата. Почти все эти решения поддерживают COM/ActiveX API. Я не знаю каких-либо открытых исходных решений для сканирования, но я никогда не искал их.

Большинство поставщиков программного обеспечения для сканирования используют лицензию «объем» или «емкость». Как правило, объем возобновляется в конце срока (т.е. 1M страниц в год - автоматически обновляется каждый год без дополнительных затрат). Таким образом, вы не платите строго «за страницу» в том смысле, что если вы покупаете емкость 1M изображений в год, и вы только заканчиваете сканирование 500K страниц, вы не получите возмещение. Возможно, хотя гораздо менее распространено иметь одноразовый том, который не обновляется автоматически, и когда он заканчивается, вам потребуется приобрести дополнительный объем. Большинство поставщиков отходят от ключей, чтобы контролировать объем и переходят к лицензированию программного обеспечения.

Примечание стороны о Kofax:

Kofax исторически был продан через систему добавленной стоимость жилья поэтому качество различных реализаций может изменяться в широких пределах. Кроме того, он очень настраиваемый и поставляется в различных вариантах с большим количеством дополнительных модулей, поэтому система Kofax одного клиента может значительно отличаться от других систем.

Kofax используется в системах корпоративного класса для сканирования и автоматического захвата миллионов и миллионов документов в год. Он имеет значительный объем доли рынка сканирования документов. Нет, я не фанат Kofax, если бы я был, я бы не упомянул о конкурентоспособных продуктах; однако, я очень хорошо знаком с этим. Как и другие продукты на рынке, у него есть сильные и слабые стороны. Я понимаю, что Майкл просто передавал то, что слышал, но я просто не мог позволить этому широкому обобщению пройти без комментариев. Высказывание продукта, имеющего значительный процент доли на рынке, «не полезно или удобнее для пользователей» для сканирования, похоже на то, что «Windows не является полезной серверной операционной системой». Это слишком широкое обобщение.

Приветствия,

Brian

+0

Хороший ответ на эту странно непопулярную тему (захват большого объема изображений). – Lunatik

0

Насколько хорошо вы хотите, чтобы ваш OCR быть? Вам нужно, чтобы весь контент был читаемым человеком или вам нужен какой-то контент, чтобы иметь возможность классифицировать документ (тип клиента, тип документа, штрих-коды ...).

http://www.irislink.com - компания, которая разрабатывает решения для сканирования и классификации документов.
Их программное обеспечение входит в состав нескольких брендов многофункциональных и потребительских сканеров. Корпорация больше нацелена на извлечение информации и ее использование (например, автоматический ввод счетов-фактур в программное обеспечение учета).
Мой опыт в том, что он лучше обрабатывает текст OCR (исправляющие слова и т. Д.), чем Kofax (мы используем оба); хотя Kofax может быть расширен больше, чтобы достичь более высокого уровня (это означает больше работы по настройке и более техническое обслуживание).

Оба программного обеспечения действительно полезны для обработки документов.
Если ваше единственное желание - отсканировать документы; конвертировать в pdf и сохранять его на сетевом ресурсе; у вас может быть достаточно покупки хорошего сканера и использования прилагаемого программного обеспечения.
Вы также можете проверить проект tesseract; это двигатель с открытым исходным кодом с хорошими результатами.

0

Вы можете попробовать ChronoScan, он имеет бесплатное OCR через tesseract и имеет опции распознавания форм, и он бесплатный для некоммерческого использования.

Программное обеспечение находится в стадии разработки и расширенного развития, и у вас есть форум для прямого общения с разработчиками.

http://www.chronoscan.org Short video reading forms

Смежные вопросы