Извлечение текста из текстовых документов

Я хочу разработать приложение для обнаружения текста из отсканированных документов, которые могут содержать смешанный текст, график, изображения и т. Д. Я думаю, что могу использовать технику скользящего окна фиксированного размера и использовать Упрощенный NN или SVM, чтобы классифицировать эти регионы, но я застрял с фазой извлечения функции, какие общие методы извлечения используются для использования?Извлечение текста из текстовых документов

источник

2015-03-18 Ibrahim Amer

Вы выбрали лучшую технику, с которой можно учиться, но не на каких входах (функциях) она будет работать? Это звучит немного назад. –

Если документы набраны текстом, а не рукописным текстом, возможно, вы даже можете уйти с шаблоном, а не с более сложным алгоритмом машинного обучения. Если символы рукописные, вы также можете использовать необработанные пиксели в качестве функций и алгоритм, например, k-ближайших соседей, в зависимости от того, насколько понятен почерк. – eigenchris

@eigenchris все текстовые изображения напечатаны машиной –

Если все символы напечатаны машиной, одной из простых и точных характеристик будет нормализованное значение плотности каждого предварительно обработанного символьного изображения.

Здесь вы можете разделить изображение на фиксированное число сегментов и рассчитать нормированное значение плотности для каждого сегмента. Затем вы получите вектор значений плотности для каждого символа и продолжите классификацию с помощью NN или SVM.

источник

2015-03-18 15:39:03

Благодарю вас, сэр за ваш ответ, можете ли вы рассказать о том, как рассчитать нормированное значение плотности для каждого окна? –

Значение нормированной плотности может быть определено как общая плотность (сумма всей плотности всех пикселей сегмента)/# сегментов. вы можете легко разработать алгоритм для этого. –

Следующие могут вам помочь. Возможно, это слишком много для того, что вы пытаетесь сделать, но оно предназначено для идентификации текстовых областей в изображении.

«Robust обнаружения текста в естественных изображений с края повышенной Maximally Стабильные экстремальных регионов» (http://web.stanford.edu/~hchen2/papers/ICIP2011_RobustTextDetection.pdf)

Вы можете найти соответствующий проект на GitHub (я не использовал это сам): https://github.com/subokita/Robust-Text-Detection, но может быть стоит попробуйте свои примеры изображений.

Существует много научных статей о сегментации страницы/текста, поиск этих терминов у google ученого, и вы можете найти более старые, менее сложные подходы. Одним из примеров является «Сегментация и классификация страниц с использованием быстрого извлечения извлечения и анализа связности» (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.55.527&rep=rep1&type=pdf)

источник

2015-04-16 22:45:55 ikkjo

Извлечение текста из текстовых документов

ответ

Смежные вопросы