Я хочу разработать приложение для обнаружения текста из отсканированных документов, которые могут содержать смешанный текст, график, изображения и т. Д. Я думаю, что могу использовать технику скользящего окна фиксированного размера и использовать Упрощенный NN или SVM, чтобы классифицировать эти регионы, но я застрял с фазой извлечения функции, какие общие методы извлечения используются для использования?Извлечение текста из текстовых документов
ответ
Если все символы напечатаны машиной, одной из простых и точных характеристик будет нормализованное значение плотности каждого предварительно обработанного символьного изображения.
Здесь вы можете разделить изображение на фиксированное число сегментов и рассчитать нормированное значение плотности для каждого сегмента. Затем вы получите вектор значений плотности для каждого символа и продолжите классификацию с помощью NN или SVM.
Благодарю вас, сэр за ваш ответ, можете ли вы рассказать о том, как рассчитать нормированное значение плотности для каждого окна? –
Значение нормированной плотности может быть определено как общая плотность (сумма всей плотности всех пикселей сегмента)/# сегментов. вы можете легко разработать алгоритм для этого. –
Следующие могут вам помочь. Возможно, это слишком много для того, что вы пытаетесь сделать, но оно предназначено для идентификации текстовых областей в изображении.
«Robust обнаружения текста в естественных изображений с края повышенной Maximally Стабильные экстремальных регионов» (http://web.stanford.edu/~hchen2/papers/ICIP2011_RobustTextDetection.pdf)
Вы можете найти соответствующий проект на GitHub (я не использовал это сам): https://github.com/subokita/Robust-Text-Detection, но может быть стоит попробуйте свои примеры изображений.
Существует много научных статей о сегментации страницы/текста, поиск этих терминов у google ученого, и вы можете найти более старые, менее сложные подходы. Одним из примеров является «Сегментация и классификация страниц с использованием быстрого извлечения извлечения и анализа связности» (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.55.527&rep=rep1&type=pdf)
- 1. извлечение текста из XML-документов в питоне
- 2. извлечение полуструктурированного текста из документов Word
- 3. Получение чистого текста из текстовых/html-документов с помощью BeautifulSoup
- 4. Извлечение информации, индексация и поиск PDF-документов, текстовых и текстовых документов с помощью MongoDB
- 5. Извлечение текстовых полей из PDF
- 6. Анализ и извлечение текста из текстовых файлов с использованием C#
- 7. Извлечение документов из репозитория Liferay
- 8. MongoDB Извлечение Подмассивы из документов
- 9. Извлечение отдельных документов из Solr
- 10. Извлечение встроенных документов из mongoDB
- 11. извлечение столбцов из текстовых файлов
- 12. Алгоритм классификации лучших текстовых документов
- 13. Извлечение демографической и контактной информации из неструктурированных текстовых файлов
- 14. Редактор онлайн-документов для текстовых документов
- 15. Извлечение текста из изображения
- 16. Извлечение текста из изображений
- 17. Извлечение текста из ячейки
- 18. Извлечение текста из html?
- 19. Дата Извлечение из текста
- 20. Извлечение текста из файла
- 21. Извлечение текста из строки
- 22. Извлечение даты из текста
- 23. Извлечение текста из HTML
- 24. Извлечение текста из вывода
- 25. Извлечение данных из текста
- 26. Извлечение данных из текста
- 27. имена Извлечение из текста
- 28. Извлечение строки из текста
- 29. Извлечение текста из флажков
- 30. Извлечение текста из PDF
Вы выбрали лучшую технику, с которой можно учиться, но не на каких входах (функциях) она будет работать? Это звучит немного назад. –
Если документы набраны текстом, а не рукописным текстом, возможно, вы даже можете уйти с шаблоном, а не с более сложным алгоритмом машинного обучения. Если символы рукописные, вы также можете использовать необработанные пиксели в качестве функций и алгоритм, например, k-ближайших соседей, в зависимости от того, насколько понятен почерк. – eigenchris
@eigenchris все текстовые изображения напечатаны машиной –