Вопрос: Если у вас есть PDF-файл, могу ли я (легко) проверить перекрывающий текст с помощью PDFsharp (или другой совместимой с .NET библиотекой PDF)?Может ли PDFsharp помочь мне обнаружить перекрывающийся текст?
Решение, которое проверяет перекрывающиеся буквы (из двух разных текстовых блоков), является предпочтительным, но приемлемо решение, которое проверяет только перекрывающиеся ограничивающие поля.
Что я уже пробовал: Очевидным решением было бы извлечь все текстовые компоненты своими ограничительными рамками и проверить их для перекрытия. Однако в PDFsharp я не нашел способ извлечь текстовые компоненты с их ограничивающими прямоугольниками. К avoid the XY problem, я прошу об общей проблеме, а не о том, как извлечь текст с помощью PDFsharp.
фон: Я пишу тесты для нашего компонента отчетности. Отчеты генерируются как файлы PDF, используя как компонент рендеринга PDF отчетов RDLC, так и прямой PDF-выход с PdfSharp.
В моих модульных тестах я хочу протестировать эти отчеты с использованием разных наборов данных и языков и узнать , есть ли перекрывающий текст. На данный момент модуль тестирует только экспорт PDF-файлов для каждой комбинации, которую я хочу протестировать, и кто-то должен вручную просмотреть их. Я бы хотел автоматизировать это.
Обратите внимание, что вам, вероятно, придется разработать стратегию борьбы с [kerning] (https://en.wikipedia.org/wiki/Kerning), чтобы избежать ложных срабатываний. – colinmac