2013-07-22 2 views
1

Я попытался почти каждый конвертер pdf в текстовый конвертер, доступный в Linux, но некоторые части текста повреждены/неточны. Как некоторые символы заменяются другими, некоторые слова отсутствуют в тексте, которые присутствуют в pdf. Для некоторых слов преобразованный текст содержит точки с запятой и т. Д.Неточное преобразование в pdf для преобразования текста

Я также попробовал aspell, чтобы я мог исправить слова, но Aspell продолжает молчать о некоторых словах.

ПРИМЕЧАНИЕ. В pdf-формате содержится текст на шведском языке.

Итак, есть ли какое-либо решение для исправления этой неточности в формате pdf для преобразования текста?

ответ

1

Нет. Я думаю, что нет никакого рабочего решения для всех PDF-файлов, так как фактический текст, лежащий в основе отображаемого визуального текста, может храниться в различных вариантах.

Когда pdf-файлы генерируются LaTeX, например, это зависит от нескольких параметров конфигурации, как внедрены некоторые не-ascii-символы. Иногда я получал :o вместо ö, иногда o:, и иногда персонаж был встроен напрямую. Каждый из этих вариантов, где отображен как ö.

Если вы скопируете и вставьте текст с помощью своего любимого pdf-просмотра или попытаетесь найти поврежденное слово, вы, возможно, увидите те же эффекты.

Для решения этих проблем можно использовать программное обеспечение ocr - со всеми недостатками при распознавании этих инструментов.

Смежные вопросы