2016-04-03 7 views
0

Я пытаюсь извлечь текст из PDF по темам. , чтобы сделать это, пытаясь идентифицировать метки \ заголовки в PDF.Извлечение текста PDF по темам

До сих пор я преобразовал PDF в xml-файл, чтобы получить более легкие текстовые данные, а затем используя шрифт \ размер каждого из них, чтобы обмануть, если строка является меткой или нет. Основная проблема заключается в том, что каждый PDF может иметь свою собственную сборку, и не обязательно то, что работает для одного PDF, будет работать для другого.

Я буду рад, если у кого-то есть идея, как преодолеть эту проблему, чтобы можно было получить ярлыки (текст по темам) без зависимости от PDF (большинство PDF-файлов, с которыми я работаю, - это статьи \ книги) Различные способы извлечения текста по темам также приветствуются.

(как тег указывает на то, что я пытаюсь сделать это в Python)

Edit:

На данный момент им делать 2 вещи:

  1. проверки шрифт каждой строки

  2. проверка каждая строка текста размер

Я пришел к выводу, что: в обычном тексте будет больше строк с его шрифтом (есть больше, чем x10 строк с этим шрифтом, чем все другие тексты), и если вы посмотрите на медиану размера текста, это будет размер обычного текста. С первого раза я могу удалить весь обычный текст, а со второго я могу взять все тексты, которые больше, и все ярлыки будут в этом списке.

Проблема теперь состоит в том, чтобы извлечь только метки из этого списка, так как обычно есть текст, который больше обычного текста, но не является меткой. Я пытался использовать количество времени, которое каждый шрифт показывает в тексте, чтобы идентифицировать шрифты ярлыков, но без особого успеха. Для каждого PDF сумма может варьироваться.

Я ищу идеи, как решить эту проблему, или если кто-то знает инструменты, которые могут сделать это легче.

ответ

1

Я бы предложил изучить многие pdf-файлы и записать каждый размер текста в формате pdf. Затем вы можете усреднить верхние 5 наивысших шрифтов и усреднить верхние 5 нижних шрифтов. Теперь вы можете сделать диапазон между ними и проверить текст, если он находится в этом диапазоне размеров текста. Этот метод не будет работать всегда, но будет охватывать большинство PDF-файлов.

(Чем больше pdfs вы изучаете лучше)

Смежные вопросы