Я пытаюсь извлечь текст из PDF по темам. , чтобы сделать это, пытаясь идентифицировать метки \ заголовки в PDF.Извлечение текста PDF по темам
До сих пор я преобразовал PDF в xml-файл, чтобы получить более легкие текстовые данные, а затем используя шрифт \ размер каждого из них, чтобы обмануть, если строка является меткой или нет. Основная проблема заключается в том, что каждый PDF может иметь свою собственную сборку, и не обязательно то, что работает для одного PDF, будет работать для другого.
Я буду рад, если у кого-то есть идея, как преодолеть эту проблему, чтобы можно было получить ярлыки (текст по темам) без зависимости от PDF (большинство PDF-файлов, с которыми я работаю, - это статьи \ книги) Различные способы извлечения текста по темам также приветствуются.
(как тег указывает на то, что я пытаюсь сделать это в Python)
Edit:
На данный момент им делать 2 вещи:
проверки шрифт каждой строки
проверка каждая строка текста размер
Я пришел к выводу, что: в обычном тексте будет больше строк с его шрифтом (есть больше, чем x10 строк с этим шрифтом, чем все другие тексты), и если вы посмотрите на медиану размера текста, это будет размер обычного текста. С первого раза я могу удалить весь обычный текст, а со второго я могу взять все тексты, которые больше, и все ярлыки будут в этом списке.
Проблема теперь состоит в том, чтобы извлечь только метки из этого списка, так как обычно есть текст, который больше обычного текста, но не является меткой. Я пытался использовать количество времени, которое каждый шрифт показывает в тексте, чтобы идентифицировать шрифты ярлыков, но без особого успеха. Для каждого PDF сумма может варьироваться.
Я ищу идеи, как решить эту проблему, или если кто-то знает инструменты, которые могут сделать это легче.