У меня возник вопрос о разбиении PDF-файлов. в основном у меня есть сборник pdf-файлов, файлы которых я хочу разделить в терминах , пункт. поэтому для каждого абзаца файла pdf файл должен быть сам по себе. Я был бы признателен, если вы можете помочь мне с этим, желательно на Python, но если это невозможно, любой язык будет работать.Разделение файлов PDF в абзацы
1
A
ответ
0
Вы можете использовать pdftotext для этого, оберните его в подпроцесс python. В качестве альтернативы вы можете использовать другую библиотеку, которая уже делает это неявно, как textract. Вот краткий пример. Примечание. Я использовал 4 пробела в качестве разделителя для преобразования текста в список абзацев, вы можете использовать другую технику.
import re
import textract
#read the content of pdf as text
text = textract.process('file_name.pdf')
#use four space as paragraph delimiter to convert the text into list of paragraphs.
print re.split('\s{4,}',text)
+0
Спасибо за пример. он отлично работает для моего дела. – LoniF
Смежные вопросы
- 1. идентифицировать абзацы pdf-файлов с использованием itextsharp
- 2. Python: разделение фрагментов HTML на абзацы
- 3. Сохранить абзацы в формате PDF динамически?
- 4. Функциональные абзацы
- 5. Разделение PDF на png
- 6. Разделение файлов в UNIX
- 7. разделение файлов в unix
- 8. Разделение страниц PDF на Java
- 9. Разделение текста на абзацы с регулярным выражением JAVA
- 10. Сплит-документы в абзацы
- 11. Mincemeat.py - DataSource разделение файлов
- 12. Разделение текстовых файлов
- 13. NLog Разделение файлов
- 14. Разделение файлов XML NMAP
- 15. Разделение файлов контроллера AngularJS?
- 16. Разделение файлов данных данных
- 17. JTidy обменивает мои абзацы
- 18. Абзацы, обертывающие другие абзацы разных размеров шрифта
- 19. Содержит абзацы вместе
- 20. разделение текстовых файлов на основе столбца wise
- 21. PDF Renderer, вызывающий разделение на ноль
- 22. Как отделить абзацы в текстовом файле на несколько текстовых файлов?
- 23. Разделение Реагировать на несколько файлов
- 24. Разделение приложенияКонтекст для нескольких файлов
- 25. Разделение файлов sqlite для синхронизации
- 26. Плавающие абзацы
- 27. абзацы нерегулярны
- 28. Сочетание pdf-файлов в одном pdf
- 29. Объединить несколько PDF-файлов в один PDF
- 30. Вставить PDF в PDF (НЕ слияние файлов)
Что вы планируете использовать с python для извлечения текста из PDF? pdf2text также можно использовать. – Radan
В настоящее время я пишу программу, которая использует вызов подпроцесса для анализа PDF с использованием pdftotext. Это очень полезно: https://en.wikipedia.org/wiki/Pdftotext – Steampunkery
@Radan Я хочу вычислить сходство между абзацами. все файлы PDF состоят из нескольких абзацев, и я хочу видеть, насколько похожи абзацы друг к другу. но сначала мне нужно разбить файлы PDF на параграфы. – LoniF