2015-06-16 4 views
1

Я попробую pdf-модуль по ссылке ниже. Предполагая, что это работает, мой вопрос:Разбор документов в формате PDF

Есть ли способ хранить большие текстовые документы, такие как контракт, и иметь возможность запрашивать информацию из многих документов одновременно?

Например, я хотел бы запросить дату прекращения или цену, а затем прочитать этот раздел для списка контрактов.

+0

Если бы вы могли уточнить и сузить этот вопрос, вы также можете получить больше ответов. – rkh

ответ

3

Я использовал библиотеку pyPDF для этого (это непосредственно от activeState веб-страницы):

import pyPdf 

def getPDFContent(path): 
    content = "" 
    # Load PDF into pyPDF 
    pdf = pyPdf.PdfFileReader(file(path, "rb")) 
    # Iterate pages 
    for i in range(0, pdf.getNumPages()): 
     # Extract text from page and add to content 
     content += pdf.getPage(i).extractText() + "\n" 
    # Collapse whitespace 
    content = " ".join(content.replace("\xa0", " ").strip().split()) 
    return content 

print getPDFContent("test.pdf") 

Это должно быть хорошее место, чтобы начать работу. Я использовал это для автоматического тестирования созданных PDF-файлов.

Возможно, лучшим подходом, более подходящим для вашего вопроса, будет использование Microsoft SQL Server. Они имеют полный текстовый поиск документов (поиск «Полный текстовый поиск SQL Server в формате pdf»). Если вы можете загрузить все документы на SQL-сервере, вы можете начать использовать полнотекстовый поиск, чтобы получить нужную информацию. Это может быть проще и гибче, чем выше.

+0

Я дам ему шанс, спасибо. Любые советы о том, как хранить эти документы? Должен быть лучший способ по сравнению с открытием в Word/Adobe и нажатием Ctrl + F – trench

+0

Мне не удалось заставить это работать. Для (path) я помещаю в точное местоположение файла (C: \\ ... \ Something.pdf)? Я продолжал получать пустой контент. Мне удалось использовать эту библиотеку, чтобы выбрать определенные листы из PDF и создать новый PDF-файл или слить его с другими PDF-файлами, но я не могу понять, как это сделать для создания текста – trench

Смежные вопросы