2013-09-16 3 views
1

Я работаю над проектом, где у меня есть файл pdf, в котором описывается одна из политик здравоохранения. Мне нужно извлечь информацию из этого PDF-файла и попытаться сохранить его в некоторой форме, чтобы я мог ответить на вопросы, связанные с политикой, извлекая информацию из этого PDf.Обработка PDF для извлечения информации

Этот PDF слишком большой, поэтому я хочу разделить PDF в соответствии с различными разделами, чтобы при входе в запрос какой-либо конкретной области мне не пришлось проходить весь документ.

Я попытался решить это, используя некоторые PDF-конвертеры, которые преобразуют PDF-файлы в HTML-файлы. Но эти конвертеры не будут правильно конвертировать PDF в HTML, чтобы заголовки имели заголовок заголовка. Кроме того, даже если я правильно его преобразую и получаю правильные разделы из документа, я не получаю, как хранить эти данные. (Я имею в виду, в какой форме я должен хранить эти данные).

Есть ли другие решения, с помощью которых я могу это достичь. Я использую Python, а также могу использовать NLTK, если это необходимо. Также формат не фиксирован для PDfs, я хочу сказать, что мой код должен работать с любыми типами PDF-файлов.

+6

Объем этой проблемы, вероятно, слишком велик. Есть компании, работающие полный рабочий день по этой проблеме, и они еще не решили ее полностью (как вы ее нашли), и я сомневаюсь, что они когда-либо будут, учитывая, что сила PDF не является точно структурированным хранилищем данных. –

+0

Спасибо за ответ. мы работаем над одним и тем же. Но фактически застрял с того, с чего начать и как это сделать. Если у вас есть какие-либо советы по этой проблеме. Пожалуйста, помогите мне. :) – Gunjan

+0

Я бы попытался посмотреть, находится ли информация, которую вы ищете, где-то еще вверх (до того, как она превратилась в PDF). –

ответ

1

PDFMiner отлично подходит для размещения каждого бита текста из PDF. Он не будет хорошо помещен в теги заголовков или что-то в этом роде, но если у вас есть согласованная структура PDF в ваших документах, вы можете получить что-то работающее.

+0

thankz :) Я попробовал PDFminer, он отлично работает для текста, но он отлично работает и для таблиц? – Gunjan

+0

Я никогда не пробовал это на столах! дать ему шанс! – arturomp

+0

OK ... попробую .. thankz – Gunjan

Смежные вопросы