2017-01-10 1 views
-4

Мне дан pdf-файл, в котором есть табличные данные. Мне нужно извлечь данные в соответствии с данным условием (например, извлечь колонку 1 до строки 5). Мне нужен метод или объяснение, чтобы решить мое условие с помощью программирования java. Есть ли для этого какая-либо сторонняя библиотека?Мне дается pdf-файл, в котором есть табличные данные. Мне нужно извлечь данные в соответствии с данным условием

Image from comment http://www.careerarm.com/wp-content/uploads/2015/09/table.png

+1

Возможно ли предоставить файл PDF для справки? Или вы должны объяснить, как он структурирован. Если это PDF-файл, созданный из отсканированных документов, и все страницы создаются с изображениями, у нас может быть не так много возможностей. Если он просто составлен с текстом и делает «Выбрать все» и копирует в PDF-ридер, а вставка в текстовый редактор может получить его в текстовом формате, это поможет. –

+0

Табличная форма pdf с данными int и char. –

+1

Это не поможет. Поскольку я хочу разбирать столбцы с мудрыми или строчными словами в соответствии с условием –

ответ

2

Существуют различные стандарты для документов в формате PDF. В зависимости от стандарта ваш pdf-документ может быть помечен (ISO 32000-1) или нет. Tagged pdfs поддерживает логическое представление документа (абзац, таблица, таблица-строка, таблица-ячейка и т. Д.) Вместе с информацией рендеринга. Если PDF помечен, можно извлечь данные по запросу. Но без справочного документа PDF трудно определить, является ли это вариантом.

1

Хорошо,

Во-первых, я вниз-голосование этот вопрос, потому что вы просите рекомендации инструмента, а не для помощи на все, что вы уже проделали работу, и застряли с. Я не буду утруждаться ссылкой на How Ask, потому что Mat в комментариях был быстрее меня.

Теперь это конкретное требование, извлечение данных из таблицы в формате pdf, является тем, что я видел пару раз в Stack, поэтому я собираюсь выписать более полный ответ здесь для ссылки позже.

Короче говоря, нет простого способа, поймать-весь способ сделать это:

Per в PDF-спецификации, когда таблица написано в формат PDF, вы потеряете всю реляционную информацию, потому что становлюсь сохраненный в pdf, в основном сводится к инструкциям по рисованию для ячеек, содержимому ячейки, границам и т. д. Извлечение и восстановление таблиц из этого формата сводится к применению текстового извлечения путем анализа инструкций и текста чертежа и принятия решения о том, являются ли извлеченные данные частью таблицы или нет на основе какого-то алгоритма, который вам нужно будет определить самостоятельно.

Теперь есть что-то, называемое tagged-pdf, расширение в базовой спецификации. Это pdf, содержащий в дополнение к только исходным инструкциям рисования реляционную информацию для ее содержимого (хранится в StructRoot). Эта информация обычно добавляется в процессе создания, когда отношения между содержимым все еще известны. Если Pdf отмечен и сконструирован хорошо, любая таблица будет отмечена как одна в тегах, что делает реконструкцию таблицы довольно тривиальной.

Существование tagged-pdf - это то, почему большинство комментаторов просят вас поделиться своим файлом, чтобы они могли подтвердить, что он либо помечен, либо нет, и дайте совет, основанный на этом факте. Я бы настоятельно рекомендовал сначала проверить это, так как он решает, является ли ваша цель эффективной или довольно сложной.

Смежные вопросы