Хорошо,
Во-первых, я вниз-голосование этот вопрос, потому что вы просите рекомендации инструмента, а не для помощи на все, что вы уже проделали работу, и застряли с. Я не буду утруждаться ссылкой на How Ask, потому что Mat в комментариях был быстрее меня.
Теперь это конкретное требование, извлечение данных из таблицы в формате pdf, является тем, что я видел пару раз в Stack, поэтому я собираюсь выписать более полный ответ здесь для ссылки позже.
Короче говоря, нет простого способа, поймать-весь способ сделать это:
Per в PDF-спецификации, когда таблица написано в формат PDF, вы потеряете всю реляционную информацию, потому что становлюсь сохраненный в pdf, в основном сводится к инструкциям по рисованию для ячеек, содержимому ячейки, границам и т. д. Извлечение и восстановление таблиц из этого формата сводится к применению текстового извлечения путем анализа инструкций и текста чертежа и принятия решения о том, являются ли извлеченные данные частью таблицы или нет на основе какого-то алгоритма, который вам нужно будет определить самостоятельно.
Теперь есть что-то, называемое tagged-pdf, расширение в базовой спецификации. Это pdf, содержащий в дополнение к только исходным инструкциям рисования реляционную информацию для ее содержимого (хранится в StructRoot
). Эта информация обычно добавляется в процессе создания, когда отношения между содержимым все еще известны. Если Pdf отмечен и сконструирован хорошо, любая таблица будет отмечена как одна в тегах, что делает реконструкцию таблицы довольно тривиальной.
Существование tagged-pdf - это то, почему большинство комментаторов просят вас поделиться своим файлом, чтобы они могли подтвердить, что он либо помечен, либо нет, и дайте совет, основанный на этом факте. Я бы настоятельно рекомендовал сначала проверить это, так как он решает, является ли ваша цель эффективной или довольно сложной.
Возможно ли предоставить файл PDF для справки? Или вы должны объяснить, как он структурирован. Если это PDF-файл, созданный из отсканированных документов, и все страницы создаются с изображениями, у нас может быть не так много возможностей. Если он просто составлен с текстом и делает «Выбрать все» и копирует в PDF-ридер, а вставка в текстовый редактор может получить его в текстовом формате, это поможет. –
Табличная форма pdf с данными int и char. –
Это не поможет. Поскольку я хочу разбирать столбцы с мудрыми или строчными словами в соответствии с условием –