Мой PDF содержит список лиц, и я в настоящее время ищет идеальное решение, чтобы получить этих людей, но в некоторых случаях, я закончил чтение это предложение:Как я могу узнать значение из помеченного pdf?
Это не представляется возможным, так как PDF-файлы не имеют структуру.
Теперь есть помеченные PDF-файлы, которые показывают вам «структуру» вашего PDF-файла. В моем случае у меня есть помеченный PDF-файл, где каждое значение человека имеет свою собственную строку, и каждый человек находится в столбце. Это означает, что есть/должен быть простой способ проанализировать эту «таблицу» в моем PDF-документе, чтобы получить ценность каждого человека, не так ли?
Итак, мой вопрос: когда помеченные PDF-файлы имеют структуру, то как я могу извлечь из этого выгоду, чтобы я мог читать все значения, которые мне нужны?
(сторона маленький вопрос: Являются ли PDF в приложениях Excel с использованием тегов из PDF создать файл в программе Excel?)
EDIT # 1:
Я уже попробовал ваш путь @Lara Рекомендованного с Syncfusion, но проблемой является строкой я получаю:
John Peter Smith Smithstrasse 1 0101 Smithikon am See 010 010 01 01 020 020 02 02
Нельзя использовать Regex с таким выходом. Проблема в том, что вы никогда не знаете, принадлежит ли Peter
к первому или фамилию, а Smith
может быть частью улицы. Вот почему я не могу использовать его, и именно поэтому я ищу решение, в котором я могу использовать теги в PDF. Все хорошо разделено, поэтому мне нужен способ получить значения из тегов.
EDIT # 2: Как @Balasubramanian желал вот помеченный пример PDF: http://www.sh.ch/fileadmin/Redaktoren/Dokumente/Aufsichtsbehoerde_ueber_das_Anwaltswesen/Verzeichnis_SH_Anwaelte.pdf
Это PDF дает с Syncfusion именно выход я добавляю в Edit # 1.
У меня нет особых требований для вывода, поэтому не имеет значения, получаю ли я данные в файле JSON, массиве или чем-то подобном. С другой стороны, важно то, что каждое значение каждого человека разделяется, поэтому я могу получить эти значения. Но большой вопрос в том, как я могу это сделать. Теги должны быть где-то сохранены в файле PDF (метаданные?).
Не тот ответ, который я ищу. Я знаю, что это может сработать, но это, я думаю, печатается по строкам, но мне нужны значения отдельно. Из-за форматирования я не могу использовать Regex, чтобы получить их из строки. – SovietPanda
Какое у вас образование. Выше решение извлекает PDF в String.Now у вас есть множество методов, доступных в строке, чтобы добавить свою логику и получить то, что вы хотите. – Lara
Для вас информация, читайте значения по строкам в строке ... Затем разделите строку на основе некоторого разделителя, такого как «" (пробел) и добавить в массив строк. Теперь узнайте, какая информация доступна в каком месте массива строк. Получите это и используйте согласно вашему требованию ... – Lara