Извлечение таблицы структурированного текста из PDF-файла

Я извлекаю информацию из PDF-файла в строку. При попадании текста, который является структурами в pdf как таблицы, извлеченный текст затем делится на то, как читатель попадает по линии, а не по ячейке в строке таблицы.Извлечение таблицы структурированного текста из PDF-файла

После прочтения и поиска часов я хотел бы получить несколько советов о том, как мне подойти к этой проблеме, чтобы получить строку, структурированную так, как показано ниже?

PDF- table structure

Текущая строка:

Difenylmetandiisocyanat 9016-87-9 Acute Tox. 4; H332 >= 10 - < 20 
Skin Irrit. 2; H315 
Eye Irrit. 2; H319 
Resp. Sens. 1; H334 
Skin Sens. 1; H317 
Carc. 2; H351 
STOT SE 3; H335 
STOT RE 2; H373 
4,4'-metylendifenyldiisocyanat 101-68-8 Acute Tox. 4; H332 >= 10 - < 20 
202-966-0 Skin Irrit. 2; H315 
Eye Irrit. 2; H319 
Resp. Sens. 1; H334 
Skin Sens. 1; H317 
Carc. 2; H351 
STOT SE 3; H335 
STOT RE 2; H373

Желаемая структура:

Difenylmetandiisocyanat 

9016-87-9 

Acute Tox. 4; H332 
Skin Irrit. 2; H315 
Eye Irrit. 2; H319 
Resp. Sens. 1; H334 
Skin Sens. 1; H317 
Carc. 2; H351 
STOT SE 3; H335 
STOT RE 2; H373 

>= 10 - < 20 

4,4'-metylendifenyldiisocyanat 

101-68-8 
202-966-0 

Acute Tox. 4; H332 
Skin Irrit. 2; H315 
Eye Irrit. 2; H319 
Resp. Sens. 1; H334 
Skin Sens. 1; H317 
Carc. 2; H351 
STOT SE 3; H335 
STOT RE 2; H373 

>= 10 - < 20

источник

2016-08-12 Jonas Johansson

Вы забыли предоставить нам самую важную информацию: вы говорите о «структурированном тексте», но вместо совместного использования PDF, чтобы мы могли узнать, структурирован ли PDF (на официальном языке: чтобы проверить, PDF правильно * Tagged *), вы делитесь снимками экрана. Мы не можем проверить ваше утверждение о том, что у вас действительно есть структура таблицы в PDF. Существует огромная разница между тем, что человеческий глаз воспринимает как структуру таблицы и фактическую структуру таблицы в * Tagged PDF *. Если PDF не помечен, он не структурирован. –

В файле нет тегов. PDF-файл: [ссылка] (http://expirebox.com/files/d3426fda8d00dd0e7c6791814b5994c8.pdf) –

Затем PDF не структурирован, и вы спрашиваете то, что не предоставляется из коробки (а не каким-либо инструментом Я знаю), и это требует много работы по программированию (больше, чем может быть предусмотрено в переполнении стека). –

В вашем комментарии вы говорите: "Там нет тегов в файле". Однако, когда я проверяю файл, я ясно видеть структуру дерева:

Когда PDF тегами, вы можете легко преобразовать его в XML:

TaggedPdfReaderTool convertor = new TaggedPdfReaderTool(); 
    convertor.convertToXml(
     new PdfReader("resources/pdfs/sds_w_sv_3.pdf"), 
     new FileOutputStream("results/sds_w_sv_3.xml"));

Это фрагмент полученный XML-файл:

<Table> 
<TR> 
<TH> 
<Span></Span> 
<P> 
Best&#229;ndsdelar 
</P> 
</TH> 
<TH> 
<Span></Span> 
<P> 
CAS 
- 
nr. 
</P> 
</TH> 
<TH> 
<Span></Span> 
<P> 
Kontrollparametrar 
</P> 
</TH> 
<TH> 
<Span></Span> 
<P> 
Grundval 
</P> 
</TH>

Этот XML-подобный HTML-код позволяет извлекать таблицу в виде таблицы. Тем не менее, должно быть что-то неправильно с тем, как был помечен PDF-документ, поскольку не вся информация, которая видна в PDF-документе, отображается в XML.

Вы можете увидеть это при нажатии на одну из первых тегов:

Содержание первого <P> (пункт) в структуре дерева AVSNITT 1 на странице 40. Что случилось с теги первых 39 страниц? Это плохой файл PDF. В нем говорится, что он помечен, но с первого взгляда он неправильно помечен. Вы должны попросить человека, который подготовил этот файл, правильно пометить его. Без правильных тегов вам будет сложно найти табличную структуру программно.

источник

2016-08-12 12:05:11

Спасибо, что это действительно полезно. –

Извлечение таблицы структурированного текста из PDF-файла

ответ

Смежные вопросы