PDF не содержит явных данных таблицы. Он содержит только строки и символьные символы, которые мы склонны интерпретировать как таблицы. Таким образом, ваша задача заключается в том, чтобы внедрить наши возможности распознавания таблиц в Google, что является довольно сложной задачей.
Вообще говоря, если вы уверены, что достаточно будущие PDF-файлы будут генерироваться одним и тем же программным обеспечением в очень похожим образом, это может стоит время, чтобы исследовать этот файл на несколько простых советов, чтобы распознать содержимое отдельные поля.
У вашего конкретного документа есть дополнительный недостаток: Он не содержит необходимой информации для прямого извлечения текста! Вы можете попробовать скопировать & вставки из Adobe Reader, и вы получите (по крайней мере, я) полуслучайные символы из диапазона WinAnsi.
Это связано с тем, что все шрифты в документе утверждают, что они используют WinAnsiEncoding, даже несмотря на то, что символы, на которые он ссылается, окончательно не связаны с выбором символа WinAnsi.
Таким образом, надежное извлечение текста из вашего документа без OCR невозможно в конце концов!
(Пытающая копия & Вставка из Adobe Reader обычно является хорошей первой проверкой, возможно ли извлечение текста вообще, методы извлечения текста Reader были разработаны много лет и, следовательно, стали довольно хорошими. вы не можете ничего толкового с Acrobat Reader извлечения, извлечение текста будет очень трудной задачей, действительно)
PDF не содержит явных данных таблицы. Он содержит только строки и символьные символы, которые мы склонны интерпретировать как таблицы. Таким образом, ваша задача заключается в том, чтобы внедрить наши возможности распознавания таблиц в Google, что является довольно сложной задачей. – mkl
@mkl так короче, если это не проблема или смерть, мне лучше не думать о разборе этого pdf? :) – meadhikari
Я сделал что-то подобное, используя [PDFMiner] (https://pypi.python.org/pypi/pdfminer/). Вы можете в принципе получить поток всех объектов вместе со своими позициями x и y, а затем группировать их сверху вниз, слева направо (для английского как минимум), а затем сделать некоторые интеллектуальные догадки о том, где ячейки заканчиваются на основе ваше знание контекста. Это больно, и каждый PDF отличается. Если вам не нужно разбирать его, не делайте этого. Как часто это публикуется? – ChrisP