2012-06-11 3 views
0

Как извлечь данные из pdf-файла, в основном таблицы данных и таких материалов, есть ли доступ к свободному или открытому исходному инструменту для его непосредственного использования. Я должен обработать большое количество файловИзвлечение данных из pdf

ответ

0

Да, вы можете извлечь текст из PDF-файлов в определенной степени с использованием библиотек Lucene 3.x и pdfbox 0,7

Но от добычи Pdf вы не можете получить преобразование некоторых изображений и некоторые форматы будут преобразованы в двоичный и garabage код

Но вы можете получить чистый текст

File f = new File("filename"); 

FileInputStream fis=new FileInputStream(f); 

PDFParser parser=new PDFParser(fis); 

parser.parse(); 

PDDocument pd=parser.getPDDocument(); 

PDFTextStripper pst=new PDFTextStripper(); 

String pdftext=pst.getText(pd); 

для этого вам необходимо скачать два опарник 1) Lucene-ядро-3.0.3 ящик 2) pdfbox-0.7.3 баночки

Я помогу вам в этом не беспокоиться

0

Для основного извлечения текста, если у вас есть доступ к утилитам командной строки, попробуйте pdftotext или pdftohtml. Вы также можете использовать команду strings.

Смежные вопросы