2013-04-25 3 views
0

Я хотел бы узнать, как извлечь из этого PDF (Исх. Изображение) http://postimg.org/image/ypebht5dx/Java PDFBox, извлекать данные из столбца таблицы

Например, я хочу, чтобы извлечь только значения в столбец «TENSIONE [V]», и если он встречает пустую ячейку, я ввожу букву «X» на выходе. Как я мог это сделать?

Код я использовал это:

PDDocument p=PDDocument.load(new File("a.pdf")); 
PDFTextStripper t=new PDFTextStripper(); 
System.out.println(t.getText(p)); 

и я получаю этот выход:

http://s23.postimg.org/wbhcrw03v/Immagine.png

+0

Изображение, которое вы показываете, является тестовым выходом, заданным 'System.out.println (t.getText (p));'? – Smit

+0

Нет, он извлекается только текст! – Enzo

+0

Ну, как вы уже извлекли текст, вы можете выполнить некоторую операцию String и получить нужные вам части. Вы можете использовать [PDFTextStripper API] (http://pdfbox.apache.org/apidocs/org/apache/pdfbox/util/PDFTextStripper.html). Он имеет getLineSeperateor – Smit

ответ

1

Это всего лишь ориентировочными. Используйте их при использовании. Это также не проверено, но поможет вам решить вашу проблему. Если у вас есть какие-либо вопросы, дайте мне знать.

String text = t.getText(p); 
String lines[] = text.split("\\r?\\n"); // give you all the lines separated by new line 

String cols[] = lines[0].split("\\s+") // gives array separated by whitespaces 
// cols[0] contains pins 
// clos[1] contains TENSIONE[V] 
// cols[2] contains TOLLRENZA if not present then its empty 
Смежные вопросы