2013-12-04 3 views
0

У меня возникла небольшая проблема. В основном я хочу вывести из String-данных из PDF-файла. Более specifik этот PDF файлПолучение информации из pdf

http://www.midttrafik.dk/koereplaner/bybusser/aarhus/bybusser-aarhus/18-mejlbyelev-park-all%C3%A9-skaade-moesgaard/koereplan

Итак, моя проблема лежит в не зная, как получить имена и времена (ФПВ является раз и расположение автобусных остановок, названия улиц на левом kolon, и время подъема автобуса - это остальное). информация, которую я хочу сохранить, - это номер для названия улицы (1-4), название улицы и все время.

перевод некоторых материалов на pdf. Faste minuttal - просто означает, что время для автобусов одинаково для intival под «Faste» 6.56 - 8.11 - это означает, что в этом intival последует под. , так что автобус остановится на «Elev Skole, Høvej» 56, 11, 26, 41, что означает 6.56, 7.11, 7.26, 7.41, 7.56, 8.11.

Я не думаю, что могу лучше описать мою проблему, поэтому я надеюсь, что один из вас, ребята, сможет помочь. Мне не нужен готовый код, просто отправьте меня в прямолинейное распоряжение - скажите мне, что я могу сделать, эту миграционную помощь или хорошие шаблоны для использования. Thanks

+0

Какая среда программирования? – mkl

ответ

1

Вы можете использовать хорошую библиотеку PDFBox здесь, чтобы извлечь текст из этого файла pdf. Он работает очень хорошо, я использовал его в одном из моих последних проектов для индексации файлов pfd для полнотекстового поиска.

Вот URL для проекта: http://pdfbox.apache.org/index.html

Там вы найдете также документацию и примеры, как извлечь текст из PDF в.

Пример кода:

import java.io.*; 
import org.apache.pdfbox.pdmodel.*; 
import org.apache.pdfbox.util.*; 

public class LittleExample { 

public static void main(String[] args){ 

PDDocument pd; 
BufferedWriter wr; 
try { 
     // this is your pdf from which you would like to extract the text 
     File input = new File("/home/ottp/pdffiles/1.pdf"); 
     // this is the target file to store the extracted text 
     File output = new File("/home/ottp/pdffiles/extracts/1.txt"); 
     pd = PDDocument.load(input); 
     System.out.println(pd.getNumberOfPages()); 
     System.out.println(pd.isEncrypted()); 

     pd.save("CopyOfInvoice.pdf") 
     PDFTextStripper stripper = new PDFTextStripper(); 
     wr = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(output))); 
     stripper.writeText(pd, wr); 
     if (pd != null) { 
      pd.close(); 
     } 
     // close and flush the output stream 
     wr.close(); 
} catch (Exception e){ 
     e.printStackTrace(); 
     } 
    } 
} 
Смежные вопросы