Как получить метаданные PDF в linux с помощью Tika

-1

Я установил PDF-принтер в Ubuntu, поэтому, когда я печатаю любой файл, он генерирует файл .PDFs, теперь я хочу узнать метаданные (то есть название, дату создания, измененную дату, производитель, author.etc ....) этих PDF-файлов с использованием TIKA или обычного java.I пытался с jar в Ubuntu, но он не дал дату создания и измененную дату. Можно ли читать общие метаданные PDF-файлов с помощью TIKA в Ubuntu.So кто-нибудь знает, как получить, пожалуйста, дайте мне знать.Как получить метаданные PDF в linux с помощью Tika

источник

2015-01-27 Srinivas B

Здесь вы можете иметь java program за то же самое, и вы должны download файл библиотеки и добавить его в пути к классам

Добавление программы Java из указанной выше ссылке

К сожалению, не имеют ни малейшего представления о Тика, так надеюсь, что это нормально для вас, используя java-способ, как вы упомянули.

import java.util.Iterator; 
import java.util.Map; 

import com.lowagie.text.pdf.PdfReader; 

public class MainClass { 
    public static void main(String[] args) throws Exception { 
    PdfReader reader = new PdfReader("2.pdf"); //change your filename 
    Map info = reader.getInfo(); 
    for (Iterator i = info.keySet().iterator(); i.hasNext();) { 
     String key = (String) i.next(); 
     String value = (String) info.get(key); 
     System.out.println(key + ": " + value); 
    } 
    if (reader.getMetadata() == null) { 
     System.out.println("No XML Metadata."); 
    } else { 
     System.out.println("XML Metadata: " + new String(reader.getMetadata())); 
    } 
    } 

}

Output появляется что-то вроде этого:

ModDate: D:20120928204721+01'00' 
Creator: Adobe Acrobat 10.0 
CreationDate: D:20120916150806+01'00' 
Producer: Adobe Acrobat 10.14 Paper Capture Plug-in with ClearScan 
Title: 
XML Metadata: <?xpacket begin="" id="W5M0MpCehiHzreSzNTczkc9d"?> 
<x:xmpmeta xmlns:x="adobe:ns:meta/" x:xmptk="Adobe XMP Core 5.2-c001 63.139439, 2010/09/27-13:37:26  "> 
    <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"> 
     <rdf:Description rdf:about="" 
      xmlns:xmp="http://ns.adobe.com/xap/1.0/"> 
     <xmp:ModifyDate>2012-09-28T20:47:21+01:00</xmp:ModifyDate> 
     <xmp:CreateDate>2012-09-16T15:08:06+01:00</xmp:CreateDate> 
     <xmp:MetadataDate>2012-09-28T20:47:21+01:00</xmp:MetadataDate> 
     <xmp:CreatorTool>Adobe Acrobat 10.0</xmp:CreatorTool> 
     </rdf:Description> 
     <rdf:Description rdf:about="" 
      xmlns:dc="http://purl.org/dc/elements/1.1/"> 
     <dc:format>application/pdf</dc:format> 
     </rdf:Description> 
     <rdf:Description rdf:about="" 
      xmlns:xmpMM="http://ns.adobe.com/xap/1.0/mm/"> 
     <xmpMM:DocumentID>uuid:91129bea-7273-4b3d-924f-5f47a5b55fbf</xmpMM:DocumentID> 
     <xmpMM:InstanceID>uuid:3a02e281-e35f-454a-bac1-adf1bb833636</xmpMM:InstanceID> 
     </rdf:Description> 
     <rdf:Description rdf:about="" 
      xmlns:pdf="http://ns.adobe.com/pdf/1.3/"> 
     <pdf:Producer>Adobe Acrobat 10.14 Paper Capture Plug-in with ClearScan</pdf:Producer> 
     </rdf:Description> 
    </rdf:RDF> 
</x:xmpmeta>

источник

2015-01-27 16:46:09 Rao

В операционной системе Windows, которая работает хорошо, но в Linux это не дает дату создания, дату изменения и название Pdf file.So есть ли способ , –

Используется ли в pdf-файле эти свойства? Я считаю, что у него не должно быть зависимостей. На самом деле вышеуказанный код запускается и выводится только из Linux. – Rao

Да, у него есть набор свойств: имя, размер, объем, дата изменения, дата доступа. Но Linux Ubuntu не работает, я попробовал, он дал только значения производителя-создателя –

Как получить метаданные PDF в linux с помощью Tika

ответ

Смежные вопросы