Я установил PDF-принтер в Ubuntu, поэтому, когда я печатаю любой файл, он генерирует файл .PDFs, теперь я хочу узнать метаданные (то есть название, дату создания, измененную дату, производитель, author.etc ....) этих PDF-файлов с использованием TIKA или обычного java.I пытался с jar в Ubuntu, но он не дал дату создания и измененную дату. Можно ли читать общие метаданные PDF-файлов с помощью TIKA в Ubuntu.So кто-нибудь знает, как получить, пожалуйста, дайте мне знать.Как получить метаданные PDF в linux с помощью Tika
-1
A
ответ
0
Здесь вы можете иметь java program за то же самое, и вы должны download файл библиотеки и добавить его в пути к классам
Добавление программы Java из указанной выше ссылке
К сожалению, не имеют ни малейшего представления о Тика, так надеюсь, что это нормально для вас, используя java-способ, как вы упомянули.
import java.util.Iterator;
import java.util.Map;
import com.lowagie.text.pdf.PdfReader;
public class MainClass {
public static void main(String[] args) throws Exception {
PdfReader reader = new PdfReader("2.pdf"); //change your filename
Map info = reader.getInfo();
for (Iterator i = info.keySet().iterator(); i.hasNext();) {
String key = (String) i.next();
String value = (String) info.get(key);
System.out.println(key + ": " + value);
}
if (reader.getMetadata() == null) {
System.out.println("No XML Metadata.");
} else {
System.out.println("XML Metadata: " + new String(reader.getMetadata()));
}
}
}
Output появляется что-то вроде этого:
ModDate: D:20120928204721+01'00'
Creator: Adobe Acrobat 10.0
CreationDate: D:20120916150806+01'00'
Producer: Adobe Acrobat 10.14 Paper Capture Plug-in with ClearScan
Title:
XML Metadata: <?xpacket begin="" id="W5M0MpCehiHzreSzNTczkc9d"?>
<x:xmpmeta xmlns:x="adobe:ns:meta/" x:xmptk="Adobe XMP Core 5.2-c001 63.139439, 2010/09/27-13:37:26 ">
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#">
<rdf:Description rdf:about=""
xmlns:xmp="http://ns.adobe.com/xap/1.0/">
<xmp:ModifyDate>2012-09-28T20:47:21+01:00</xmp:ModifyDate>
<xmp:CreateDate>2012-09-16T15:08:06+01:00</xmp:CreateDate>
<xmp:MetadataDate>2012-09-28T20:47:21+01:00</xmp:MetadataDate>
<xmp:CreatorTool>Adobe Acrobat 10.0</xmp:CreatorTool>
</rdf:Description>
<rdf:Description rdf:about=""
xmlns:dc="http://purl.org/dc/elements/1.1/">
<dc:format>application/pdf</dc:format>
</rdf:Description>
<rdf:Description rdf:about=""
xmlns:xmpMM="http://ns.adobe.com/xap/1.0/mm/">
<xmpMM:DocumentID>uuid:91129bea-7273-4b3d-924f-5f47a5b55fbf</xmpMM:DocumentID>
<xmpMM:InstanceID>uuid:3a02e281-e35f-454a-bac1-adf1bb833636</xmpMM:InstanceID>
</rdf:Description>
<rdf:Description rdf:about=""
xmlns:pdf="http://ns.adobe.com/pdf/1.3/">
<pdf:Producer>Adobe Acrobat 10.14 Paper Capture Plug-in with ClearScan</pdf:Producer>
</rdf:Description>
</rdf:RDF>
</x:xmpmeta>
Смежные вопросы
- 1. Как получить метаданные PDF с помощью MUPDF
- 2. Получить метаданные из PDF с помощью PDFsharp
- 3. Tika 1.4 - Невозможно извлечь метаданные или содержимое
- 4. Как получить метаданные для обрезанного PDF с помощью PDFBox
- 5. Как получить теги метаданных из файлов с помощью apache tika
- 6. Как разобрать арабский pdf с Tika
- 7. Как читать первые несколько страниц PDF-файла с помощью TIKA
- 8. PDF parse area using Tika
- 9. Как читать PDF-закладку с помощью apache tika?
- 10. Как получить файлы текстового контента с помощью tika 1.6?
- 11. Извлечь метаданные excel в Linux
- 12. Извлечь изображения из PDF с помощью Apache Tika
- 13. Как сравнить два pdf-документа с использованием Apache Tika
- 14. Получить метаданные с помощью JavaScript
- 15. Метаданные в файлах PDF
- 16. Как добавить метаданные в PDF-документ с помощью PDFbox?
- 17. Удаление специальных символов из текста/PDF с помощью Apache Tika
- 18. Как получить информацию о стилях в формате PDF с помощью Apache Tika?
- 19. Извлечь текст из большого pdf с помощью Tika
- 20. Как получить метаданные изображения с помощью AVFoundation?
- 21. Android: Как получить метаданные с помощью libvlc?
- 22. MediaPlayer: как получить метаданные с помощью MediaMetadataRetriever?
- 23. Невозможно извлечь текст с помощью TIKA
- 24. Удалить кеширование PDFont с помощью Apache tika
- 25. получить вложенные ресурсы в файлах doc с помощью apache tika
- 26. Как получить метаданные из файла DMG в Linux?
- 27. Как установить метаданные в формате PDF с использованием ColdFusion (& iText)
- 28. Apache Tika extract отсканированные файлы PDF
- 29. Извлечь текстовые данные из документа с помощью Apache Tika
- 30. Как получить метаданные изображения с помощью perl, php
В операционной системе Windows, которая работает хорошо, но в Linux это не дает дату создания, дату изменения и название Pdf file.So есть ли способ , –
Используется ли в pdf-файле эти свойства? Я считаю, что у него не должно быть зависимостей. На самом деле вышеуказанный код запускается и выводится только из Linux. – Rao
Да, у него есть набор свойств: имя, размер, объем, дата изменения, дата доступа. Но Linux Ubuntu не работает, я попробовал, он дал только значения производителя-создателя –