2014-10-30 2 views
0

Я хочу узнать количество страниц doc-файлов с помощью сервера tika. Я запускаю сервер tika;Как получить информацию о количестве страниц с сервера tika?

java -jar tika-server-1.6.jar  

и использовать curl для получения метаданных;

curl -X PUT -T /tmp/test.doc http://localhost:9998/meta 

Выход:

"Revision-Number","0" 
"Last-Printed","1601-01-01T00:00:00Z" 
"cp:revision","0" 
"meta:print-date","1601-01-01T00:00:00Z" 
"meta:creation-date","2014-10-30T06:04:11Z" 
"dcterms:modified","1601-01-01T00:00:00Z" 
"meta:save-date","1601-01-01T00:00:00Z" 
"dc:creator","ndemir " 
"Last-Modified","1601-01-01T00:00:00Z" 
"Author","ndemir " 
"dcterms:created","2014-10-30T06:04:11Z" 
"date","1601-01-01T00:00:00Z" 
"X-Parsed-By","org.apache.tika.parser.ParserDecorator$1","org.apache.tika.parser.microsoft.OfficeParser" 
"modified","1601-01-01T00:00:00Z" 
"creator","ndemir " 
"Creation-Date","2014-10-30T06:04:11Z" 
"meta:author","ndemir " 
"Content-Type","application/msword" 
"Last-Save-Date","1601-01-01T00:00:00Z" 

Как вы видите, нет никакой информации о количестве страниц. Как получить информацию о количестве страниц с сервера tika?

ответ

1

Tika предоставит вам эту информацию только в том случае, если она хранится в файле. Большинство документов Microsoft Office содержат его, но некоторые из них этого не делают. Для них вам необходимо загрузить их в Office, сообщить Office, чтобы пересчитать статистику/количество страниц, а затем сохранить. После того, как это в файле, Тик сможет найти его

Если попытаться одним из документов тестов слова, которое поставляется с Тиком, то мы увидим его:

$ curl -q -X PUT -T tika-parsers/src/test/resources/test-documents/testWORD.doc http://localhost:9998/meta | grep xmpTPg:NPages 
"xmpTPg:NPages","2" 

Для подсчета страниц , вы хотите xmpTPg:NPages, который основан на XMP Paged-Text schema

Смежные вопросы