Кто-нибудь знает хороший парсер для метаданных документа в python для unix-подобных систем. В Java, apache tika отлично.Парсер метаданных документа на основе Python?
Нет ком ... пожалуйста :)
Благодарности
Кто-нибудь знает хороший парсер для метаданных документа в python для unix-подобных систем. В Java, apache tika отлично.Парсер метаданных документа на основе Python?
Нет ком ... пожалуйста :)
Благодарности
hachoir_metadata прекрасно работает с первенствовать документы http://bitbucket.org/haypo/hachoir/wiki/Home
Вы не должны использовать Jython использовать Тик. Вы можете вызвать Java из Python, используя JCC. Вы можете найти достойные инструкции для этого here.
При установке JCC вам нужно будет использовать один из двух предоставленных исправлений для setuptools, чтобы он мог создавать общие объекты. Версия c7 работала для меня на Ubuntu 10.04.
Другим вариантом является использование модуля подпроцесса python для вызова и записи стандартного файла Tika.
Тика кажется отличным вариантом. Это единственный инструмент, который я нашел (помимо OpenOffice в режиме сервера), который поддерживает старые файлы XLS. Я проделал определенную работу по упрощению интеграции Tika в проект Python, который вы можете найти в this blog post.
Метаданные и «офисный документ» - очень широкие термины. С какими файлами вы работаете? –
Удостоверяете ли вы документами офиса документы, созданные в Microsoft Office? – adamse
документы excel: xlrd не предоставляет информацию метаданных, такую как apache poi – locojay