2010-02-10 2 views
3

Кто-нибудь знает хороший парсер для метаданных документа в python для unix-подобных систем. В Java, apache tika отлично.Парсер метаданных документа на основе Python?

Нет ком ... пожалуйста :)

Благодарности

+3

Метаданные и «офисный документ» - очень широкие термины. С какими файлами вы работаете? –

+0

Удостоверяете ли вы документами офиса документы, созданные в Microsoft Office? – adamse

+0

документы excel: xlrd не предоставляет информацию метаданных, такую ​​как apache poi – locojay

ответ

1

Если вам нравится ТИК, вы всегда можете использовать Jython, так что вы можете ссылаться на TIKA непосредственно.

+1

уверен, что искал простой пакет python – locojay

3

Вы не должны использовать Jython использовать Тик. Вы можете вызвать Java из Python, используя JCC. Вы можете найти достойные инструкции для этого here.

При установке JCC вам нужно будет использовать один из двух предоставленных исправлений для setuptools, чтобы он мог создавать общие объекты. Версия c7 работала для меня на Ubuntu 10.04.

Другим вариантом является использование модуля подпроцесса python для вызова и записи стандартного файла Tika.

1

Тика кажется отличным вариантом. Это единственный инструмент, который я нашел (помимо OpenOffice в режиме сервера), который поддерживает старые файлы XLS. Я проделал определенную работу по упрощению интеграции Tika в проект Python, который вы можете найти в this blog post.

Смежные вопросы