Любые рекомендации по методу преобразования .doc, .ppt и .xls в обычный текст на linux с использованием python? Действительно, был бы полезен любой метод преобразования. Я уже рассмотрел использование Open Office, но мне хотелось бы, чтобы решение не требовало установки Open Office.python конвертировать документы Microsoft Office в обычный текст на linux
ответ
Я бы воспользовался командной строкой-решением (а затем с помощью Python subprocess module запустил инструменты из Python).
конвертеры для MSWord (catdoc), первенствует (xls2csv) и п.п. (catppt) можно найти (в виде исходного кода) здесь: http://vitus.wagner.pp.ru/software/catdoc/.
Нельзя прокомментировать полезность catppt, но catdoc и xls2csv отлично работают!
Но обязательно сначала найдите свои репозитории дистрибутивов ... На ubuntu, например, catdoc - это всего лишь один быстрый способ уйти.
+1 за не использование открытых форматов офисных, так же, как ОП хотел. – Droogans
Обычный инструмент для преобразования документов Microsoft Office в HTML или другие форматы был mswordview, который с тех пор был переименован в vwWare.
Если вы ищете инструмент командной строки, они на самом деле рекомендуется использовать AbiWord, чтобы выполнить преобразование:
AbiWord --to=txt
Если вы ищете библиотеку, начать на wvWare overview page. Они также поддерживают a list of libraries and tools which read MS Office documents.
Для справок с таблицами Excel xlwt это хорошо. Но это не поможет с .doc
и .ppt
файлами.
(Вы можете также слышали о PyExcelerator. Xlwt форк этого и лучше поддерживается, так что я думаю, вы бы лучше не с xlwt.)
Вы можете получить доступ к OpenOffice via Python API.
Попробуйте использовать это в качестве основы: http://wiki.services.openoffice.org/wiki/Odt2txt.py
У меня был некоторый успех при использовании XSLT для обработки файлов на основе XML в нечто, что можно было использовать в прошлом. Это не обязательно решение на основе python, но оно выполняет свою работу.
Такая же проблема здесь. Ниже мой простой скрипт для преобразования всех файлов doc в dir 'docs /' в dir 'txts /' с помощью catdoc. Надеюсь, что это поможет кому-то:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import glob, re, os
f = glob.glob('docs/*.doc') + glob.glob('docs/*.DOC')
outDir = 'txts'
if not os.path.exists(outDir):
os.makedirs(outDir)
for i in f:
os.system("catdoc -w '%s' > '%s'" %
(i, outDir + '/' + re.sub(r'.*/([^.]+)\.doc', r'\1.txt', i,
flags=re.IGNORECASE)))
Ха-ха ... + 1 для использования python ... для использования bash. Хорошая работа, прилипшая к запросам OP ... вроде. ': D' – Droogans
@Droogans: он, он, эти многоязычные быстрые скрипты действительно ироничны. Я начал делать в bash, правила изменения имени выходного файла стали странными, тогда я просто поместил его в скрипт python. Легче использовать модуль подпроцесса, трубы и т. Д. – neves
- 1. Конвертировать документы Microsoft Office в текст
- 2. конвертировать документы microsoft в pdf с nodejs
- 3. Как конвертировать старые документы MS Word в обычный текст?
- 4. Strip Math ML (конвертировать в обычный текст)
- 5. конвертировать html текст в обычный текст
- 6. Как конвертировать вьетнамский текст в обычный текст?
- 7. Как преобразовать текст в обычный обычный текст?
- 8. Как конвертировать текст в формате Юникод в обычный текст
- 9. как конвертировать ASCII "NULL" в обычный текст?
- 10. Конвертировать богатый MarkDown в обычный текст
- 11. как конвертировать html в обычный текст C#?
- 12. конвертировать исполняемый файл unix в обычный текст
- 13. jquery конвертировать HTML-код в обычный текст
- 14. Как конвертировать htmlentities в обычный текст
- 15. Конвертировать веб-страницу в обычный текст ..?
- 16. Ruby: Конвертировать HTML/Redcloth в обычный текст
- 17. Autohotkey - конвертировать в буфер обмена форматированный текст в обычный текст
- 18. Microsoft Office BeforeCloseHandler
- 19. Прочитайте документы Microsoft Word в обычный текст (DOC, DOCX) в Java
- 20. презентации Split и конвертировать Microsoft PowerPoint на сервере Linux
- 21. Новичок в Microsoft Office Macros
- 22. Преобразование XHTML в обычный текст
- 23. Подключение приложений C# и Microsoft Office
- 24. Python: как конвертировать отформатированный текст в текст
- 25. Python: Как изменить метаданные файлов Microsoft Office?
- 26. Использование управления Microsoft Office вне офиса Microsoft Office?
- 27. преобразование формы в обычный текст
- 28. Получить новости и конвертировать в обычный текст php
- 29. Разработка для Microsoft Office 2013 с использованием Microsoft Office 2016
- 30. Классический ASP (VBScript) конвертировать HTML-коды в обычный текст
Я пошел с командной строкой решением – Tim