2012-06-29 3 views
1

Я пытаюсь разобрать папку docx и взять определенную базу элементов на листе или не выделяется определенное слово. Если это текст в документе:Извлечение содержимого и форматирования Docx в python

Foo: Здравствуйте

Boo: Бла Бла

• Бла

• Бла

Choo : Здравствуйте,

Я хотел бы сканировать по строкам и взять весь текст после выделенного жирного слова до следующего полужирного слова.

В настоящее время я использую XML-парсер, который анализирует на основе символов новой строки. Я не могу найти ничего в Zipfile или отдельных строках, которые бы дали мне такие метаданные.

Возможно ли это?

+2

Вы не ищете «разбор файлов в Python с форматированием», а скорее для «содержимого и форматирования Docx в python» или чего-то подобного. Вы посмотрели на [python-docx] (https://github.com/mikemaccana/python-docx/)? – niko

ответ

0

Я бы использовал библиотеку более высокого уровня, которая поддерживает чтение файлов docx, а не анализ XML-документа.

Одна из библиотек, которая подходит к задаче python-docx.

Если вы используете Jython, Apache POI HWPF - это еще один вариант.