Я хотел иметь возможность разграничить docx-файл и обнаружил, что, используя следующий код, мы можем извлечь текст из файлов docx. unzip -p some.docx word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g' | fold -w 80
Файл конфигурации git для diff docx
Однако я изо всех сил стараюсь включить это в файл gitattribute. Может кто-нибудь прокомментировать, как должен быть изменен таким образом, что мерзавец использует текущий файл вместо HardLink в файл DOCX
Я попытался следующие действия в мерзавца конфигурации этой линии, но это приводит к ошибке:
[diff "word"] textconv= unzip -p $LOCAL | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g' |
Какая ошибка вы получите? – Michael
sed выглядит как ужасный взлом для разбора XML-документа docx. Я бы посмотрел на получение более надежной утилиты для преобразования docx в plaintex. См. Http://stackoverflow.com/questions/5671988/how-to-extract-just-plain-text-from-doc-docx-files-unix – Max
Неверный файл конфигурации git. Я подозреваю, что это синтаксис кода командной строки. - Мыслитель сейчас редактирует – Thinker