2013-09-23 2 views
0

Я хотел иметь возможность разграничить docx-файл и обнаружил, что, используя следующий код, мы можем извлечь текст из файлов docx. unzip -p some.docx word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g' | fold -w 80Файл конфигурации git для diff docx

Однако я изо всех сил стараюсь включить это в файл gitattribute. Может кто-нибудь прокомментировать, как должен быть изменен таким образом, что мерзавец использует текущий файл вместо HardLink в файл DOCX

Я попытался следующие действия в мерзавца конфигурации этой линии, но это приводит к ошибке:

[diff "word"] textconv= unzip -p $LOCAL | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g' |

+0

Какая ошибка вы получите? – Michael

+0

sed выглядит как ужасный взлом для разбора XML-документа docx. Я бы посмотрел на получение более надежной утилиты для преобразования docx в plaintex. См. Http://stackoverflow.com/questions/5671988/how-to-extract-just-plain-text-from-doc-docx-files-unix – Max

+0

Неверный файл конфигурации git. Я подозреваю, что это синтаксис кода командной строки. - Мыслитель сейчас редактирует – Thinker

ответ

1

Here's a proper solution для этого, просто удаляя струны, что может вызвать у вас головную боль.

+0

Неправильный файл конфигурации git. Я подозреваю, что это синтаксис кода командной строки. – Thinker

Смежные вопросы