Любая идея, как избавиться от этого раздражающего персонажа U + 0092 от кучи текстовых файлов? Я пробовал все ниже, но это не работает. Это называется U + 0092 + управления из символьной картыКак избавиться от этого символа Юникода?
sed -i 's/\xc2\x92//' *
sed -i 's/\u0092//' *
sed -i 's///' *
Ах, я нашел способ:
CHARS=$(python2 -c 'print u"\u0092".encode("utf8")')
sed 's/['"$CHARS"']//g'
Но есть прямой СЕПГ метод для этого?
Одиночные кавычки остановят вашу оболочку от разбора любой сдержанной нотации для обратного хода. Я не уверен, что sed сделает это сам, так что, возможно, попробуйте двойные кавычки? –
этот парень сложный. это некие пробелы, это U + 0092, которые появляются в txt, но не отображаются. – alvas
U + 0092 - это никогда не используемый символ управления. Это почти всегда является результатом неправильной кодировки одной правой цитаты '' 'в файле кодовой страницы Windows 1252 как ISO-8859-1. Кодировки очень похожи, но символы, закодированные в байтовом диапазоне 0x80-0x9F, различны. В этом случае вам не следует избавляться от этого или других умных символов кавычек, вы должны просто правильно их прочитать, как ISO-8859-1, или перекодировать файл с 1252 на 8859-1 или UTF-8. – bobince