Удаление управляющих символов из строки в Python

Сейчас у меня следующий кодУдаление управляющих символов из строки в Python

def removeControlCharacters(line): 
    i = 0 
    for c in line: 
     if (c < chr(32)): 
      line = line[:i - 1] + line[i+1:] 
      i += 1 
    return line

Это просто не работает, если есть более чем один символ, который будет удален.

источник

2010-12-01 David

Вы можете использовать str.translate с соответствующей картой, например, как это:

>>> mpa = dict.fromkeys(range(32)) 
>>> 'abc\02de'.translate(mpa) 
'abcde'

источник

2010-12-01 13:30:31 SilentGhost

Я бы предложил не использовать `map` в качестве имени переменной , – 2010-12-01 13:43:01

Обратите внимание, однако, что это ядерные новеллы. – mlissner 2011-05-20 07:40:57

Этот код не работает. Я продолжаю получать `TypeError: ожидается ошибка объекта символьного буфера. Python 2.6. – user1476056 2012-10-19 21:09:21

Ваша реализация неправильно, поскольку значение i неверно. Однако это не единственная проблема: она также многократно использует медленные операции с строкой, что означает, что она работает в O (n) вместо O (n). Попробуйте это вместо:

return ''.join(c for c in line if ord(c) >= 32)

источник

2010-12-01 13:31:50

Вы изменяете линию во время итерации по ней. Что-то вроде ''.join([x for x in line if ord(x) >= 32])

источник

2010-12-01 13:33:31 khachik

filter(string.printable[:-5].__contains__,line)

источник

2010-12-01 15:02:45 Kabie

И для Python 2, с встроено translate:

import string 
all_bytes = string.maketrans('', '') # String of 256 characters with (byte) value 0 to 255 

line.translate(all_bytes, all_bytes[:32]) # All bytes < 32 are deleted (the second argument lists the bytes to delete)

источник

2010-12-01 16:02:29 EOL

Есть сотни из управляющих символов в Unicode. Если вы дезинфицируете данные из Интернета или какой-либо другой источник, который может содержать символы, отличные от ascii, вам понадобится unicodedata module Python. Функция unicodedata.category(…) возвращает unicode category code (например, управляющий символ, пробел, букву и т. Д.) Любого символа. Для управляющих символов категория всегда начинается с «C».

Этот фрагмент удаляет все управляющие символы из строки.

import unicodedata 
def remove_control_characters(s): 
    return "".join(ch for ch in s if unicodedata.category(ch)[0]!="C")

Примеры unicode categories:

>>> from unicodedata import category 
>>> category('\r')  # carriage return --> Cc : control character 
'Cc' 
>>> category('\0')  # null character ---> Cc : control character 
'Cc' 
>>> category('\t')  # tab --------------> Cc : control character 
'Cc' 
>>> category(' ')  # space ------------> Zs : separator, space 
'Zs' 
>>> category(u'\u200A') # hair space -------> Zs : separator, space 
'Zs' 
>>> category(u'\u200b') # zero width space -> Cf : control character, formatting 
'Cf' 
>>> category('A')  # letter "A" -------> Lu : letter, uppercase 
'Lu' 
>>> category(u'\u4e21') # 両 ---------------> Lo : letter, other 
'Lo' 
>>> category(',')  # comma -----------> Po : punctuation 
'Po' 
>>>

источник

2013-09-25 22:17:35

всех, кто заинтересован в регулярных выражений класса символов, который соответствует любому Unicode control character[\x00-\x1f\x7f-\x9f] может использовать.

Вы можете проверить это следующим образом:

>>> import unicodedata, re, sys 
>>> all_chars = [chr(i) for i in range(sys.maxunicode)] 
>>> control_chars = ''.join(c for c in all_chars if unicodedata.category(c) == 'Cc') 
>>> expanded_class = ''.join(c for c in all_chars if re.match(r'[\x00-\x1f\x7f-\x9f]', c)) 
>>> control_chars == expanded_class 
True

Таким образом, чтобы удалить управляющие символы с помощью re просто используйте следующее:

>>> re.sub(r'[\x00-\x1f\x7f-\x9f]', '', 'abc\02de') 
'abcde'

источник

2016-09-09 16:37:26 AXO

Удаление управляющих символов из строки в Python

ответ

Смежные вопросы