Как удалить вхождения \ *** в строке

Я просматриваю PDF-файл, который я преобразовал его содержимое в строки, и есть много вхождений символа \ *** (* означает любой символ), происходящего внутри слов. Например:Как удалить вхождения *** в строке

сделки, золотая середина казалась работоспособной \ XE2 \ x80 \ x94norms четко сформулированы, подкрепленные санкциями соответствующих профессиональных ассоциаций

Использование text.replace("\\***","") явно не работает, и поэтому я был глядя на использование re.sub().

У меня возникли проблемы с синтаксисом (выражения reg), чтобы внести в аргументы и надеялся на какую-то помощь в этом.

источник

2017-01-16 borrimorri

Является '*' буквально звездочка или просто какой-нибудь символ? – DyZ

Вы пробовали 'text.replace (" \\ *** "," ")'? – fafl

* означает любой символ @DYZ – borrimorri

как бой text.decode("utf8") ... вот что я думаю, что вы на самом деле хотите сделать

или вы могли бы лишить их с

text.decode("ascii","ignore")

(в Python 3 Вы, возможно, потребуется использовать codecs.decode(text,"ascii","ignore") (не совсем уверен, что от руки))

источник

2017-01-16 22:33:39

Игнорирование их является плохим идея, потому что слова слева и справа объединяются. – DyZ

Я, конечно, не согласен ... я просто понял, что игнорировать было больше в соответствии с исходным вопросом ... –

Это сработало фантастически, спасибо! – borrimorri

вы можете использовать ^ не фильтровать ни ASCII/UTF8 персонажу

import re 
text = re.sub(r'[^\x00-\x7F]', ' ', text)

результат будет

'transaction, a middle ground has seemed workablenorms explicitly articulated, backed by sanctions of the relevant professional associations'

источник

2017-01-16 22:36:18 sgDysregulation

Спасибо, сделано ! – sgDysregulation

Как удалить вхождения \ *** в строке

ответ

Смежные вопросы