Мне нужно удалить все символы, такие как {} &+()" =!.?.:../| » © : >< # « ,] _ - + ; [ ]
, включая цифры из файла.Регулярное выражение не работает
import codecs
import re
def clean_symbol() :
symbols = re.compile(r'[{} &+()" =!.?.:../| » © : >< # « ,] _ - + ; [ ] % 1, 2,3',flags=re.UNICODE)
with codecs.open("e.txt","r") as fileobject:
for line in fileobject:
good_words = symbols.sub(" ",line)
print(good_words)
with codecs.open("/home/corpus/Clean_tex1t.txt",'a',encoding="utf-8") as out:
out.write(good_words)
Это код, чтобы удалить символ из текстового файла Unicode, но код производит ожидаемые результаты. Input
« »
_ _468 60_1");
_ " :1004 :1000; ;"
:1004 :0 ;"
" :0099 ;"
_ 2" :68 :14 3300 ( 12 _ . ) 68 -137 ;" " :4 20 5 12 ;" . "
"
സര്ക്കാര്ജീവനക്കാരുടെ ശമ്പളം അറിയാന് ഭാര്യമാര്ക്ക് അവകാശമുണ്ട്വിവരാവകാശകമ്മീഷന്
" ="_ " :8 ;"
" ="_ "
" ="_ "
Ожидаемый результат
സര്ക്കാര്ജീവനക്കാരുടെ ശമ്പളം അറിയാന് ഭാര്യമാര്ക്ക് അവകാശമുണ്ട്വിവരാവകാശകമ്മീഷന്
код не работает вообще. В чем проблема?
Это не последняя строка. Он смешивается с символами. –
. Ваше регулярное выражение в основном ищет литеральную строку '_ - +; % 1, 2,3', с префиксом еще одного знака. Я не думаю, что это то, чего вы хотели достичь. Можете ли вы уточнить, что должно и не должно делать регулярное выражение? – Boldewyn
@PeterWood Нет, проблема отличается здесь, пожалуйста, проверьте код –