У меня есть текст на польском языке, в котором я хочу, чтобы отфильтровать непольское письмо, но проблема заключается в том, что польские специфических буквы исчезаютPython - неправильное кодирование, регулярное выражение
# coding: utf-8
import re
_NOT_LETTERS = re.compile('[^a-ząćęłóńśżź]+')
text = u'dzień dobry i wszystkiego najlepszego życzę'
data = _NOT_LETTERS.sub(' ', text)
print data
и результат
dzie dobry i wszystkiego najlepszego ycz
вместо ожидаемого
dzień dobry i wszystkiego najlepszego życzę
Как я могу это исправить? Я получаю переменный текст из библиотеки третьей стороны
Шаблон должен использовать строку Юникода слишком: 're.compile (и«[^ а-ząćęłóńśżź] +») 'в противном случае многобайтовые символы рассматриваются как отделенные байты * (то есть: один байт, один знак) *. –
Отлично, он работает. Если вы хотите добавить ответ, и я его приму – Mateo2