Я новичок в Python, так что это может показаться очень простым. Я пытаюсь удалить все цифры #, и если одна и та же буква повторяется более двух раз подряд, мне нужно изменить ее только на две буквы. Эта работа отлично, но не с ØÆÅ.Python regex с буквами ØÆÅ
Любые идеи, как это можно сделать с помощью букв ØÆ?
#!/usr/bin/python
# -*- coding: utf-8 -*-
import math, re, sys, os, codecs
reload(sys)
sys.setdefaultencoding('utf-8')
text = "ån9d ånd ååååånd d9d flllllløde... :)asd "
# Remove anything other than digits
text = re.sub(r'#', "", text)
text = re.sub(r"\d", "", text)
text = re.sub(r'(\w)\1+', r'\1\1', text)
print "Phone Num : "+ text
В результате я получаю сейчас:
Phone Num : ånd ånd ååååånd dd flløde... :)asd
Что я хочу:
Phone Num : ånd ånd åånd dd flløde... :)asd
Мы освещали это раньше, не так ли? Используйте Unicode, а не байтовые строки. –
Из моего [ответа на ваш предыдущий вопрос] (http://stackoverflow.com/questions/16549161/python-re-compile-and-split-with-charcters/16549766#16549766): * В Python 2 вы бы используйте [пример строки юникода], обратите внимание на главный префикс u на строку * и * [регулярное выражение с набором re.UNICODE] *. –
Привет @MartijnPieters, просмотрев комментарии, попробуйте что-нибудь, что я нашел решение. – boje