2016-12-28 3 views
3

Я написал этот код, чтобы декодировать любую подстроку подобные «أنا مبسوطة» проблемы заключается в том, что может принять «أنا سيشسيسشي مبسوطة»Регулярного выражения для арабского языка в питоне

s=ur"أنا سيشسيسشي مبسوطة " 
     pattern=ur"أنا"+"\s"+".*"+ur"ة" 
     l=re.findall(pattern,s) 
     print(pattern) 
     for tweet in l: 
      print(tweet) 
     length=l.__len__() 
     if (length>0): 
      print ("true",length) 
     else: 
      print ("false") 

Я хочу выход быть правдой, если вход «أنا مبسوطة», если вход «أنا سيشسيسشي مبسوطة» неверен. Я использую Python 2

+0

Это ваша работа на дому? ваш шаблон найдет оба входа, если у них какие-либо значения, он даст длину больше 0, –

+0

ok, я хочу изменить регулярное, чтобы принимать только «أنا مبسوطة», а другим нравится –

ответ

0

Вы можете использовать следующий шаблон вместо:

pattern=ur"أنا"+"\s*"+ur"[ا-ي]*"+ur"ة"