Во время анализа твитов я запускаю слова «, которые имеют либо \, либо/(могут иметь более одного вида в одном« слове »). Я хотел бы иметь такие слова удалены полностью, но не совсем прибить этотУдаление слов со специальными символами «» и «/»
Это то, что я пробовал:
sen = 'this is \re\store and b\\fre'
sen1 = 'this i\s /re/store and b//fre/'
slash_back = r'(?:[\w_]+\\[\w_]+)'
slash_fwd = r'(?:[\w_]+/+[\w_]+)'
slash_all = r'(?<!\S)[a-z-]+(?=[,.!?:;]?(?!\S))'
strt = re.sub(slash_back,"",sen)
strt1 = re.sub(slash_fwd,"",sen1)
strt2 = re.sub(slash_all,"",sen1)
print strt
print strt1
print strt2
Я хотел бы получить:
this is and
this i\s and
this and
Однако, я получаю:
and
this i\s/and/
i\s /re/store b//fre/
Для добавления: в этом случае слово «слово» представляет собой строку, разделенную пробелами или знаками пунктуации ns (как обычный текст)
Красиво задал вопрос. Хотелось бы, чтобы был шаблон вопроса, который следовало использовать, если следовать чему-то подобному. – d0nut
@iismathwizard Мне пришлось перезагрузить страницу, чтобы проверить, правильно ли мои глаза –