Я пытаюсь извлечь из файла все допустимые слова. Допустимые слова определяются как обычные символы, которые могут появиться, как так:регулярное выражение
don't won't can't
, и я должен игнорировать периоды запятые и восклицательные знаки.
У меня получилось выражение, чтобы просто получить персонажей, но теперь он не получит таких слов, как don't and can't or won't
.
Это выражение, которое я использую "[^A-Za-z]+"
, и я пробовал "\'[^A-Za-z]+"
, но это прерывает и позволяет использовать все символы. Кто-нибудь знает, что я могу использовать, чтобы получить нормальные слова, в том числе не делать, а не делать, а не может и такие слова.
Большое спасибо
Я делаю [^ A-Za-z \ '] + это прекрасно? – mkuk
Удалите '^', это означает, что ничего не найдено в квадратных скобках! –
если я не делаю, это печатает символы и пробелы, поэтому я добавил, что – mkuk