Я беспомощен на регулярных выражениях, поэтому, пожалуйста, помогите мне в решении этой проблемы.Регулярное выражение, чтобы раздеть все, кроме слов
В основном я загружаю веб-страницы и rss-каналы и хочу разделить все, кроме простых слов. Нет периодов, запятых, if, ands и buts. Буквально у меня есть список самых распространенных слов, используемых на английском языке, и я также хочу их разбить, но я думаю, что знаю, как это сделать, и не нужно регулярное выражение, потому что это будет действительно длинный путь.
Как отделить все от фрагмента текста, кроме слов, которые ограничены пробелами? Все остальное идет в мусор.
Это работает достаточно хорошо благодаря Павлу .split(/[^[:alpha:]]/).uniq!
насчет апострофа (или даже апострофа зеленной лавки)? –
не работает. – s84
nokogriri, вероятно, является лучшим решением здесь, потому что это парсер HTML, и я думаю, что не следует использовать регулярное выражение для этого. – s84