Я использую R и имею большой размер данных твитов. Мне нужен grep-вызов, который будет выбирать твиты, которые состоят из ничего, кроме hashtags (хотите исключить их из окончательного фрейма данных).Регулярное выражение для твитов, содержащих только хэштеги
Мои первоначальные усилия Grep:
hashtagonly_tweets_INDEX = grep("^#\\w*[^\\w]", allTweets$V1,
value=F,
ignore.case = T,
fixed=F)
Я надеялся, что это было бы выбрать несколько слов, начинающихся с хэштегом #^\ ш *, а не выбирать слова без хэштегом [^ \ ш].
Однако я четко кончусь талант в этот момент, как типы твитов это накапливает все еще содержит текст среди хэштег, например:
#wtf даже происходит прямо сейчас. этот грузовик водит 50 по центру шоссе. #learntodrive
#WhatGrindsMyGears Когда кто-то вытаскивает передо мной, то никогда не переходит на ограничение скорости или выше. #roadrage
#Traffic в #Westminster #travel #roadrage #transport #London #tourism #sightseeing #dark #clouds
Любой совет высоко ценится,
благодаря
Вы хотите только извлечь '# wtf' из первой строки' #WhatGrindsMyGears, # roadrage' из 2-й строки ...? – akrun
При запросе справки по регулярному выражению укажите четкий ввод и желаемый результат. Обязательно включайте положительные и отрицательные результаты. Вы должны быть максимально ясными. На всех ваших примерах, по-видимому, есть хотя бы одно слово, которое не является хэштегом. – MrFlick
Возможно, вы захотите изучить 'qdapRegex :: rm_hash' –