Я работаю с набором твитов (очень оригинальный, я знаю) в R и хотел бы извлечь текст после каждого знака @ и после каждого # и поместить их в отдельные переменные , Например:R совпадающее выражение несколько раз в той же строке
Это тестовое твит, использующее #twitter. @johnsmith @joesmith.
В идеале я хотел бы, чтобы создать новые переменные в dataframe, который имеет твиттер JohnSmith joesmith и т.д.
В настоящее время я использую данных $ в < - str_match (данные $ tweet_text "\ s @ \ ш + ") данные $ хэш < - str_match (данные $ tweet_text," \ s # \ w + ")
Это, очевидно, дает мне первое вхождение каждого в новую переменную. Какие-либо предложения?
Это работало для пульса каждое выражение. Есть ли способ поместить вывод в новые переменные в существующем фреймворке? – dhrice
Это не работает в 'data.frame', потому что вы добавляете в столбцы разные числа переменных. Например, если вы добавите «johnsmith» «joesmith» в столбец «at», что вы добавляете в те же строки в столбце «хэш»? Он будет работать в «списке». Я уточню свой ответ. –
Моя первоначальная мысль заключалась в том, чтобы сделать это отдельно. В идеале я хотел бы, чтобы код искал текст для первого шаблона с знаком @ и помещал его в переменную, затем снова выполнял поиск для другого и помещал его во вторую переменную и так далее. Для строк, которые имеют меньше других, введите NA или что-то еще. Если это не так, я думаю, что ваш код заставит меня участвовать в этом, и я смогу работать с чем-то другим. – dhrice