2012-12-12 2 views
1

Это для Matlab. У меня есть твит, и мне нужно найти то, что говорят хэштеги. Я знаю, что могу выделить и сохранить переменную все, что начинается с «#» и заканчивается «с помощью regexp». Но, когда я используюregexp, чтобы найти hashtags

tweet = 'it is fun to post on #stackoverflow, really #itis'; 
    regexp(tweet,'#(\w+)','tokens','once') 
    ans = 
     'stackoverflow' 

Я только получу первый #. Как я могу сделать так, чтобы я мог получить «itis» #?

ответ

0

Я думаю, что это то, что вы ищете:

regexp(tweet,'#(\w+)','match') 
ans = 
'#stackoverflow' '#itis' 

Однако, кажется, что вы знаете больше о Regex, чем я, так что я думаю, вы знаете, как получить избавиться от # в строке.

4

once возвращает только первое совпадение .... Бросьте это, если вы этого не хотите.

+0

Когда я это делаю, он отображает только массивы ячеек (т. Е. {1x1 cell} {ячейка 1x1} {ячейка 1x1}). Мне нужен фактический текст. – Natasha

+0

... это то, что означает «токены» ... [выберите нужный результат] (http://www.mathworks.nl/help/matlab/ref/regexp.html#bsyicm1-5) , это все в документах ... – Wrikken

+0

Итак, что я буду использовать в этом случае? – Natasha

0

В соответствии с документацией на matlab вам необходимо удалить «один раз». Источник: http://www.mathworks.com/help/matlab/ref/regexp.html

+0

Правильно, но, когда это удалено, он не показывает мне текст после #. Это то, что мне нужно делать. – Natasha

Смежные вопросы