2011-10-01 2 views
27

У меня есть текст (значащий текст или арифметическое выражение), и я хочу разбить его на слова.
Если бы я был один разделитель, я хотел бы использовать:Разделите строку на слова несколькими разделителями

std::stringstream stringStream(inputString); 
std::string word; 
while(std::getline(stringStream, word, delimiter)) 
{ 
    wordVector.push_back(word); 
} 

Как я могу разбить строку на лексемы с несколькими разделителями?

+0

Boost.StringAlgorithm или Boost.Tokenizer поможет. –

+0

Или, некоторые идеи вы можете получить из этого ответа: http://stackoverflow.com/questions/4888879/elegant-ways-to-count-the-frequency-of-words-in-a-file – Nawaz

+3

@ K-ballo : В соответствии с вопросом, вы не должны использовать внешние библиотеки, такие как Boost. – deepmax

ответ

36

Предполагая, что один из разделителей является символом новой строки, следующее считывает строку и разделяет ее разделителями. В этом примере я выбрал пространство разделителей, апостроф и полуточку.

std::stringstream stringStream(inputString); 
std::string line; 
while(std::getline(stringStream, line)) 
{ 
    std::size_t prev = 0, pos; 
    while ((pos = line.find_first_of(" ';", prev)) != std::string::npos) 
    { 
     if (pos > prev) 
      wordVector.push_back(line.substr(prev, pos-prev)); 
     prev = pos+1; 
    } 
    if (prev < line.length()) 
     wordVector.push_back(line.substr(prev, std::string::npos)); 
} 
+3

Вы слишком быстро для меня: p Если новая строка не является разделителем, тогда будет просто выбрать один из «обычных» разделителей (и удалить его из внутреннего цикла). –

16

Если у вас есть импульс, вы можете использовать:

#include <boost/algorithm/string.hpp> 
std::string inputString("One!Two,Three:Four"); 
std::string delimiters("|,:"); 
std::vector<std::string> parts; 
boost::split(parts, inputString, boost::is_any_of(delimiters)); 
0

Если вам интересно в том, как сделать это самостоятельно и не использовать импульс.

Предполагая, что строка разделителя может быть очень длинной - скажем, M, проверяя каждый символ в вашей строке, если это разделитель, будет стоить O (M), поэтому делать это в цикле для всех символов в вашем оригинале строка, пусть, по длине N, равна O (M * N).

Я бы использовал словарь (например, карту - «разделитель» для «booleans» - но здесь я бы использовал простой логический массив, который имеет true в значении index = ascii для каждого разделителя).

Теперь итерация по строке и проверка, является ли символ разделителем O (1), что в конечном итоге дает нам O (N) в целом.

Вот мой пример кода:

const int dictSize = 256;  

vector<string> tokenizeMyString(const string &s, const string &del) 
{ 
    static bool dict[dictSize] = { false}; 

    vector<string> res; 
    for (int i = 0; i < del.size(); ++i) {  
     dict[del[i]] = true; 
    } 

    string token(""); 
    for (auto &i : s) { 
     if (dict[i]) { 
      if (!token.empty()) { 
       res.push_back(token); 
       token.clear(); 
      }   
     } 
     else { 
      token += i; 
     } 
    } 
    if (!token.empty()) { 
     res.push_back(token); 
    } 
    return res; 
} 


int main() 
{ 
    string delString = "MyDog:Odie, MyCat:Garfield MyNumber:1001001"; 
//the delimiters are " " (space) and "," (comma) 
    vector<string> res = tokenizeMyString(delString, " ,"); 

    for (auto &i : res) { 

     cout << "token: " << i << endl; 
    } 
return 0; 
} 

Примечание: tokenizeMyString возвращает вектор по значению и создать его в стек первым, так что мы используем здесь власть компилятора >>> РВО - возвращаемое значение оптимизация :)

2

Я не знаю, почему никто не указал ручным способом, но здесь это:

const std::string delims(";,:. \n\t"); 
inline bool isDelim(char c) { 
    for (int i = 0; i < delims.size(); ++i) 
     if (delims[i] == c) 
      return true; 
    return false; 
} 

и функции:

std::stringstream stringStream(inputString); 
std::string word; char c; 

while (stringStream) { 
    word.clear(); 

    // Read word 
    while (!isDelim((c = stringStream.get()))) 
     word.push_back(c); 
    if (c != EOF) 
     stringStream.unget(); 

    wordVector.push_back(word); 

    // Read delims 
    while (isDelim((c = stringStream.get()))); 
    if (c != EOF) 
     stringStream.unget(); 
} 

Таким образом, вы можете сделать что-то полезное с delims, если хотите.

+0

Вы можете перемещать std :: string word; и char c; внутри цикла и избегать использования clear() ...переменные должны быть как можно более локальными и недолговечными. – Mohan

Смежные вопросы