Im пытается отфильтровать URL-адреса из строки, содержащей множество специальных символов, пробелов и URL-адресов. Я пытался использовать регулярное выражение, но он терпит неудачу, ему иногда удается выровнять URL-адрес, но на выходе все еще содержатся специальные символы и пустое пространство, поэтому я здесь. С наилучшими пожеланиями PОтфильтровать URL из строки
string str;
std::ifstream in("c:/Users/Petrus/Documents/History", std::ios::binary);
std::stringstream buffer;
if (!in.is_open()){
cout << "Failed to open" << endl;
}
else{
cout << "Opened OK" << endl;
}
buffer << in.rdbuf();
std::string contents(buffer.str());
std::ofstream out("urls.txt");
unsigned counter = 0;
std::regex word_regex(
R"(^(([^:\/?#]+):)?(//([^\/?#]*))?([^?#]*)(\?([^#]*))?(#(.*))?)",
std::regex::extended
);
auto words_begin = std::sregex_iterator(contents.begin(), contents.end(), word_regex);
auto words_end = std::sregex_iterator();
for (std::sregex_iterator i = words_begin; i != words_end; ++i) {
std::smatch match = *i;
std::string match_str = match.str();
for (const auto& res : match) {
counter++;
std::cout << counter++ << ": " << res << std::endl;
}
std::cout << " " << match_str << '\n';
}
system("PAUSE");
return 0;
}
Вы можете быть в состоянии уйти с более простым 'regex' в зависимости от содержимого файла данных. – Galik
Регулярное выражение почти наверняка будет здесь, но мы не сможем помочь вам отлаживать регулярное выражение, если вы не можете привести примеры входов, на которых он не работал. –
Вот начало файла im try filter from. Ссылки на url находятся в файле вниз. http://pastebin.com/wA9N1Gbi –