2008-11-30 3 views
13

Я пересматриваю старый старый код и наткнулся на метод получения заголовка веб-сайта на основе его URL-адреса. На самом деле это не так, как вы бы назвали стабильным методом, поскольку он часто не дает результата, а иногда даже дает неправильные результаты. Кроме того, иногда он не может показать некоторые символы из названия, поскольку они имеют альтернативное кодирование.Как получить название сайта из C#

Есть ли у кого-нибудь предложения по улучшению этой старой версии?

public static string SuggestTitle(string url, int timeout) 
{ 
    WebResponse response = null; 
    string line = string.Empty; 

    try 
    { 
     WebRequest request = WebRequest.Create(url); 
     request.Timeout = timeout; 

     response = request.GetResponse(); 
     Stream streamReceive = response.GetResponseStream(); 
     Encoding encoding = System.Text.Encoding.GetEncoding("utf-8"); 
     StreamReader streamRead = new System.IO.StreamReader(streamReceive, encoding); 

     while(streamRead.EndOfStream != true) 
     { 
      line = streamRead.ReadLine(); 
      if (line.Contains("<title>")) 
      { 
       line = line.Split(new char[] { '<', '>' })[2]; 
       break; 
      } 
     } 
    } 
    catch (Exception) { } 
    finally 
    { 
     if (response != null) 
     { 
      response.Close(); 
     } 
    } 

    return line; 
} 

одно замечание - я хотел бы код, чтобы работать быстрее, а также, так как он не блокирует до страницы, как было неправдоподобным, так что, если я могу получить только заголовок сайта, а не всю страницу, она будет будь велика.

ответ

33

Более простой способ получить содержание:

WebClient x = new WebClient(); 
string source = x.DownloadString("http://www.singingeels.com/"); 

Более простой, более надежный способ получить название:

string title = Regex.Match(source, @"\<title\b[^>]*\>\s*(?<Title>[\s\S]*?)\</title\>", RegexOptions.IgnoreCase).Groups["Title"].Value; 
0

Чтобы выполнить это, вам понадобится сделать несколько вещей.

  • Сделайте свое приложение потоковым, чтобы вы могли обрабатывать несколько запросов в то время и максимизировать количество HTTP-запросов, которые создаются.
  • Durring запроса асинхронного скачать только количество данных, которые вы хотите, чтобы тянуть назад, вы, вероятно, могли бы сделать синтаксический анализ на данных, как это происходит снова ищет
  • Возможно хотят использовать регулярные выражения, чтобы вытащить имя заголовка

Я сделал это раньше с помощью SEO-роботов, и я смог обрабатывать почти 10 000 запросов за один раз. Вам просто нужно убедиться, что каждый веб-запрос может содержаться в потоке.

+0

Вы, конечно, * не * нужно дать каждому запросу свой собственный если вы хотите обрабатывать 10 000 запросов одновременно! (При использовании стека ваша память будет похожа на сумасшедшую.) Использование асинхронного API будет распараллелить операцию * без * затрат на поток для каждого запроса. – 2008-11-30 20:34:00

+0

Это спорный вопрос, поскольку мне нужно выполнить только один запрос за раз. Потребность в скорости связана с тем, что пользователь ждет ответа. – 2008-11-30 20:51:28

Смежные вопросы