У меня есть программа, которая делает некоторые скриншоты экрана на французской веб-странице и находит определенную строку. После того, как я нашел, я беру эту строку и сохраняю ее. Возвращаемая строка отображается как User does not have a desktop configured.
или на французском языке как L'utilisateur ne dispose pas d'un bureau configuré.
, но на самом деле отображается как: L**\x26#39**;utilisateur ne dispose pas d**\x26#39**;un bureau configur**�**.
Как я могу рассмотреть ее в качестве апострофа '
.Пытается преобразовать строку в правильный формат/кодировку?
Есть ли что-то в C#, которое я могу использовать для чтения Url и возврата правильной фразы.
Я просмотрел множество доступных возможностей C#, но не могу найти тот, который предоставит мне правильный результат.
Пример кода пытался играть с:
// translated the true French text to English to help out with this example.
//
Encoding winVar1252 = Encoding.GetEncoding(1252);
Encoding utf8 = Encoding.UTF8;
Encoding ascii = Encoding.ASCII;
Encoding unicode = Encoding.Unicode;
string url = String.Format("http://www.My-TEST-SITE.com/);
WebClient webClient = new WebClient();
webClient.Encoding = System.Text.Encoding.UTF8;
string result = webClient.DownloadString(url);
cVar = result.Substring(result.IndexOf("Search_TEXT=")).Length ;
result = result.Substring(result.IndexOf("Search_TEXT="), cVar);
result = WebUtility.HtmlDecode(result);
result = WebUtility.UrlDecode(result);
result = result.Substring(0, result.IndexOf("Found: "));
Это возвращает L**\x26#39**;utilisateur ne dispose pas d**\x26#39**;un bureau configur**�**.
, когда он должен вернуться: L'utilisateur ne dispose pas d'un bureau configuré.
.
Я пытаюсь избавиться от \x26#39
и получить соответствующие французские символы, чтобы показать, как é ê è ç â
и т.д.
Любая конкретная причина, по которой вы не хотите использовать надлежащий инструмент, такой как HtmlAgilityPack для веб-шрамов? –
Вы смешиваете много вещей вместе. В принципе, UTF8 - это способ кодирования символов, а Unicode - представление. Я предлагаю вам сначала прочитать эту удивительную статью об этом, и вы поймете, что происходит. http://www.joelonsoftware.com/articles/Unicode.html –
Я не знал о «HtmlAgilityPack», теперь читаю документацию. Что касается сайта Джоэла ... да, я это видел, но это не говорит мне, почему я до сих пор не вижу кодов UTF8 в моем обрыве экрана. Попытка найти идеальный код, чтобы получить правильный текст. – user3147056