2013-08-21 2 views
0

Что было бы лучшим методом (массив, список, потоковик или словарь) для скрытых анализируемых html innerText и innerhtml (URL), чтобы он мог быть преобразован в XML.лучший способ хранения разобранного HTML-кода для вывода XML-кода

Это первая программа, которую я пытаюсь написать без посторонней помощи, но я застрял на этом. Я не добавил код в этот вопрос, поэтому я могу научиться делать это самостоятельно. Любой совет, который может дать любой, будет с благодарностью оценен.

+3

Не уверен, что я правильно вас понимаю, но почему бы не сохранить его как 'string', а затем использовать' XElement.Parse() ', чтобы сделать его объектом XML. – gunr2171

+0

Используйте Html Agility Pack для анализа HTML-кода, а затем запишите его как действительный XHTML. http://htmlagilitypack.codeplex.com/ ... http://stackoverflow.com/questions/6446525/c-sharp-html-from-webbrowser-to-valid-xhtml –

ответ

2

string потому что HTML редко является действительным XML, и вам нужно запустить его через специализированный парсер до . Попытка получить как можно больше в форме XML.

Но при условии, что вы можете разобрать его, промежуточное звено между строкой и XML будет представлять собой какую-то пользовательскую древовидную структуру. В .NET нет встроенной древовидной структуры, но это достаточно легко создать, и Google укажет вам на миллиард учебников.

Смежные вопросы