2012-07-03 3 views
1

Существует веб-сайт, который является недействительным XHTML (некоторые закрывающие теги отсутствуют).Как сохранить недействительный сайт XHTML как действительный XML

Я хочу обработать его содержимое с помощью XSLT, но, следовательно, мне нужен действительный ввод XML.

Возможно ли сохранить документ DOM, созданный браузером из недопустимого ввода XHTML в качестве действительного XML/XHTML?

+0

На самом деле это не XHTML. Если документ не был правильно сформирован и он все еще отображается в браузере, вы отправляете текст «text/html» MIME type => это HTML, независимо от того, какой тип doctype вы используете, и вы не можете использовать XSLT непосредственно в документе. – duri

ответ

2

Да, это так. Существует несколько библиотек, которые могут обрабатывать недопустимую разметку и возвращать ее как действительный xml/xhtml. Один из них аккуратные http://tidy.sourceforge.net/

Если у вас есть доступ к веб-сайту, вы можете распечатать вывод в буфер, а затем очистить его ... КСТАТИ: Valid XHTML также действует XML.

1

Если вы используете .NET как технологию на стороне сервера, вы можете попробовать Html Agility Pack. Он может загружать недействительный HTML/XHTML и преобразовывать его в действительный XML.

Смежные вопросы