Мне нужно удалить некоторые теги со всего сайта html. В последнее время я обнаружил вариант регулярного выражения в Notepad ++Notepad ++ Regex для удаления стилей
Но .. Даже после нескольких часов в Гуглинг я, похоже, не прав. Что мне нужно?
Пример:
<p class=MsoNormal style='margin-left:19.85pt;text-indent:-19.85pt'><spanlang=NL style='font-size:11.0pt;font-family:Symbol'>·<span style='font:7.0pt "Times New Roman"'> </span></span><span lang=NL style='font-size:9.0pt;font-family:"Arial","sans-serif"'>zware uitvoering met doorzichtige vulruimte;</span></p>
Мне нужно удалить все о стилизации, классов и идентификаторов. Поэтому мне нужно иметь только чистые теги без чего-либо еще.
Любой, кто может мне помочь?
Сердечные приветы
EDIT Проверьте весь файл с помощью Pastebin: http://pastebin.com/0tNwGUWP
Не следует использовать регулярное выражение для разбора HTML: http://stackoverflow.com/a/1732454/2812842 –
'Исправление:' Не следует использовать регулярное выражение проанализировать HTML, когда вовлечены теги, вложенные внутри себя. –
У вас есть '