2010-04-26 2 views
2

Я очищаю HTML с помощью cyberneko и xerces. ! Однако некоторые $ # @@ @@ сайты все еще используют ОБАОчистка смешанного типа <script> теги

<script>...</script> and <script.../> 

Так что это происходит: учитывая

<script..../> <div> Some Text </div> <script> scripting stuff </script> , 

нэко разбирает все выше линии, как сценарий, так что я получаю

<script..../> &lt div &gt Some Text &lt/div &gt &lt script &gt scripting stuff </script> , 

И тогда я потеряю все внутри содержание :(

Любые советы?

+2

LOL, по-видимому, синтаксический анализатор stackoverflow имеет ту же проблему :) – Yossale

+0

Я поражен тем, что кто-либо когда-либо использовал

Смежные вопросы