Я очищаю HTML с помощью cyberneko и xerces. ! Однако некоторые $ # @@ @@ сайты все еще используют ОБАОчистка смешанного типа <script> теги
<script>...</script> and <script.../>
Так что это происходит: учитывая
<script..../> <div> Some Text </div> <script> scripting stuff </script> ,
нэко разбирает все выше линии, как сценарий, так что я получаю
<script..../> < div > Some Text </div > < script > scripting stuff </script> ,
И тогда я потеряю все внутри содержание :(
Любые советы?
LOL, по-видимому, синтаксический анализатор stackoverflow имеет ту же проблему :) – Yossale
Я поражен тем, что кто-либо когда-либо использовал (самозакрытые теги скриптов). Это так мало неприятностей для вывода закрывающего тега, и награды настолько велики (полная совместимость), что вы задаетесь вопросом, где они думают, что победа для них в этом? – Robusto
@Robusto, я полностью согласен. Самое неприятное в том, что это основные сайты содержания лиги! – Yossale