Начну с самого начала, есть HTML с рисунком, как это:Java Jsoup - элемент не удаляется из элементов
<div id="post_message_(some numeric id)">
<div style="some style things">
<div class="smallfont" style="some style">useless text</div>
<table cellpading="6" cellspaceing=.......> a lot of text inside i dont need</table>
</div>
Text i need
</div>
эти DIV с стилей и что таблица не является обязательным, иногда просто
<div id="post">
Text i need
</div>
И я хочу разобрать этот текст на String. Здесь, S кода, я использую
Elements divsInside = element.getElementById("post_message_" + id).getElementsByTag("div");
for(Element div : divsInside) {
if(div != null && div.attr("style").equals("margin:20px; margin-top:5px; ")) {
System.out.println(div.html());
div.remove();
System.out.println("div removed");
}
}
Я добавил эти строки печати, чтобы проверить, если он находит их, и да, это действительно найти правильные данные, но позже, когда я разбор его строку:
String message = Jsoup.parse(divsInside.html().replaceAll("(?i)<br[^>]*>", "br2n")).text()
.replaceAll("br2n", "\n");
Струна содержит все, что удаляло материал снова по некоторым причинам.
Я попытался удалить их с помощью итераторов или заполнить и удалить элементы по индексам, так что результат будет таким же.
.ownText() thats, что мне нужно, спасибо. –
Btw возможно вытяжка линии разрывов/
вот так? –
Выдержка
, вы имеете в виду удалить
? –