Я пытаюсь очистить текст от веб-сайта JSoup. Я могу получить текст в чистоте (без форматирования вообще, только текст), или со всем прикрепленным форматированием (т. Е. < br> вместе с < p> и </p>).Проблема с форматированием HTML при использовании JSoup для Java
Однако, похоже, я не могу отформатировать форматированную версию < br />, и это единственное, что было запрошено специально для текста.
Например, я могу получить это:
<p><br>Worldwide database</p>
и это:
Worldwide database
, но я не могу получить это, что мой желаемый результат:
Worldwide database<br/>
Я не вижу никаких < br />, глядя на код HTML через плагин FireBug на Firefox, поэтому мне интересно, может ли это быть b e проблема? Или, может быть, есть проблема с методом, который я использую в своем коде, чтобы вытащить текст?
В любом случае, вот мой код:
Elements descriptionHTML = doc.select("div[jsname]"); // <-- Get access to the text w/ JSoup
String descText = descriptionHTML.text(); // <-- Get the code w/o any formating at all
// This prints out the desired text with the <p><br> and </p>, but no <br/>
for (Element link : descriptionHTML)
{
String jsname = link.attr("jsname");
if(jsname.equals("C4s9Ed")){
System.out.println(link);
break;
}
}
Я действительно apprecaite любой помощи в этом вопросе.
Спасибо, Джек
Вы можете включать URL из который вы читаете в формате HTML? –