2015-08-26 2 views
0

мне нужно, чтобы извлечь содержимое из HTML элементов, как <div>some text</div> В этом элементе «некоторый текст» только я хочу на выходе без угловых скобокнужно извлечь содержимое только из HTML элементов DOM

, например

LineNo:1<HTML> 
LineNo:2<HEAD> 
LineNo:3<TITLE>Your Title Here</TITLE> 
LineNo:4</HEAD> 
LineNo:5 <body> 
LineNo:6 Bodycontent Start 
LineNo:7 <div> 
LineNo:8  div content start. 
LineNo:9  <div> 
LineNo:10   subdiv content 
LineNo:11  </div> 
LineNo:12  div content end 
LineNo:13 </div> 
LineNo:14  body content end 
LineNo:15 </body> 
LineNo:16</HTML> 

мне нужен выход, как: стартового номер линия номер строки открывающего тега и содержание содержания этого элемента только не включая содержание дочерних элементов.

начальный номер строки: 3, содержание: Ваше название Здесь содержание номер строки запуска: 5, содержание: Bodycontent Начало содержимого содержимого тела номер строки запуска: 7, содержание: начало содержимого div. ДИВ конечное содержание начало номер строки: 9, содержание: содержание сабдивы

благодарит

+1

Посмотрите на 'jsoup': http://jsoup.org/ – alifirat

ответ

0

Вы можете использовать replaceAll вместе с регулярным выражением <[^<]+> и заменить пустой строкой.

String myStr = ...; 
String myStrExtracted = myStr.replaceAll("<[^<]+>", ""); 
Смежные вопросы