У меня есть текст внутри html-тегов в документе. Текст выглядит примерно такКак удалить текст между <ref> и </ref >
I need this text <ref> Some unwanted text </ref> I need this text too
и
I need this text <ref Some random text /> I need this text too
Как так я удалить ненужный текст вместе с тегами ограждающих?
Я пробовал использовать это регулярное выражение. Но это не работает.
<ref(.*?)>(.*?)</ref>
и
<ref(.*?)>
Попытка этот путь в Java не помогает:
regex = "<ref(.*?)>(.*?)</ref>";
p = Pattern.compile(regex, Pattern.CASE_INSENSITIVE | Pattern.DOTALL | Pattern.MULTILINE);
m = p.matcher(s);
while(m.find()){
m.replaceAll(" ");
}
Любая идея, как я могу получить решение?
Фактические HTML-теги не будет использовать идентификаторы сущностей, как < –
я пропустил, чтобы добавить, что у меня есть HTML-данные в формате XML в пределах тегов. Я проанализировал тэг xml и извлек данные html. Из этого я должен удалить некоторые нежелательные html-теги. Вот почему теги данных HTML похожи на < и > –