Я пытаюсь написать регулярное выражение в Java, чтобы удалить все из начала <select>
, и конец тега select </>
, как показано ниже. Я написал регулярное выражение, чтобы удалить все, начиная с <start>
тега с пустым, как показано ниже. Проблема в том, что он удаляет все, как ожидалось, за исключением четвертой строки, <select name="first" ... the popular
. Он удаляет все в этой строке и игнорирует содержимое, которое находится в следующей строке, and ... president"/>
. Я хочу включить все, начиная с начала и конца тега. Как я могу это сделать?Регулярное выражение для удаления определенных HTML-тегов
str.replaceAll(".*<start.*", "");
Фактическая ул Строка имеет содержание показано ниже:
<select name="id" content="2454803.html"/>
<select name="nameid" content="2454803"/>
<select name="type" content="prd"/>
<select name="first" content="In 2004, Charlie, the popular
and charismatic senator , became the first president"/>
<select name="title" content="Charlie"/>
<h1>
<!--toc:insert content="checkbox" id="_1_0"/>-->
</h1>
<p class="tocline"><a href="2454803">Table of Contents</a></p>
Вы должны использовать HTML-парсер, чтобы сделать что-то материал – fge
должен быть фильтр, который просто перенаправляет вас на [почему это не сработает] (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454 # 1732454), когда вы помещаете 'regex' и' html/xml' в заголовок! Это и нам нужно «закрыть», потому что речь идет о разборе html с регулярными выражениями »* –
@fge это не html как таковой. Я обрабатываю весь этот html как одно содержимое строки. – user3161879