2015-02-18 3 views
0

Мне нужно удалить все теги html из строки в Java.Java - разделите все теги HTML с помощью JRE System Library

Есть ли простой способ сделать это с помощью JRE System Library?

Просто чтобы убедиться, что вы понимаете, озираясь я нашел много предложений, фреймворки (Jsoup, htmlcleaner, htmlparser, Apache Tika и т.д.), регулярные выражения или маленькие фрагменты кода.

Могу ли я это сделать без введения зависимостей или обработки потенциально искаженного кода?

+0

Я не понимаю, почему вы избегаете внешних зависимостей. Дело в том, что у вас нет такой скорби, когда вам нужно реализовать что-то вроде выше (что для записи будет выглядеть довольно тривиально, но быстро покажется, что это что-то не так) –

+0

Я не против внешнего зависимостей. Я имею в виду, почему у меня должна быть зависимость, когда я могу сделать то же самое, может быть легко, с существующей Системной библиотекой. – freedev

+0

** Вопрос **: если у вас есть это: 'abc def ghi' что вам нравится? 1. 'abcdefghi' или просто' abcghi'? –

ответ

0

Я нашел ответ на этом сайте:

String noHTMLString = htmlString.replaceAll("\\<.*?\\>", ""); 

Посмотреть Stripping HTML tags in Java

+0

Ни один из предложенных ответов не удаляет html-теги с использованием компонента JRE System Library. – freedev

+0

Вы пробовали вышесказанное? Хорошо работает, но он удаляет все типы тегов ... Хотите сохранить теги без html? – Dirk

Смежные вопросы