2013-05-16 2 views
-1

Есть ли способ конвертировать XHTML в обычный текст с использованием Java?Преобразование XHTML в обычный текст

Может ли кто-нибудь направить меня на это?

+2

Вы должны написать код. – woz

+1

Что именно вы подразумеваете под XHTML для простого текста? XHTML - это уже обычный текстовый файл. Попробуйте открыть в редакторе (Блокнот). Вы хотите удалить все теги? Пожалуйста, предоставьте больше информации – Makky

+0

Предположим, что у меня есть ниже XHTML, из чего мне нужно извлечь «Заголовок» и «Тело» в виде обычного текста. Есть ли способ сделать это с помощью сценария Java/Unix. Название документа источник Page

Это тестовая страница.

Aravind

ответ

0

Если вы хотите извлечь специальные данные из структуры XHTML, попробуйте jsoup. Он предоставляет jQuery-подобные методы для извлечения и управления XHTML. Вы можете перебирать все элементы html dom и получать текстовые атрибуты.

Или, если вы хотите удалить html-теги и сохранить только текст, попробуйте использовать регулярные выражения. Посмотрите на это stackoverflow thread.

Смежные вопросы