2012-06-07 2 views
0

Я хотел бы извлечь текст, содержащийся в тегах HTML. Например:игнорировать некоторые строки с помощью MATLAB

<html><body>this is a warning message. wrongs values</body></html> 

результат должен получить сообщение, игнорируя все теги HTML.

Есть ли у кого-нибудь предложения?

+2

@Iola: Этот вопрос очень плохо сформулирован, так плохо, что я не могу даже предположить, что ты имеешь в виду. Пожалуйста, отредактируйте его, возможно, представите несколько примеров ввода и вывода, покажите нам код, который вы написали до сих пор. –

+0

Что такое balise/balize? – Junuxx

+0

@Junuxx Он означает символы разметки. HTML balise = французский для HTML-разметки (http://fr.wikipedia.org/wiki/Langage_de_balisage) –

ответ

1

Вы можете strip HTML tags с помощью регулярных выражений:

str = '<html><body>this is a warning message. wrongs values</body></html>'; 
str2 = regexprep(str, '<[^>]*>', '') 
+0

Amro, не могли бы вы указать мне некоторые документация о том, как создать регулярное выражение с помощью Matlab, пожалуйста? – lola

+0

@lola: в приведенном выше выражении мы ищем символ '<', за которым следует ноль или более случаев '*' ничего, кроме прямоугольной скобки '[^>]', а затем фактическая закрывающая скобка '>'. В результате мы сопоставляем '<....>' с чем-нибудь промежуточным и просто заменим его пустой строкой, чтобы удалить его. Есть много [ресурсов] (http://www.mathworks.com/help/techdoc/matlab_prog/f0-42649.html) онлайн, вы можете играть с [this] (http://regexpal.com/?flags= g & regex =% 3C [^% 3E] *% 3E & input =% 3Chtml% 3E% 3Cbody% 3Ethis% 20is% 20a% 20warning% 20message.% 20wrongs% 20values% 3C% 2Fbody% 3E% 3C% 2Fhtml% 3E% 0A) tool – Amro

+0

спасибо Amro за ваше объяснение, я пробовал инструмент, но я не знаю, как его использовать? – lola

1

Вы хотите что-то вроде этого:

a = sscanf('<html><body>this is a warning message. wrongs values</body></html>','<html><body>%[a-zA-Z., ]</body></html>') 
Смежные вопросы