2014-12-03 3 views
0

Я искал парсер HTML и придумал tidy. Дело в том, что теперь, когда я его установил, я не могу найти, как удалить все теги HTML (а также функцию javascript, если это возможно). Пример кода превращает html в XHTML, и я начинаю чувствовать, что загрузил не подходящий пакет, не смог найти никаких документов/руководств, которые его объясняют.Как удалить все HTML-теги с tidy

Любые предложения о том, как это можно сделать с аккуратным?

EDIT: Как я понял, аккуратный является HTML-парсер, что я пытаюсь достичь, это оставить только простой тест т.е: <h3>Test</h3> придет в Test

+2

Я не уверен, что понимаю, что это вы пытаетесь сделать ... удалить все HTML и JavaScript не оставляет многого. Tidy предназначена для реструктуризации (организации) вашего кода, чтобы сделать его более читаемым (да, я знаю, что это не полное объяснение). – rfornal

+0

@rfornal привет, пожалуйста, прочитайте edit –

+0

Tidy - это синтаксический анализатор в том смысле, что он прокладывает себе путь через код, реорганизуя его. Это не снимает HTML ... на самом деле я не уверен, что видел что-то подобное. – rfornal

ответ

0

Tidy в основном используется для очистки HTML-страниц. Вы можете отправить вывод Tidy в libxml ++ для анализа созданного XHTML.

Для примера с использованием libxml ++ обратитесь к этой ссылке Parsing a XHTML using libxml++ Вы можете использовать один из трех парсеров для синтаксического анализа строки и получения только текста без каких-либо тегов.

Смежные вопросы