Я пользуюсь пакетом tm
. У меня есть полный текст html, и я хотел бы удалить все, кроме тегов html. Я пытался сделать это в течение нескольких дней, но, похоже, я не нашел подходящего решения.Удаление всего, кроме html-тегов из корпуса
Например, скажем, у меня есть документ, как это:
<html>
<body>
<h1>hello</h1>
</body>
</html>
Я хотел бы этот документ, чтобы стать, как это:
<html> <body> <h1>
(Или с закрывающими тегами, я не» t really mind.)
Моя цель - подсчитать, сколько раз каждый тег используется в документе.
Это может работать, если он имеет очень простой HTML, но в целом вы не можете разбора HTML с регулярным выражением , Например, это не приведет к вычеркиванию атрибутов. – frankc
@frankc Если вы собираетесь оставить этот комментарий, вы действительно должны ссылаться на [Вопрос] (http://stackoverflow.com/q/1732348/324364). :) – joran