У меня есть html-документ со статьей. У меня есть несколько тегов, которые я могу использовать для форматирования текста. Но мой текстовый редактор использует много ненужных тегов для форматирования. Я хочу написать программу в Python для фильтрации этих тегов. Какова была бы основная логика (структура, стратегия) такой программы? Я начинаю на Python и хочу изучать этот язык, решая реальную практическую задачу. Но для начала мне нужен общий обзор.Как фильтровать теги html с Python
0
A
ответ
0
Использование BeautifulSoup
:
from BeautifulSoup import BeautifulSoup
html_string = #the HTML code
parsed_html = BeautifulSoup(html)
print parsed_html.body.find('div', attrs = {attrs inside html code}).text
Здесь div
только тег, вы можете использовать любой тег, текст которой вы хотите отфильтровать.
0
Не очень понятно по вашим требованиям, но вы должны использовать готовые парсеры, такие как BeautifulSoup в python.
Вы можете найти tutorial here
0
просто не знают о том, что будет не хватать, но вы можете использовать регулярные выражения.
re.sub('<[^<]+?>', '', text)
выше функция будет искать ...
в противном случае вы можете использовать HTMLparser
from HTMLParser import HTMLParser
class MLStripper(HTMLParser):
def __init__(self):
self.reset()
self.fed = []
def handle_data(self, d):
self.fed.append(d)
def handle_entityref(self, name):
self.fed.append('&%s;' % name)
def get_data(self):
return ''.join(self.fed)
def html_to_text(html):
s = MLStripper()
s.feed(html)
return s.get_data()
Смежные вопросы
- 1. Logstash - Как фильтровать [теги]
- 2. Как фильтровать теги с помощью django-tagging?
- 3. Фильтровать дочерние теги Значения
- 4. Как фильтровать все теги HTML, кроме определенного белого списка?
- 5. Joomla | Как фильтровать входную строку, содержащую html-теги
- 6. предотвратить некоторые HTML теги рендеринга с Python
- 7. Python - удалить избыточный HTML теги
- 8. удаление HTML-теги вывода Python
- 9. Python Селена - HTML-теги доступа с таблицей
- 10. Python вложенной HTML-теги с BeautifulSoup
- 11. Как удалить теги HTML из строк python?
- 12. Как сохранить HTML-теги указано
- 13. Как фильтровать теги bluetooth через приложения Android
- 14. Как фильтровать символы html?
- 15. как фильтровать строку, но сохранить некоторые теги
- 16. Как извлечь td HTML-теги с помощью Python BeautifulSoup?
- 17. как соответствовать HTML теги
- 18. Как печатать html-теги
- 19. Python, удалить все HTML-теги из строки
- 20. Удалить HTML-теги из строки Python
- 21. Удалить данные в HTML-теги - Python
- 22. Как скрыть теги HTML?
- 23. Как есть HTML-теги?
- 24. Как создать HTML-теги?
- 25. Как получить html-теги?
- 26. Как preg_replace html-теги?
- 27. Как preg_replace HTML-теги
- 28. Вычесть теги html Div в python
- 29. Python SQLite Search должен игнорировать HTML-теги
- 30. python append() и удалить html-теги
Вы нашли то, что искали? – Jarvis