Как удалить объекты HTML в строке в Python 3.1?

Я просмотрел все вокруг и нашел решения для python 2.6 и ранее, НИЧЕГО, как это сделать в python 3.X. (У меня есть доступ только к коробке Win7.)Как удалить объекты HTML в строке в Python 3.1?

Я должен иметь возможность сделать это в версии 3.1 и желательно без внешних библиотек. В настоящее время у меня установлен httplib2 и доступ к командной строке curl (вот как я получаю исходный код для страниц). К сожалению, curl не расшифровывает html-сущности, насколько я знаю, я не смог найти команду для его декодирования в документации.

ДА, Я попытался заставить Красивый суп работать, МНОГО ВРЕМЕНИ без успеха в 3.X. Если бы вы могли предоставить инструкции EXPLICIT о том, как заставить его работать на python 3 в среде MS Windows, я был бы очень благодарен.

Итак, чтобы быть ясным, мне нужно повернуть строки следующим образом: Suzy & John в строку типа «Suzy & John».

источник

2010-03-02 Sho Minamimoto

121

Вы можете использовать функцию html.unescape:

В Python3.4 + (спасибо JF Sebastian для обновления):

import html 
html.unescape('Suzy &amp; John') 
# 'Suzy & John' 

html.unescape('&quot;') 
# '"'

In Python3.3 и старше:

import html.parser  
html.parser.HTMLParser().unescape('Suzy &amp; John')

В Python2:

import HTMLParser 
HTMLParser.HTMLParser().unescape('Suzy &amp; John')

источник

2010-03-02 03:00:32 unutbu

Awesome! Тем не менее, я вижу, что только отменяет определенные символы. Например, амперсанд остается скрытым. Не могли бы вы объяснить, почему это? Как отключить эти символы? –

@Sho Minamimoto: Я добавил пример. Надеюсь, поможет? – unutbu

Да, я понял, спасибо! –

Python 3.x имеет html.entities слишком

источник

2010-03-02 03:01:41 YOU

Я не уверен, если это встроенный в библиотеке или нет, но это выглядит как то, что вам нужно, и поддерживает 3.1.

От: http://docs.python.org/3.1/library/xml.sax.utils.html?highlight=html%20unescape

xml.sax.saxutils.unescape (данные, сущности = {}) экранирования в '&', '<', и '>' в строке данных.

Jacob

источник

2010-03-02 03:02:19 TheJacobTaylor

Вы можете использовать xml.sax.saxutils.unescape для этой цели. Этот модуль входит в стандартную библиотеку Python и переносится между Python 2.x и Python 3.x.

>>> import xml.sax.saxutils as saxutils 
>>> saxutils.unescape("Suzy &amp; John") 
'Suzy & John'

источник

2010-03-02 03:03:50

Кажется, что он неполный, '& euml' не расшифровывается с этим, хотя он работает с htmlparser – bcoughlan

По-видимому, у меня нет достаточно высокой репутации, чтобы делать что-либо, кроме как опубликовать это. Ответ unutbu не отменяет цитаты. Единственное, что я обнаружил, что сделал это функция

 
import re 
from htmlentitydefs import name2codepoint as n2cp 

def decodeHtmlentities(string): 
    def substitute_entity(match):   
     ent = match.group(2) 
     if match.group(1) == "#": 
      return unichr(int(ent)) 
     else: 
      cp = n2cp.get(ent) 
      if cp: 
       return unichr(cp) 
      else: 
       return match.group() 
    entity_re = re.compile("&(#?)(\d{1,5}|\w{1,8});") 
    return entity_re.subn(substitute_entity, string)[0]

Что я получил от этого page.

источник

2010-09-26 07:09:13

В моем случае у меня есть строка html, экранированная в as3 escape-функции. После часа поиска в Google не нашли ничего полезного, поэтому я написал эту функцию recusrive для удовлетворения моих потребностей.Здесь,

def unescape(string): 
    index = string.find("%") 
    if index == -1: 
     return string 
    else: 
     #if it is escaped unicode character do different decoding 
     if string[index+1:index+2] == 'u': 
      replace_with = ("\\"+string[index+1:index+6]).decode('unicode_escape') 
      string = string.replace(string[index:index+6],replace_with) 
     else: 
      replace_with = string[index+1:index+3].decode('hex') 
      string = string.replace(string[index:index+3],replace_with) 
     return unescape(string)

Edit-1 функциональность Добавлена для обработки символов Юникода.

источник

2012-10-25 12:52:39 Simanas

Как удалить объекты HTML в строке в Python 3.1?

ответ

Смежные вопросы