Я пытаюсь разобрать, манипулировать, и вывод HTML с использованием ElementTree Питона:Python ElementTree не преобразует неразрывные пробелы при использовании UTF-8 для вывода
import sys
from cStringIO import StringIO
from xml.etree import ElementTree as ET
from htmlentitydefs import entitydefs
source = StringIO("""<html>
<body>
<p>Less than <</p>
<p>Non-breaking space </p>
</body>
</html>""")
parser = ET.XMLParser()
parser.parser.UseForeignDTD(True)
parser.entity.update(entitydefs)
etree = ET.ElementTree()
tree = etree.parse(source, parser=parser)
for p in tree.findall('.//p'):
print ET.tostring(p, encoding='UTF-8')
Когда я бегу это с помощью Python 2.7 на Mac OS X 10.6, я получаю:
<p>Less than <</p>
Traceback (most recent call last):
File "bar.py", line 20, in <module>
print ET.tostring(p, encoding='utf-8')
File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/xml/etree/ElementTree.py", line 1120, in tostring
ElementTree(element).write(file, encoding, method=method)
File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/xml/etree/ElementTree.py", line 815, in write
serialize(write, self._root, encoding, qnames, namespaces)
File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/xml/etree/ElementTree.py", line 931, in _serialize_xml
write(_escape_cdata(text, encoding))
File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/xml/etree/ElementTree.py", line 1067, in _escape_cdata
return text.encode(encoding, "xmlcharrefreplace")
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 19: ordinal not in range(128)
Я думал, что определение «кодирование =" UTF-8»будет заботиться о неразрывном пробеле, но, видимо, это не так. Что мне делать вместо этого?
Проблема не на входе: трюк UseForeignDTD отлично подходит для этого. Проблема заключается в выходе: текст в памяти содержит 0xA0, который, как я ожидал, будет преобразован в его представление UTF-8 с помощью ET.tostring (так как я сказал «encoding =« UTF-8 »). –