Это мой код:Как удалить символы nonAscii в питоне
#!C:/Python27/python
# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import urllib2
import sys
import urlparse
import io
url = "http://www.dlib.org/dlib/november14/beel/11beel.html"
#url = "http://eqa.unibo.it/article/view/4554"
#r = requests.get(url)
html = urllib2.urlopen(url)
soup = BeautifulSoup(html, "html.parser")
#soup = BeautifulSoup(r.text,'lxml')
if url.find("http://www.dlib.org") != -1:
div = soup.find('td', valign='top')
else:
div = soup.find('div',id='content')
f = open('path/file_name.html', 'w')
f.write(str(div))
f.close()
Зачистка этих веб-страницах я нашел некоторые nonAScii символов в HTML файл, написанном от этого сценария, что мне нужно, чтобы удалить или решить в машиночитаемый символы. Любые советы? Спасибо
сценарий, который вы написали, не вызывает ошибок, в чем проблема с не ascii-буквами? Теперь вы хотите его в файле, который вы пишете? – jcr
Я знаю, что ошибок нет, но в HTML есть некоторые символы, подобные «Â», которые мне нужно удалить. – Poggio
@ Может быть, это поможет вам http://stackoverflow.com/questions/17732695/how-to-return-plain-text-from-beautiful-soup-instead-of-unicode – LetzerWille