У меня есть следующий кодкак получить содержимое utf8 закодированный HTML
# __author__ = 'Vahagn'
# -*- coding: utf-8 -*-
import BeautifulSoup
import requests
req = requests.get(u"http://knowledge.allbest.ru/chemistry/3c0a65635a3ad68b5c53b88421306c27.html")
s2 = BeautifulSoup.BeautifulSoup(req.content).find('p',{'class':'text'}).text
print(s2+'\n')
Где Принг s2, утешать или файл writed
Õèìè÷åñêèå ñâîéñòâà. Ìèíåðàëû. Ìåäíûå ñïëàâû. Ìàðêè ìåäíûõ ñïëàâîâ. Ìåäíî-öèíêîâûå ñïëàâû. Ëàòóíè. Îëîâÿííûå áðîíçû. Àëþìèíèåâûå áðîíçû. Êðåìíèñòûå áðîíçû. Áåðèëëèåâûå áðîíçû. Ìåäü â ïðîìûøëåííîñòè. Ìåäü â æèçíè ðàñòåíèé è æèâîòíûõ.
Но нужно
Химические свойства. Минералы. Медные сплавы. Марки медных сплавов. Медно-цинковые сплавы. Латуни. Оловянные бронзы. Алюминиевые бронзы. Кремнистые бронзы. Бериллиевые бронзы. Медь в промышленности. Медь в жизни растений и животных.
Пожалуйста, помогите, как я могу это исправить, поскольку после этого текста (s2) напишите в mysql. Спасибо.
Вы должны действительно использовать beautifulSoup4 –
Он отлично работает для меня, это ваша система кодирования, которая является проблемой. Вы используете python 2 или 3? –
Я использую python 2.7 –