И я застрял в проблеме, здесь:Почему моя строка треснула?
from lxml.html import parse
from urllib2 import urlopen
import codecs
parsed = parse(urlopen('http://lakgsa.org/?page_id=18'))
doc = parsed.getroot()
links = doc.findall('.//div/a')
print(links[15:20])
lnk=links[3]
lnk.get('href')
print(lnk.get('href'))
print(lnk.text_content())
with codecs.open('hey.json', 'wb', encoding='utf-8') as file:
file.write(lnk.text_content())
И работает над этим, мой убунту терминал и «hey.json» шоу после этого.
'[Вербовка] ë§ì'ë¤ì¤ìì'í ° 2016ë ê¸ë¡ë² ì ì ê³μì ± ëª¨ì§ ê³μê³'
Шрифт перерыв. Я знаю, что это проблема кодирования. Но что бы я ни пытался в других решениях, не удалось.
Как вы читаете и печатаете * содержимое файла? Ваш код правильно выводит UTF-8, но вы читаете этот вывод UTF-8 с неправильной кодировкой, создающей [Mojibake] (https://en.wikipedia.org/wiki/Mojibake). –
Я могу воспроизвести вывод, открыв файл UTF-8 как CP1256. Ваш код Python * отлично *, это то, что вы делаете с файлом после этого, что является проблемой. –
Лучше всего начинать сообщение с цели, которую вы пытаетесь выполнить. «И я застрял в проблеме, вот она« является менее идеальным способом начать вопрос. мы не знаем, что должен делать следующий код. приложите усилия, чтобы привлечь нас. – dbliss