Я сломал веб-страницу с помощью BeautifulSoup. я получил большой выход за исключением части списка выглядят как это после получения текста:Python - Юникод и двойная обратная косая черта
list = [u'that\\u2019s', u'it\\u2019ll', u'It\\u2019s', u'don\\u2019t', u'That\\u2019s', u'we\\u2019re', u'\\u2013']
Мой вопрос в том, как избавиться или заменить эти два раза подряд со специальными символами они.
Если я напечатать первый первый элемент примера список выглядит результат
print list[0]
that\u2019s
я уже читал много других вопросов/потоков по этой теме, но я в конечном итоге еще более запутанной, так как Я новичок, рассматривающий unicode/encoding/decoding.
Я надеюсь, что кто-то может помочь мне в этом вопросе.
Спасибо! MG
@mgruber помню, чтобы принять ответ, если он помог вам – eLRuLL
Если веб-страница буквально содержит escape-последовательности unicode, подобные этому (* that \ u2019s * вместо *, то есть *), beautifulsoup не будет возвращать строки в этой форме. Он вернет текст, не ускользая. Как вы получаете эти строки? – roeland
Я выполнял регулярное выражение в одно и то же время, и похоже, что это была проблема. Есть ли у вас какие-либо специальные объяснения? – mgruber