Я работаю с данными Twitter, и у меня есть файл с кучей твитов в нем, по одному на строку. Большинство этих твитов были написаны на португальском языке, поэтому у них есть специальные символы, такие как «é», «á» и т. Д.Почему мой скрипт не печатает символы Unicode правильно?
Я пытаюсь отфильтровать стоп-слова из файла и подделать твиты, но после обработки моего сценария напечатайте специальные символы правильно.
Пример:
AT_USER рга Concurso público, tô entrando nessas агоры Porque Emprego бом Tá Foda
Становится:
[u'pra 'u'concurso' , u'p \ xfablico ', u't \ xf4', u'entrando ', u'nessas', u'agora ', u'porque', u'emprego ', u'bom', u't \ xe1 ', u'foda']
Почему у меня есть это «u» перед каждым токеном? И почему «ú» становится «\ xfa»?
Как получить маркеры без «u» и с символами с акцентом, напечатанными правильно?
Здесь в этом gist вы можете проверить текст до, после и сценарий, который я использовал.
Спасибо :)
'u' префикс строки означает * unicode string *, а префикс' b' означает * байтовую строку *. '\ xfa' - это кодировка char, значение ascii которой' FA'. –
@YotamSalmon, но как я могу избавиться от «u» и правильно напечатать акцентированные символы? – 0x7067
'u' - это информация, которую Python добавляет, когда вы используете' print (lst) 'вместо того, чтобы печатать каждый элемент отдельно. – furas