2017-02-14 2 views
0

Не знаете, почему, но когда я загружаю твиты в json-файле в pandas, я получаю много странных символов.Pandas tweet json weird characters u' '

for file_name in files: 
     if '.json' in file_name: 
      file_path = WORKING_DIR + '/data/' + file_name 

      # Reading the json as a dict 
      with open(file_path) as json_d: 
       data = json.load(json_d, encoding='utf8') 
       json_df = pd.DataFrame.from_dict(data) 
       dfs.append(json_df) 
+0

u' 'означает, что он не смог декодировать символ с кодировкой '' utf-8''. Если вы применяете строгое декодирование, вы получите ошибку вместо u' '. Является ли файл в некоторой другой кодировке? – MYGz

ответ

1

Попробуйте использовать encoding='utf-16' или encoding='utf-8'

для file_name в файлах: если '.json' в имя_файла: file_path = WORKING_DIR + '/ данные /' + имя_файла

 # Reading the json as a dict 
     with open(file_path) as json_d: 
      data = json.load(json_d, encoding='utf-16') 
      json_df = pd.DataFrame.from_dict(data) 
      dfs.append(json_df) 

As @MYGz Рекомендуемый «u' » означает, что он не смог декодировать символ с помощью «utf-8» Итак, попробуйте использовать другую кодировку.

Смежные вопросы