2017-02-11 8 views
1

Я экспортировал некоторые данные из данных подкладок таблицы, установленных как csv. Когда я пытаюсь его просмотра с less, он говорит, что may be a binary file. See it anyway?Импорт таблицы csv в Spark

Однако, когда я делаю

cat file.csv | cut -d ',' -f 1

Он показывает считываемые данные человека (хотя он не печатает первое поле, но всей линии).

Так я пытаюсь загрузить его в Спарк 2 с:

data = sqlContext.read.csv("file.csv") 
data.show(5) 

И я получаю:

+--------------------+ 
|     _c0| 
+--------------------+ 
|��Cluster ...| 
+--------------------+ 

Любая идея, как я могу сделать dataframe из этого предполагаемого двоичного файла?

+0

, пожалуйста, попробуйте оценить данные вашего Tableu в CSV, используя методы по этой ссылке: http://www.vizwiz.com/2014/03/the-greatest-tableau-tip-ever-exporting.html - вы получаете читать-csv сейчас? – Yaron

ответ

1

В конце концов, я понял, что это текстовый файл UTF-16. поэтому я использовал

iconv -f UTF-16 -t UTF-8//TRANSLIT file.csv > file-utf8.csv 

для преобразования файла в utf-8/ascii и преобразованного файла, загруженного в порядке.