В R Я создал два набора данных, которые я сохранены в виде CSV-файлов с помощьюЗагрузка CSV-файлов в sparkR
liste <-write.csv(liste, file="/home/.../liste.csv", row.names=FALSE)
data <- write.csv(data, file="/home/.../data.csv", row.names=FALSE)
Теперь я хочу, чтобы открыть эти файлы в формате CSV SparkR. Так что я типа
liste <- read.df(sqlContext, "/home/.../liste.csv", "com.databricks.spark.csv", header="true", delimiter= "\t")
data <- read.df(sqlContext, "/home/.../data.csv", "com.databricks.spark.csv", header="true", delimiter= "\t")
Оказывается, что один набор данных «Liste» успешно загружен в SparkR, однако, «данные» не могут быть загружены по каким-то странным причинам.
«liste» - это просто вектор чисел в R, тогда как «data» - это data.frame. Я загрузил в R и удалил некоторые части data.frame. SparkR дает мне эту ошибку-сообщение:
Error: returnStatus == 0 is not TRUE
Набор данных 'liste' может быть загружен успешно в sparkR. В R 'liste' есть вектор 2,3,4,6,9, ... Но 'data' - это csv-файл, который я загрузил в R и внес некоторые изменения. Я сохраняю его как csv-файл, а затем пытаюсь загрузить его в SparkR, который я не могу сделать. –
Файл csv, загруженный в R, составлял около 2 ГБ. Я просто сделал несколько изменений и сохранил их как новый csv-файл с именем «data», но этот csv-файл составляет всего около 33 КБ, что мало. Я нашел это очень странным. –