Я пытаюсь использовать аргумент 'columns' функции spark_read_csv(). Я пытаюсь импортировать csv-файл из hdfs с помощью sparklyr, и я хотел бы знать, как можно указать один класс переменных или все классы переменных.Указать классы столбцов с помощью sparklyr
require(sparklyr)
named_vct_colclasses <- c("character", "integer", "integer")
db_in <- spark_read_csv(sc, "spark_tbl_name", "path_to_file",
infer_schema = FALSE,
columns = named_vct_colclasses)
csv импортирован правильно, но я не могу навязывать классы столбцов.
Я попытался использовать именованный вектор, но он не сработал. Это обычная команда read.csv, которую я хотел бы воспроизвести с помощью spark_read_csv()
read.csv("path_to_file", colClasses = c("character", rep("integer", 2))
или
read.csv("path_to_file", colClasses = c("var_name" = "character"))
Благодарности
Я считаю, что он должен быть назван вектор, увы 'имен (named_vct_colclasses) <- vector_of_colnames' – mtoto
Я пытался, но это, кажется, не будет достаточно. Я также искал всю страницу github, но я не нашел пример –