2016-12-12 13 views
0
library(sparklyr) 
library(dplyr) 
library(Lahman) 

spark_install(version = "2.0.0") 
sc <- spark_connect(master = "local") 

batting_tbl <- copy_to(sc, Lahman::Batting, "batting"); batting_tbl 

batting_tbl %>% arrange(-index()) 
# Error: org.apache.spark.sql.AnalysisException: Undefined function: 'INDEX'. 
# This function is neither a registered temporary 
# function nor a permanent function registered in the database 'default'.; line 3 pos 10 

Кто-нибудь знает, как использовать dplyr для сортировки по индексу с помощью Spark (sparklyr) DataFrame?Ищите сортировочную базу данных по индексу с помощью SparklyR

ответ

0

Это лучшее решение, которое я мог бы придумать. Хотя корректно, функция sdf_with_unique_id возвращает некоторые очень высокие последовательные значения выше строки 62 000. Независимо от того, это один из способов создать распределенный индексный столбец с SparklyR.

library(sparklyr) 
library(dplyr) 
library(Lahman) 

options(tibble.width = Inf) 
options(dplyr.print_max = Inf) 

spark_install(version = "2.0.0") 
sc <- spark_connect(master = "local") 

batting_tbl <- copy_to(sc, Lahman::Batting, "batting"); batting_tbl 
tbl_uncache(sc, "batting") 

y <- Lahman::Batting 

batting_tbl <- batting_tbl %>% sdf_with_unique_id(., id = "id") # Note 62300 threshold for higher values 
batting_tbl %>% arrange(-id) 
Смежные вопросы