1
CREATE TABLE employee_details(              
emp_first_name varchar(50), 
emp_last_name varchar(50), 
emp_dept varchar(50) 
) 
PARTITIONED BY (
emp_doj varchar(50), 
emp_dept_id int ) 
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe'         
STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileInputFormat'          
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.RCFileOutputFormat'; 

Расположение улья таблицы сохраненная/данные/склад/employee_detailsКак создать RDD из RC файла, используя данные, которые распределяли в улей таблице

Я улей сотрудник таблицы загружается с данными и разделяется emp_doj, emp_dept_id и FileFormat - это формат файла RC.

Я хотел бы обработать данные в таблице с использованием spark-sql без использования контекста hive (просто используя sqlContext).

Не могли бы вы мне помочь в том, как загрузить секционированных данные улья таблицы в РДУ и конвертировать в DataFrame

+0

вы можете использовать 'sqlContext.sql ("выберите * из employee_details")' – Shankar

+0

какая версия искрой вы используете? – Shankar

ответ

0

Если вы используете Спарк 2.0, вы можете сделать это таким образом.

val spark = SparkSession 
    .builder() 
    .appName("Spark Hive Example") 
    .config("spark.sql.warehouse.dir", warehouseLocation) 
    .enableHiveSupport() 
    .getOrCreate() 

import spark.implicits._ 
import spark.sql 

// Queries are expressed in HiveQL 
sql("SELECT * FROM src").show() 
Смежные вопросы