2016-04-06 2 views
0

Было бы полезно, если бы вы предоставили решение для этого.Извлечение только одной строки, связанной с атрибутом из фрейма данных

Мне нужна одна строка для уникальных значений col1. Это не должно быть обязательно первой строкой для конкретного значения col1

У меня есть таблица «образец» в улье ..

образец:

col1 col2 col3 

1  a b 
1  c d 
1  e f 
2  g h 
2  i j 
3  k l 

Я хотел бы получить таблицу, как это

sample1:

col1 col2 col3 

1  a b 
2  g h 
3  k l 

Как добиться этого в искре с использованием pytho n?

+0

А что вы пробовали до сих пор? – eliasah

+0

Я новичок в SQL также –

+0

Мы все были новыми в определенный момент, мы узнали о чтении документации и учебников. Так что быть новым - не повод попробовать! – eliasah

ответ

1

Использование Scala вы можете сделать

val rdd: RDD[(Int, String,String)] = ... 
rdd.groupBy(_._1).map(_._2.head) 
0

Чтобы получить первую строку для каждой группы col1:

select col1, first(col2), first(col3) 
from sample 
group by col1 
Смежные вопросы