2016-06-29 7 views
1

Пусть у меня есть список слов, которые я преобразованы в кадр данныхСсылки на столбцы в Pyspark DataFrame

----- 
| word | 
    ----- 
| cat | 
| bird | 
| dog | 
| ... | 
    ----- 

И я пытался сделать перекличку письмо:

from pyspark.sql.functions import length 

letter_count_df = words_df.select(length(words_df.word)) 

Я знаю, что это приводит к dataframe с единственным столбцом.

Как я могу ссылаться на единственный столбец letter_count_df без использования alias?

------------- 
| length(word) | 
    ------------- 
|   3 | 
|   4 | 
|   3 | 
|   ... | 
    ------------- 

ответ

1

С именем:

>>> letter_count_df.select(c) 
DataFrame[length(word): int] 

или седловине и имя:

>>> from pyspark.sql.functions import * 
>>> letter_count_df.select(c)) 

с c быть постоянным:

>>> c = "length(word)" 

или

>>> c = letter_count_df.columns[0] 
Смежные вопросы