2015-08-06 1 views
0

У меня есть набор данных в файле csv, может ли кто-нибудь сказать мне, как развернуть набор данных в определенном столбце, используя программу Apache spark java.Попытка развернуть таблицу с помощью Apache spark Java API

Образец данных:

id | name | city 
1 john Newyork 
2 smith LA 
3 mike Boston 

Я пытаюсь сделать пивот на городской колонке

Результат должен быть:

id | name | Newyork | LA | Boston 
1 john  1  0  0 
2 smith  0  1  0 
3 mike  0  0  1 

..Thanks и заранее

+1

Я думаю, вам нужно переформатировать свои данные примера – mattinbits

ответ

1

вы могли бы использование mllib разреженных и плотных векторов: https://spark.apache.org/docs/latest/mllib-data-types.html

вы можете создать таблицу поиска один для имен, а другой для города с RDD.zipWithUniqueId, который дает Long преобразовать его в double и использовать удвоения для подачи в плотный вектор. Надеюсь, что помогает.

Смежные вопросы