2015-12-01 2 views
0

Я новичок в Spark. Сейчас я пытаюсь объединить два DataFrames. Я хочу сохранить свои данные в 5000 строк. Поскольку мой первый DataFrame уже получил 5000 строк, мне нужно получить последние 4000 строк, так как мой второй фреймворк имеет 1000 строк. Может ли кто-нибудь помочь мне в том, как получить фрейм данных с последними 4000 строк в первом фреймворке? Заранее спасибо.Искра dataframe как получить последние n строк с помощью java

+0

Просьба указать [Минимальный, полный и проверенный пример] (http://stackoverflow.com/help/mcve). Является ли ваш формат данных отсортированным? –

ответ

2

Я не уверен, что вы действительно надеетесь достичь таким образом, но если вы в Спарк 1.5 вы могли бы сделать что-то подобное с помощью monotonicallyIncreasingId:

val df4000 = df.sort(monotonicallyIncreasingId().desc).limit(4000) 

, который будет сортировать по убыванию закажите по идентификатору для каждой строки в фрейме данных, затем ограничьте результаты до первого 4000.

В противном случае вы можете сделать то же самое, используя любой столбец, который, как вы знаете, постоянно увеличивается.

+0

Я искал то же самое. Просто чтобы убедиться, что df.take (100) должен дать мне первые 100 строк, а затем df.sort (monotonicallyIncreasingId(). Desc) .limit (100) wshould дать последние 100, правильно? –

Смежные вопросы