У меня есть медленно изменяющиеся метаданные, которые хранятся в режиме реального времени на HDFS. Я хотел бы написать задание на свиньи, которое конденсирует эти строки до самой последней строки для каждого ключа.Получить последнюю строку по метке в свине
Например, для этих данных (заголовки столбцов добавлены для ясности):
ts meta key
-- ---- ---
1 foo id1
2 que id2
3 que id2
4 foo id1
5 pasa id2
6 pasa id2
7 foo id1
8 pasa id2
9 pasa id2
10 pasa id2
11 pasa id2
12 hombre id2
13 foo id1
14 foo id1
15 hombre id2
16 bar id1
17 bar id1
18 bar id1
19 bar id1
20 bar id1
Я хотел бы ожидать, чтобы получить выход:
15 hombre id2
20 bar id1
Я только начинаю изучать входы и выходы из Pig Latin - есть ли встроенный способ сделать это у свиньи или какой-нибудь библиотеки уже, или я должен смотреть на запись UDF?
Спасибо, это сработало хорошо. Я немного обеспокоен тем, что сортировка не будет масштабироваться так же хорошо, как решение из @ mr2ert, но в итоге получается единственная строка результата, поэтому я буду ждать, пока проблемы с производительностью не возникнут, прежде чем пытаться оптимизировать. –