У меня есть журналы с этой строки:анализ журнала с Apache Pig
in24.inetnebr.com - - [01/Aug/1995:00:00:01 -0400] "GET /shuttle/missions/sts-68/news/sts-68-mcc-05.txt HTTP/1.0" 200 1839
, где первый столбец (in24.inetnebr.com
) является хост, второй (01/Aug/1995:00:00:01 -0400
) является метка времени, то третий (GET /shuttle/missions/sts-68/news/sts-68-mcc-05.txt HTTP/1.0
) является скачано стр.
Как найти последние две загруженные страницы для всех хостов с помощью Pig?
Большое вам спасибо за помощь!
Я получил небольшой прогресс, теперь у меня есть строки с (отлиты, дата дата): (хост, дата, адрес) Из этого , как я могу выбрать два последних адреса для каждого хоста? Спасибо заранее. – alfayadd