У меня возникла проблема с выполнением операций, таких как cut, tail, sort и т. Д., Как я мог делать файлы в среде Unix Shell.Как выполнить сценарий оболочки, например, в Hadoop
У меня возникла ситуация, когда я хочу, чтобы в моем файле была самая высокая отметка времени, которая не сортируется по метке времени и сохраняет ее в «X», а затем передает «X» в качестве аргумента для моего класса драйвера MapReducer при выполнении Работа MR.
В локальном режиме легко сделать это:
cut -d, -f <<fieldIndexNo>> <<FileName>> | sort -n | tail -1
Это дает мне наибольшую метку времени.
Сейчас в распределенном режиме, как идти о выполнении таких операций., Или другими словами, какие приемы можно использовать, чтобы помочь решить такие проблемы,
Я выигрыш хочу, чтобы вызвать MapReduce работу, чтобы найти Greatest Time Stamp, а затем передать его на другую работу по сокращению карты.
Просьба предложить. Дайте мне знать, если вам нужна дополнительная информация.
Благодаря