Я хотел бы прочитать данные из hadoop, процесс на искру и результат wirte по hadoop и эластичному поиску. У меня мало рабочих узлов для этого.Spark cluster - чтение/запись на hadoop
Spark автономный кластер достаточен? или мне нужно, чтобы кластер hadoop использовал пряжу или мезо?
Если автономный режим кластера достаточен, должен ли быть установлен файл jar на всем узле в отличие от пряжи, режима мезо?
Неправильный вопрос, хороший ответ. спасибо :) Я решил использовать пряжу в системе. Если это так, можно ли записать выходные данные результата на отдельные hdf-файлы, чтобы их можно было использовать для других входных данных? –
Да, однажды записанный в hdfs, он может использоваться как вход в другую работу по сокращению карты. Но с помощью одиночных hdfs, если вы имеете в виду один выходной файл, вам нужно взять один редуктор, потому что каждый редуктор создает отдельный выходной файл, хотя все они сохраняются в одном каталоге. Еще один краеугольный случай - если ваш выходной файл слишком велик, то он будет разбит на несколько выходных файлов, но вы можете контролировать это также путем переопределения RecordWriter. Вывод задачи уменьшения обычно записывается в RecordWriter через TaskInputOutputContext.write (Object, Object). –