У меня есть задание Hadoop MapReduce, выход которого является идентификатором строки с операцией Put/Delete для этого идентификатора строки. Из-за характера проблемы выход довольно большой. Мы пытались несколько метод, чтобы получить эти данные обратно в HBase, и все они не смогли ...Запись большого объема редуктора на HBase
Таблица Reducer
Это способ замедлить, так как кажется, что он должен сделать полную круглую поездку каждый ряд. Из-за того, как ключи сортируются для нашего шага редуктора, идентификатор строки вряд ли находится на том же узле, что и редуктор.
completebulkload
Это, кажется, занимает много времени (никогда не завершается), и нет никакого реального указания почему. И IO, и CPU показывают очень низкое использование.
Я пропустил что-то очевидное?
, по-моему, выяснение причин, почему fullbulkload не работает, было бы правильным решением делать. он должен работать! Кроме того, возможно, у вас может быть больше редукторов. –