Во многих реальных ситуациях, когда вы применяете MapReduce, конечные алгоритмы заканчиваются несколькими шагами MapReduce.Цепочка нескольких заданий MapReduce в Hadoop
i.e Map1, Reduce1, Map2, Reduce2 и т. Д.
Итак, у вас есть результат последнего сокращения, необходимого в качестве входа для следующей карты.
Промежуточные данные - это то, что вы (в общем) не хотите сохранять, как только трубопровод будет успешно завершен. Кроме того, поскольку эти промежуточные данные в целом представляют собой некоторую структуру данных (например, «карта» или «набор»), вы не хотите прикладывать слишком много усилий при написании и чтении этих пар ключ-значение.
Каков рекомендуемый способ сделать это в Hadoop?
Есть ли (простой) пример, показывающий, как правильно обрабатывать эти промежуточные данные, включая очистку после?
с помощью которых рамки MapReduce? – skaffman
Я отредактировал вопрос, чтобы уточнить, что я говорю о Hadoop. –
Я бы порекомендовал камень для свиней: https://github.com/Ganglion/swineherd best, Tobias – Tobias