пониманиеApache Hive - это тот же SQL-подобный инструментальный слой для запроса кластеров Hadoop. Мой понимание из Apache Pig - это его процедурный язык для запроса кластеров Hadoop. Итак, если мое понимание верное, Hive и Pig выглядят как два разных способа решения одной и той же проблемы.Hadoop's Hive/Pig, HDFS и MapReduce отношения
Моя проблема, однако, в том, что я не понимаю проблему, которую они одновременно решают в первую очередь!
Скажем, у нас есть БД (реляционную, NoSQL, не имеет значения), который питает данные в HDFS так, что конкретная MapReduce работа может работать против этого ввода данных:
Я смущенный относительно того, какая система Hive/Pig запрашивает! Они запрашивают базу данных? Они запрашивают исходные входные данные, хранящиеся в DataNodes на HDFS? Выполняют ли они небольшие специальные рабочие задания на лету и сообщают свои результаты/результаты?
Какова взаимосвязь между этими инструментами запросов, данными ввода задания MR, хранящимися на HDFS, и самой работой MR?
Спасибо @Balduz (+1 и зеленый чек) - это имеет смысл! – smeeb