Вы должны начать с прочтения самой основной Hadoop документации: http://hadoop.apache.org/#What+Is+Apache+Hadoop%3F
Затем, вы можете найти лучшие объяснения на каждом сайте проекта:
Apache Pig представляет собой платформу для анализа больших массивов данных который состоит из языка высокого уровня для выражения программ анализа данных в сочетании с инфраструктурой для оценки этих программ. Главным свойством программ Pig является то, что их структура поддается существенному распараллеливанию, что в свою очередь позволяет им обрабатывать очень большие наборы данных.
http://pig.apache.org/
хранилища данных программного обеспечения Apache Hive ™ облегчает запросов и управления большими объемами данных, проживающих в распределенной памяти. Hive предоставляет механизм структуры проекта на эти данные и запрашивает данные с использованием языка SQL, подобного HiveQL. В то же время этот язык также позволяет традиционным программистам с картами/сокращением подключать свои настраиваемые карты и редукторы, когда неудобно или неэффективно выражать эту логику в HiveQL.
http://hive.apache.org/
Использование Apache HBase, когда вам нужно случайное, в режиме реального времени доступ на чтение/запись к вашей Big Data. Целью этого проекта является размещение очень больших таблиц - миллиардов строк X миллионов столбцов - на кластерах товарного оборудования. Apache HBase - это версия с открытым исходным кодом, распределенная версия, не реляционная база данных, смоделированная после Bigtable Google: распределенная система хранения для структурированных данных Chang et al. Подобно тому, как Bigtable использует распределенное хранилище данных, предоставляемое файловой системой Google, Apache HBase предоставляет возможности Bigtable, подобные Hadoop и HDFS.
http://hbase.apache.org/