2016-01-05 2 views
0

У нас есть приложение для хранения данных, которое мы планируем преобразовать в Hadoop.Загрузка данных в HIVE для поддержки приложений на передней панели

В настоящее время существует 20 каналов, которые мы получаем ежедневно и загружаем эти данные в базу данных MySQL.

Поскольку данные становятся большими, мы планируем перейти к Hadoop для более быстрой обработки запросов.

В качестве первого шага мы планируем ежедневно загружать данные в HIVE вместо MySQL.

Вопрос: - 1.Can Я конвертирую Hadoop как приложение DWH для обработки файлов на ежедневной основе? 2. Когда я загружаю данные в Мастер-узел, будет ли она синхронизироваться автоматически?

ответ

0

Это действительно зависит от размера ваших данных. Вопрос немного сложный, но в целом вам придется разрабатывать собственный конвейер.

  1. Если вы анализируете необработанные журналы, HDFS будет хорошим выбором для начала. Вы можете использовать Java, Python или Scala для ежедневного планирования рабочих заданий Hive и использования Sqoop, если вам все еще нужны некоторые данные MySQL.
  2. В Hive вам нужно будет создать секционированную таблицу, которая будет синхронизирована и доступна при выполнении запроса. Также можно планировать создание раздела.

Я бы предложил пойти с Impala вместо Hive, поскольку он более перестраиваемый, отказоустойчивый и прост в использовании.

Смежные вопросы