У меня есть эта среда:Вопросы о Улей
- среды Haddop (1 мастер, 4 ведомых) с несколькими приложениями: ambari, оттенок, улья, sqoop, HDFS ... Сервер в производстве (отдельный от hadoop) с базой данных mysql.
Моя цель:
- Оптимизировать запросы, сделанные на этом сервере MySQL, которые медленно выполнить сегодня.
Что я сделал:
- Я импортировал данные MySQL в HDFS с помощью Sqoop.
Мои сомнения:
- Я не могу сделать выбирает направить в HDFS с помощью улей?
- Нужно ли загружать данные в Улей и делать запросы?
- Если новые данные введены в базу данных mysql, что является лучшим способом , чтобы получить эти данные и вставить их в HDFS, а затем вставить в Hive again? (Может быть, в реальном времени)
Спасибо заранее
Вместо # 1 и # 2 вы также можете попробовать данные sqoop с помощью '--hive-import'. Ваши данные сразу же будут использоваться с Hive и Impala. Дополнительная информация для OP о вводе данных за один шаг и возможность запроса с более быстрой Impala [здесь] (http://stackoverflow.com/questions/42116606/sqoop-create-impala-parquet-table/42130964#42130964). Ответ приносит данные в более общем формате паркета. – spijs
Спасибо за внимание! –
@ sola.carol рад помочь! –