2017-02-06 4 views
0

Я новый разработчик hadoop, и мне удалось установить и запустить службы хаопов в кластере с одним узлом. Проблема возникает во время визуализации данных. Какую цель играет файл jar MapReduce, когда мне нужно использовать инструмент визуализации данных, например Tableau. У меня есть структурированный источник данных, в котором мне нужно добавить слой логики, чтобы данные могли иметь смысл во время визуализации. Нужно ли писать программы MapReduce, если я собираюсь визуализировать другие инструменты? Прошу пролить свет на то, как я могу заниматься этой проблемой.Визуализация данных Hadoop

ответ

1

Возможно, это зависит от того, какое распределение Hadoop вы используете и какие инструменты имеются. Это также зависит от конкретной задачи подготовки данных.

Если вы не хотите, чтобы на самом деле писать карта-свертка или искрового код самостоятельно, вы можете попробовать SQL-подобные запросы, используя улей (что в переводе на карту, уменьшить) или даже быстрее Impala. Используя SQL, вы можете создавать табличные данные (таблицы улья), которые могут быть легко использованы. В таблице есть разъемы для обоих из них, которые автоматически преобразуют ваши конфигурации/запросы в таблицу в Hive/Impala. Я бы рекомендовал подключиться к Impala из-за его скорости. Если вам нужно выполнить работу, требующую большего количества программ или где SQL просто недостаточно, вы можете попробовать Pig. Pig - это высокоуровневый язык сценариев, который компилируется для преобразования кода. Вы можете попробовать все вышеперечисленное в соответствующем редакторе в Hue или CLI.

Если вы чувствуете, как все вышеперечисленные еще не подходит вашему случаю использования я хотел бы предложить писать карты-сверток или искрового кода. Spark не нужно писать только на Java и имеет преимущество в том, чтобы быть быстрее.

Большинство инструментов могут интегрироваться с таблицами улья, что означает, что вам не нужно переписывать код. Если инструмент не предоставляет этого, вы можете сделать выдержки из CSV из таблиц hive или сохранить таблицы, сохраненные как CSV/TSV. Затем вы можете импортировать эти файлы в свой инструмент визуализации.

0

Существующий ответ уже затрагивает это, но немного широк, поэтому я решил сосредоточиться на ключевой части:

Типичные шаги для визуализации данных

  1. Do сложные расчеты с использованием любого hasoop tool, который вам нравится
  2. Предложить вывод в таблице (улей)
  3. Вытяните данные в память инструмента визуализации (например, Tableau), например, используя JDBC

Если данные слишком велики, чтобы их можно было вытащить в память, вы можете поместить их в обычную базу данных SQL и работать непосредственно с инструментом визуализации. (Если вы работаете непосредственно на кусте, вы будете сходить с ума, как простейшие запросы займет 30+ секунд.)


В случае это не возможно/желательно подключить инструмент визуализации для какой-либо причине, то обходной путь будет выгружать выходные файлы, например CSV, а затем загружать их в инструмент визуализации.

Смежные вопросы