Я новый разработчик hadoop, и мне удалось установить и запустить службы хаопов в кластере с одним узлом. Проблема возникает во время визуализации данных. Какую цель играет файл jar MapReduce, когда мне нужно использовать инструмент визуализации данных, например Tableau. У меня есть структурированный источник данных, в котором мне нужно добавить слой логики, чтобы данные могли иметь смысл во время визуализации. Нужно ли писать программы MapReduce, если я собираюсь визуализировать другие инструменты? Прошу пролить свет на то, как я могу заниматься этой проблемой.Визуализация данных Hadoop
ответ
Возможно, это зависит от того, какое распределение Hadoop вы используете и какие инструменты имеются. Это также зависит от конкретной задачи подготовки данных.
Если вы не хотите, чтобы на самом деле писать карта-свертка или искрового код самостоятельно, вы можете попробовать SQL-подобные запросы, используя улей (что в переводе на карту, уменьшить) или даже быстрее Impala. Используя SQL, вы можете создавать табличные данные (таблицы улья), которые могут быть легко использованы. В таблице есть разъемы для обоих из них, которые автоматически преобразуют ваши конфигурации/запросы в таблицу в Hive/Impala. Я бы рекомендовал подключиться к Impala из-за его скорости. Если вам нужно выполнить работу, требующую большего количества программ или где SQL просто недостаточно, вы можете попробовать Pig. Pig - это высокоуровневый язык сценариев, который компилируется для преобразования кода. Вы можете попробовать все вышеперечисленное в соответствующем редакторе в Hue или CLI.
Если вы чувствуете, как все вышеперечисленные еще не подходит вашему случаю использования я хотел бы предложить писать карты-сверток или искрового кода. Spark не нужно писать только на Java и имеет преимущество в том, чтобы быть быстрее.
Большинство инструментов могут интегрироваться с таблицами улья, что означает, что вам не нужно переписывать код. Если инструмент не предоставляет этого, вы можете сделать выдержки из CSV из таблиц hive или сохранить таблицы, сохраненные как CSV/TSV. Затем вы можете импортировать эти файлы в свой инструмент визуализации.
Существующий ответ уже затрагивает это, но немного широк, поэтому я решил сосредоточиться на ключевой части:
Типичные шаги для визуализации данных
- Do сложные расчеты с использованием любого hasoop tool, который вам нравится
- Предложить вывод в таблице (улей)
- Вытяните данные в память инструмента визуализации (например, Tableau), например, используя JDBC
Если данные слишком велики, чтобы их можно было вытащить в память, вы можете поместить их в обычную базу данных SQL и работать непосредственно с инструментом визуализации. (Если вы работаете непосредственно на кусте, вы будете сходить с ума, как простейшие запросы займет 30+ секунд.)
В случае это не возможно/желательно подключить инструмент визуализации для какой-либо причине, то обходной путь будет выгружать выходные файлы, например CSV, а затем загружать их в инструмент визуализации.
- 1. Визуализация данных xml из hadoop
- 2. Визуализация данных и HBase
- 3. Визуализация данных
- 4. Визуализация данных
- 5. Данные, визуализация и складирование данных
- 6. svg визуализация данных
- 7. PHP - визуализация данных/устройств
- 8. Визуализация случайных данных
- 9. Визуализация данных массива
- 10. Визуализация преобразованных данных PCA
- 11. Визуализация данных временных рядов
- 12. Визуализация программных данных
- 13. Визуализация булевых данных
- 14. Визуализация данных Ruby gem
- 15. Веб-визуализация данных?
- 16. Визуализация данных XML
- 17. Коктейль Визуализация данных рецепта
- 18. Визуализация данных в R
- 19. Визуализация набора 3D-данных
- 20. Визуализация данных на Java
- 21. Визуализация многомерных данных C++
- 22. Визуализация данных Java
- 23. Визуализация набора данных
- 24. Визуализация 1D данных в MATLAB
- 25. Neo4j визуализация и получение данных
- 26. Визуализация Sunburst данных - дополнительное кольцо
- 27. Wpf визуализация данных последняя версия?
- 28. Использование Matplotlib, визуализация CSV-данных
- 29. C Визуализация структуры данных языка
- 30. Визуализация 2D-данных в таблице