2013-03-21 6 views
-1

Я новичок в hadoop и mapreduce.I есть проблема с запуском моих данных в hadoop Mapreduce. Я хочу, чтобы результаты были заданы в миллисекундах. Есть ли способ, которым я могу выполнять задания Mapreduce в миллисекундах? Если нет, то каково минимальное время, в течение которого mapbeduce может принимать полностью распределенный многокластер (5-6 узлов). Размер файла для анализа в hasoop mapreduce составляет около 50-100Mb Программа написана на Pig.Any suggestesstions?Время, проведенное MapReduce jobs

+0

получить действительно действительно быстрый компьютер. –

+0

спасибо за ваши предложения. –

ответ

0

не возможно (afaik). hadoop не предназначен для вещей в реальном времени на первом месте. он лучше всего подходит для пакетных заданий. структура mapreduce требует некоторого времени, чтобы принять и настроить работу, которой вы не можете избежать. и я не думаю, что это мудрое решение получить ультравысокие машины для настройки кластера хауопов. Кроме того, структура должна сделать несколько вещей, прежде чем начать работу, например, создавая логические расщепления ваших данных.

+0

спасибо за ваши предложения. –

1

Для использования в режиме реального времени запросов на использование данных Imapala, Apache Drill (WIP). Сверло основано на Google Dremel.

Рабочие места в ульях преобразуются в MapReduce, поэтому Hive также ориентирован на партию в природе, а не в реальном времени. Проделана большая работа по повышению производительности Hive (1 и 2).

Смежные вопросы