2015-08-15 3 views
0

Я знаю, что искра вычисляет память и намного быстрее, чем MapReduce. Мне было интересно, как хорошо работает искра, например, записи < 10000? У меня огромное количество файлов (каждый файл имеет около 10000 записей, скажем, 100 файлов столбцов), входящих в мою платформу данных hadoop, и мне нужно выполнить некоторые проверки качества данных, прежде чем загружать их в hbase.Mapreduce Vs Spark Vs Storm Vs Drill - для небольших файлов

Я делаю проверку качества данных в улье, которая использует MapReduce в фоновом режиме. Для каждого файла это занимает около 8 минут, и для меня это довольно плохо. Может ли искра дать мне лучшую производительность, скажем, 2-3 минуты?

Я знаю, что я должен был сделать заметку, но я пытался понять основы здесь, прежде чем я действительно пойду с искру. Поскольку я впервые вспоминаю создание RDD, это будет накладные расходы, и поскольку я должен создать новый RDD для каждого входящего файла, который будет стоить мне немного.

Я смущен, что было бы лучшим подходом для меня - искра, сверло, шторм или сам Mapreduce?

+0

Учитывая предоставленную вами информацию, ее почти невозможно ответить на этот вопрос. Какое конкретное число = «огромное количество файлов»? Какие типы данных находятся в этих файлах? Какая именно «проверка качества данных», которую вы выполняете, занимает 8 минут? С каким конкретным оборудованием вы работаете - 1k узлы или 10 узлов? – gobrewers14

+0

@ GoBrewers14: Я получу около 4000 файлов в день. Файл содержит поля данных, разделенные трубами (текстовые данные). Тип качества данных, который я выполняю, находится в каждом столбце (проверка уровня файла), чтобы файл содержал достоверные данные, отсутствующие значения, нулевую строку, недопустимые форматы дат и т. Д. У меня около 100 столбцов, и я делаю чек 50 столбцов, которые могут увеличиться в будущем. В настоящее время я работаю в кластере из трех узлов, который, как я знаю, не является хорошим вариантом. Но то, что я искал, - это получить представление о производительности, которое я могу получить. – Garfield

+0

@ GoBrewers14: Поскольку у меня около 10000 записей, увеличение количества узлов может не помочь, так как данные всегда будут меньше моего размера блока (исправьте меня, если я ошибаюсь), я прямо сейчас использую mapr hadoop distro. если я скажу, что у меня есть кластер из 10 узлов, как он будет работать лучше?. Я использую oozie для планирования задачи, поэтому отставание oozie также необходимо позаботиться о – Garfield

ответ

0

Я просто изучаю производительность Дрель против Спарка против Улья более миллиона записей. Dill & Spark оба около в 5-10 раз быстрее в моем случае (Я не выполнял никаких тестов производительности по кластеру со значительной ОЗУ, я просто тестировал на одном узле). Причина быстрого вычисления - оба они выполняют вычисление в памяти.

Производительность сверла & Искра почти сравнима в моем случае. Поэтому я не могу сказать, какой из них лучше. Вам нужно попробовать это в конце.

Тестирование на дрели не займет много времени. Download последнее сверло, install на вашем кластере mapo hadoop, добавьте куст-хранилище plugin и выполните query.