Hadoop на Azure - обработка файлов на большее количество узлов занимает одинаковое количество времени

Я запустил программу wordcount в python на кластеры HDInsight разного размера и каждый раз, когда потребовалось столько же времени. Размер файла составляет 600 МБ, и я запускал его на 2, 4 и 8 узлах - каждый раз за такое же количество времени (а не во втором, но очень близком).Hadoop на Azure - обработка файлов на большее количество узлов занимает одинаковое количество времени

Я ожидал, что время изменится, так как файл обрабатывается большим числом узлов по мере роста кластера ... Мне интересно, если это так, если файл относительно невелик? Или есть способ определить количество узлов, на которых должно выполняться задание? - Я лично так не думаю, так как размер кластера установлен заранее.

Или это характер приложения wordcount и тот факт, что редуктор выполняет одинаковое количество работы?

Или это потому, что это python - я читал где-то, как говорят, медленнее, чем java (или scala on spark)?

То же самое происходит и с Spark-кластерами - хотя число узлов увеличивается, время не падает.

источник

2016-03-07 piterd

Не можете изменить ваш вопрос: информация о том, насколько велика ваша база данных? Также: оставьте комментарии вроде «Я слышал, что язык x медленнее, чем язык y». –

Размер данных 600 МБ слишком мал для сравнения. –

Насколько велик набор данных? Не менее 1 gb? Несколько gb? – piterd

По моему опыту, размер данных 600 МБ для обработки на Hadoop невелик. Не все затраты времени на обработку файлов, потому что Hadoop нужно некоторое время, чтобы подготовить запуск для задания M/R & данных на HDFS.

Для небольшого набора данных нет необходимости использовать слишком большие вычислительные узлы. Даже производительность, полученная одним компьютером, будет выше, чем кластер на Hadoop, например, образец Hadoop wordcount для нескольких небольших текстовых файлов.

Как я уже знал, размер набора данных на Hadoop должен превышать сотни уровней GB в целом для повышения производительности, а производительность увеличивается с увеличением количества узлов.

Как ссылка, есть нить SO (Why submitting job to mapreduce takes so much time in General?), которую вы можете знать.

источник

2016-03-08 05:28:51

Hadoop на Azure - обработка файлов на большее количество узлов занимает одинаковое количество времени

ответ

Смежные вопросы