Я запустил программу wordcount в python на кластеры HDInsight разного размера и каждый раз, когда потребовалось столько же времени. Размер файла составляет 600 МБ, и я запускал его на 2, 4 и 8 узлах - каждый раз за такое же количество времени (а не во втором, но очень близком).Hadoop на Azure - обработка файлов на большее количество узлов занимает одинаковое количество времени
Я ожидал, что время изменится, так как файл обрабатывается большим числом узлов по мере роста кластера ... Мне интересно, если это так, если файл относительно невелик? Или есть способ определить количество узлов, на которых должно выполняться задание? - Я лично так не думаю, так как размер кластера установлен заранее.
Или это характер приложения wordcount и тот факт, что редуктор выполняет одинаковое количество работы?
Или это потому, что это python - я читал где-то, как говорят, медленнее, чем java (или scala on spark)?
То же самое происходит и с Spark-кластерами - хотя число узлов увеличивается, время не падает.
Не можете изменить ваш вопрос: информация о том, насколько велика ваша база данных? Также: оставьте комментарии вроде «Я слышал, что язык x медленнее, чем язык y». –
Размер данных 600 МБ слишком мал для сравнения. –
Насколько велик набор данных? Не менее 1 gb? Несколько gb? – piterd