Параллельная обработка в облаке с помощью python

Имея знания python-pandas и масштабируемое облако, какой лучший способ реализовать параллельное вычисление в облаке? (У меня есть только одна машина со многими процессорами, не так много машин)Параллельная обработка в облаке с помощью python

Облако, которое у меня есть в настоящее время - это Amazon one, с сервером Windows (с масштабированием до 40 CPU и 160 ГБ памяти), но я мог бы оценить использование разных облачных провайдеров и разных ОС.

Я подумал 2 возможности:

с использованием стандартного Python модуля многопроцессорного (без какого-либо другого SW)
автономных искр с интерфейсом питона

Свеча должна быть более эффективной, чем питон многопроцессорный? Есть ли другие способы оценить?

источник

2016-11-20 DPColombotto

«Чтобы запустить автономный кластер Spark с помощью сценариев запуска, вы должны создать файл с именем conf/slaves в каталоге Spark, который должен содержать имена хостов всех машин, на которых вы собираетесь запускать рабочие Spark, по одному на строку «.

Смотрите здесь: http://spark.apache.org/docs/latest/spark-standalone.html#cluster-launch-scripts

удачи

источник

2016-11-20 14:44:53

ОК ТНХ, но я имею в виду использовать только одну машину с 40 или более центрального процессора, в облаке. Таким образом, искру действительно нужна или я могу использовать только встроенный модуль многопроцессорности python? – DPColombotto

В этой ситуации я не думаю, что вы должны использовать Spark или любой распространенный инструмент. Я бы посоветовал вам использовать многопроцессорность в Python. Таким образом, вы получите прибыль от большого количества вашего процессора. –

Проверьте https://docs.python.org/2/library/multiprocessing.html –

Параллельная обработка в облаке с помощью python

ответ

Смежные вопросы