2016-11-20 2 views
1

Имея знания python-pandas и масштабируемое облако, какой лучший способ реализовать параллельное вычисление в облаке? (У меня есть только одна машина со многими процессорами, не так много машин)Параллельная обработка в облаке с помощью python

Облако, которое у меня есть в настоящее время - это Amazon one, с сервером Windows (с масштабированием до 40 CPU и 160 ГБ памяти), но я мог бы оценить использование разных облачных провайдеров и разных ОС.

Я подумал 2 возможности:

  • с использованием стандартного Python модуля многопроцессорного (без какого-либо другого SW)
  • автономных искр с интерфейсом питона

Свеча должна быть более эффективной, чем питон многопроцессорный? Есть ли другие способы оценить?

ответ

1

«Чтобы запустить автономный кластер Spark с помощью сценариев запуска, вы должны создать файл с именем conf/slaves в каталоге Spark, который должен содержать имена хостов всех машин, на которых вы собираетесь запускать рабочие Spark, по одному на строку «.

Смотрите здесь: http://spark.apache.org/docs/latest/spark-standalone.html#cluster-launch-scripts

удачи

+0

ОК ТНХ, но я имею в виду использовать только одну машину с 40 или более центрального процессора, в облаке. Таким образом, искру действительно нужна или я могу использовать только встроенный модуль многопроцессорности python? – DPColombotto

+1

В этой ситуации я не думаю, что вы должны использовать Spark или любой распространенный инструмент. Я бы посоветовал вам использовать многопроцессорность в Python. Таким образом, вы получите прибыль от большого количества вашего процессора. –

+0

Проверьте https://docs.python.org/2/library/multiprocessing.html –

Смежные вопросы