Имея знания python-pandas и масштабируемое облако, какой лучший способ реализовать параллельное вычисление в облаке? (У меня есть только одна машина со многими процессорами, не так много машин)Параллельная обработка в облаке с помощью python
Облако, которое у меня есть в настоящее время - это Amazon one, с сервером Windows (с масштабированием до 40 CPU и 160 ГБ памяти), но я мог бы оценить использование разных облачных провайдеров и разных ОС.
Я подумал 2 возможности:
- с использованием стандартного Python модуля многопроцессорного (без какого-либо другого SW)
- автономных искр с интерфейсом питона
Свеча должна быть более эффективной, чем питон многопроцессорный? Есть ли другие способы оценить?
ОК ТНХ, но я имею в виду использовать только одну машину с 40 или более центрального процессора, в облаке. Таким образом, искру действительно нужна или я могу использовать только встроенный модуль многопроцессорности python? – DPColombotto
В этой ситуации я не думаю, что вы должны использовать Spark или любой распространенный инструмент. Я бы посоветовал вам использовать многопроцессорность в Python. Таким образом, вы получите прибыль от большого количества вашего процессора. –
Проверьте https://docs.python.org/2/library/multiprocessing.html –