2015-01-17 6 views
2

Предположим, у нас есть 100 гб файла. И моя система 60gb. Как apache spark будет обрабатывать эти данные? Мы все знаем, что искра выполняет разделы самостоятельно на основе кластера. Но тогда, когда есть уменьшенный объем памяти, я хочу знать, как искра обрабатывает его.Apache spark- bigdata

+0

60GB оперативной памяти? Как правило, Spark даже не сохраняет наборы данных на диске, если вы его не попросите. –

+0

Вы имеете в виду постоянные данные в памяти? :) – Bacon

ответ

5

Вкратце: Spark не требует полного набора данных, чтобы он сразу помещался в память. Тем не менее, некоторые операции могут потребовать, чтобы весь раздел набора данных поместился в память. Обратите внимание, что Spark позволяет вам контролировать количество разделов (и, следовательно, их размер).

См. this для получения более подробной информации.

Стоит также отметить, что объекты Java обычно занимают больше места, чем исходные данные, поэтому вы можете посмотреть this.

Также я бы рекомендовал смотреть на Apache Spark : Memory management and Graceful degradation