Я не уверен в концепции печати стоп-кадра. При загрузке паркетного файла, например. 1 ГБ и создание RDD из него в Spark, что будет для печати памяти для каждого RDD?RDD Память в искровом свете
ответ
Когда вы создаете RDD из файла паркета, ничто не будет загружено/выполнено до тех пор, пока вы не запустите действие (например, сначала, наберите) на RDD.
Теперь объем памяти, вероятно, будет меняться со временем. Скажем, у вас есть 100 разделов, и они одинакового размера (по 10 МБ каждый). Предположим, что вы работаете в кластере с 20 ядрами, а затем в любой момент времени вам нужно иметь только данные 10MB x 20 = 200MB
.
Чтобы добавить поверх этого, учитывая, что объекты Java имеют тенденцию занимать больше места, нелегко точно сказать, сколько места займет ваш 1GB-файл в куче JVM (при условии, что вы загрузите весь файл). Это могло бы меня 2x, или это может быть больше.
Один трюк, который вы можете сделать, чтобы проверить это, заставляет ваш RDD кэшироваться. Затем вы можете проверить в Spark UI в разделе Storage и посмотреть, сколько места занимает RDD для кэширования.
Marios, в вашей проекции памяти вы не принимали во внимание сжатие Паркета. 1Gb может быть очень сжатым.
- 1. Разделение RDD в искровом потоке
- 2. Селективный отбор проб в искровом разряде RDD
- 3. Как эффективно удалить подмножество в искровом RDD
- 4. Свечи накаливания не отображаются в искровом свете. WebUI
- 5. Flex4.6: Избегайте перехода к следующей ячейке в искровом свете DataGrid
- 6. Агрегатная функция на искровом RDD типа RDD [String, Int, String]
- 7. Как вставить элемент в массив rdd в искровом
- 8. фильтр строк в искровом dataframe из слов в RDD
- 9. Как передать двоичный файл в rdd в искровом режиме?
- 10. слияния элементов в искровом RDD при настраиваемом состоянии
- 11. В искровом потоке я могу создать RDD для рабочего
- 12. Воспроизведение RDD в искровом потоке для обновления аккумулятора
- 13. Как различаются между использованием dataframe и rdd в искровом 1.5.2?
- 14. Как результат изменяется с использованием .distinct() в искровом режиме?
- 15. Incremently загрузить большой файл RDD в память
- 16. Прогнозирование вероятностей классов в случае увеличения градиента деревьев в искровом свете с использованием выходного дерева
- 17. Медленная работа в искровом потоке
- 18. Сплющит элемент в искровом Скале
- 19. spark.shuffle.spill to false, но разброс все еще происходит в искровом свете 1.5.0
- 20. Параллелирование цикла for с картой и уменьшение в искровом свете с помощью pyspark
- 21. Использование collect() для FP Рост в искровом свете на больших наборах данных
- 22. Делает кеширование в искровом потоке увеличивая производительность
- 23. Чтение Avro в искровом искровом искрообразовании
- 24. писать обработанные файлы в искровом потоке
- 25. Распределение RDD в Spark Streaming
- 26. Пользовательский считыватель ввода в искровом разряде
- 27. Значение Scala не сохраняется в искровом разряде
- 28. Что произойдет, если RDD не сможет вписаться в память Spark?
- 29. reduceByKey не работает в искровом потоке
- 30. DropDownListFor не появляется в свете
Спасибо за ответ marios. Когда вы упоминаете разделы, это RDD, созданные из файла паркета? И поскольку RDD не являются физическими объектами, в основе действий, которые мы выполняем, будут только данные в памяти, правильно ли я это понимаю? Также могут быть и неравные перегородки? –
Все RDD разделены, в противном случае параллелизм отсутствует. Вы правы, RDD не материализованы, пока им не понадобится (они ленивы). Если это один большой файл паркета, он должен быть в равной степени разделен. Да, бывают случаи, когда разбиения разделяются, особенно когда RDD генерируется из большого количества небольших файлов, а не из одного большого. – marios