Как программа драйвера выполняет «sc.textFile», почему нам нужен файл для присутствия на каждом узле? Если мы скопируем его на каждый узел, то как искра обрабатывает выполнение дублированных данных?Почему Spark требует, чтобы локальный файл присутствовал на каждом узле?
ответ
С искровой точки зрения нет дублирует
На водителе он будет решать, сколько разделов вам нужно, и разделить файл соответственно. На водителе, вы получите, чтобы узнать, есть разделы, как
a.file - 0 to 1000
a.file - 1001 to 2000
a.file - 2001 to 3000
Позже на каждом исполнителе будет иметь путь к файлу и конкретному фрагменту для чтения. Они не знают, что вы не используете общую файловую систему. Единственное, что имеет значение, это иметь путь к файлу и знать, где его читать. Может случиться так, что в итоге у вас будет только один исполнитель, но все происходит одинаково. То, что только один исполнитель будет иметь местоположение файла и кусок для чтения. Один за другим, пока весь файл не будет обработан.
Он работает точно так же с HDFS (я предполагаю, что коэффициент репликации равен 1), но с HDFS это действительно просто один каталог с одним файлом (сидеть на определенной машине). И все исполнители идут в этот каталог. Когда коэффициент репликации больше 1, то с точки зрения искры все еще остается только один каталог, но запросы поступают в разные узлы - там, где есть копии файла.
Используйте файловую систему hdfs вместо локальной файловой системы, доступную со всех искровых узлов.
Я понимаю это. Но хочу понять логику таких последствий. –
- 1. softDeletes() требует, чтобы deleted_at присутствовал в запросе на сохранение данных
- 2. Spark читать локальный файл необходимо, чтобы файл существовал в главном узле
- 3. Почему KernelDensity.score_samples вычисляет расстояние на каждом узле?
- 4. Как собрать световой блок данных на каждом узле-исполнителе?
- 5. Нужен ли файл конфигурации на каждом узле Ceph?
- 6. Получите показатели Spark на каждом этапе итерации?
- 7. С Browserify API, использование требует и исключить на локальный файл
- 8. BitmapSource, чтобы указать на локальный файл
- 9. Запуск таймера EJB на каждом узле кластера
- 10. Сколько общих данных на каждом узле кластера?
- 11. как создать раскладной макет на каждом узле
- 12. Spark распространяет локальный файл с master на узлы
- 13. Запись данных на локальный диск в каждом datanode
- 14. Высота установки BST на каждом указывающем узле
- 15. Выполнение редуктора на каждом подчиненном узле
- 16. Почему NPRuntime требует xpt-файл?
- 17. Я хочу, чтобы символ присутствовал в строке
- 18. Дать "пакетный файл", чтобы выполнить CoffeeScript на узле ... на Mac
- 19. Задача apache spark running на каждом rdd
- 20. Spark - on EMR saveAsTextFile не записывает данные в локальный каталог
- 21. Почему «sc.addFile» и «spark-submit -files» не распространяют локальный файл всем работникам?
- 22. Почему я не могу установить локальный момент в узле?
- 23. PostgreSQL 8.2: Требовать, чтобы конкретный столбец присутствовал в инструкции UPDATE
- 24. Почему gammu требует, чтобы sudo работал?
- 25. Параллелизация в R: как «источник» на каждом узле?
- 26. Почему vector.emplace() требует, чтобы элемент MoveAssignable?
- 27. Проанализируйте файл на узле js
- 28. Почему python требует, чтобы docstrings были отступом?
- 29. Почему цепочка требует, чтобы оператор возвращал ссылку?
- 30. Почему BluetoothAdapter.startDiscovery (..) требует, чтобы устройство Bluetooth транслировалось?
Это помогает .. Спасибо. :) –
Несомненно, сэр .. :) –
@PuneetSingh, thanks =) Решает ли все вопросы? У вас есть еще? Я имею в виду, что может быть что-то, что я могу добавить к ответу. – evgenii