В Hadoop вы можете использовать распределенный кеш для копирования файлов только для чтения на каждом узле. Каков эквивалентный способ сделать это в Spark? Я знаю о вещательных переменных, но это полезно только для переменных, а не для файлов.Эквивалент распределенного кэша в искры?
ответ
Посмотрите на SparkContext.addFile()
Добавить файл, который нужно загрузить с этой Спарк работы на каждом узле. Пройденный путь может быть либо локальным файлом, либо файлом в HDFS (или другими поддерживаемыми Hadoop файловыми системами), либо HTTP, HTTPS или FTP URI. Чтобы получить доступ к файлу в Spark-заданиях, используйте SparkFiles.get (имя_файла), чтобы найти его местоположение для загрузки.
В случае, если для параметра рекурсии установлено значение true, может быть указан каталог. В настоящее время каталоги поддерживаются только для поддерживаемых Hadoop файловых систем.
Будет ли он работать с S3 Amazon? – MetallicPriest
Не уверен на 100%, но я считаю, что он (не может проверить его прямо сейчас). Spark возвращается к пути Hadoop для URI без http/ftp: https://github.com/apache/spark/blob/43f50decdd20fafc55913c56ffa30f56040090e4/core/src/main/scala/org/apache/spark/SparkContext.scala#L1325 и Я думаю, что он обрабатывает URI S3. –
если файлы представляют собой текстовые файлы, живущие в HDFS, то вы можете использовать:
textFile("<hdfs-path>")
из "SparkContext".
этот вызов даст вам RDD, который вы можете сохранить через узлы, используя метод: «persist()
» этого RDD.
Этот метод может сохранять данные файла (сериализованные/десериализованные) в пределах MEMORY/DISK.
относятся:
http://spark.apache.org/docs/latest/programming-guide.html#which-storage-level-to-choose
Это не помещает файл на каждый узел. Он распределяет его по узлам. –
@ TheArchetypalPaul: да, вы правы. Я упустил требование и предложил persist(), который просто касается отдельного раздела RDD, вместо копирования всего файла на каждом узле кластера. –
- 1. Концепция распределенного кэша в Hadoop
- 2. Функция распределенного кэша в YARN
- 3. Неисправность кэша искры
- 4. Использование распределенного кэша - HIVE STREAMING
- 5. Hadoop 1.0.4 Ошибка распределенного кэша
- 6. Глядя на решения распределенного кэша для реализации распределенного шаблона MVC
- 7. Доступ распределенного кэша в Pig StoreFunc
- 8. Использование динамического распределенного кэша в Hadoop
- 9. Лазерный локальный кэш против распределенного кэша
- 10. распределенного кэша с WSO2 Cep двигателя
- 11. идеи для прокси-сервера распределенного кэша
- 12. Azure распределенного кэша sessionstate истекает непосредственно
- 13. Ошибка с ehcacheMulticastGroupAddress Настройка распределенного кэша Grails
- 14. Проблемы с использованием распределенного кэша Hadoop
- 15. Использование Memcache для централизации распределенного кэша в базе данных
- 16. Объединить небольшие файлы в большие файлы для распределенного кэша Hadoop?
- 17. не в состоянии загрузить библиотеку из распределенного кэша Hadoop
- 18. Консистенция данных для NoSQL + распределенного кэша в очень параллельной среде
- 19. ROW_COUNT Эквивалент для кэша Intersystems?
- 20. Обновление версии искры | Cloudera
- 21. Синхронизация вычислений и результатов с использованием распределенного кэша JVM
- 22. низкой латентностью распределенного кэша для Java и C++ Object
- 23. Использование распределенного кэша и FileReader для кластера с одним узлом
- 24. Почему Microsoft избавилась от распределенного кэша Velocity как автономного продукта?
- 25. Использование распределенного кэша с возможностью обрабатывать Cache Miss
- 26. Лучший способ получить небольшой файл поиска с использованием распределенного кэша
- 27. Настройка нового распределенного кэша для лазурных веб-сайтов Предварительный просмотр
- 28. Конфигурация распределенного кэширования AppFabric
- 29. Эквивалент элементов кэша второго уровня Syscache/Nhibernate
- 30. Рамка распределенного кэширования
почему вы можете загрузить файл в списке или на карте, а затем транслировать его ?? – banjara