2017-01-12 3 views
1

Я начинаю изучать искру. Я следую книге «Изучение искры Холденом Карау, Энди Конвински, Патриком Уэнделлом & Матей Захария».Путь ввода не существует error apache spark

В этой книге приведен пример кода Python дается

>>> lines = sc.textFile("README.md") # Create an RDD called lines 
>>> lines.count() # Count the number of items in this RDD 
127 
>>> lines.first() # First item in this RDD, i.e. first line of README.md 
u'# Apache Spark' 

Я хочу знать, где находится файл «README.md» присутствует? поскольку в книге нет никакой информации. Кроме того, всякий раз, когда я пытаюсь запустить этот код есть ошибка «Входной путь не существует: HDFS: //quickstart.cloudera: 8020/пользователя/Cloudera/README.md»

Я бег этого кода на Кодерах виртуальная машина для искры на рабочей станции VMware.

+0

Необходимо указать правильный путь к файлу ..! Например, если вы загрузили Spark Code и создали его для себя, вы бы нашли README в той же папке. Итак, что вы можете сделать, это разместить там текстовый файл с некоторыми данными, а затем предоставить путь, который вы предоставляете! Файл должен присутствовать на пути: hdfs: //quickstart.cloudera: 8020/user/cloudera/filename –

+0

@ShivanshSrivastava благодарит за ваш ответ. Не могли бы вы сказать мне, что я могу получить доступ к пути: hdfs: //quickstart.cloudera: 8020/user/cloudera/filename, чтобы поместить файл? –

ответ

1

Как я использовал виртуальную машину cloudera для искры, поэтому файл README.md отсутствовал на пути «hdfs: //quickstart.cloudera: 8020/user/cloudera/README.md». Теперь, я использовал

lines = sc.textFile("file:///home/cloudera/Desktop/README.md") 

Спарк будет доступ файла, присутствующий на пути «/home/cloudera/Desktop/README.md» из локальной файловой системы.

Смежные вопросы