2015-07-06 2 views
4

У меня есть RDD, который создается с помощью Spark. Теперь, если я напишу этот RDD в файл csv, мне предоставляются некоторые методы, такие как «saveAsTextFile()», который выводит CSV-файл на HDFS.Сохраните искру RDD в локальной файловой системе с помощью Java

Я хочу записать файл в свою локальную файловую систему, чтобы мой процесс SSIS мог выбирать файлы из системы и загружать их в БД.

В настоящее время я не могу использовать sqoop.

Возможно ли это где-то в Java, кроме написания сценариев оболочки для этого.

Требуется любая ясность, пожалуйста, сообщите об этом.

+1

Не уверен ни в одном методе Spark для этого. Но вы всегда можете открыть файл outoutstream, перебрать RDD и сохранить его в файле. Простой старый путь! –

+0

Эй, какой путь вы используете в методе saveAsTextFile()? вы можете предоставить некоторый фрагмент кода .. –

+0

Я пробовал следующие пути: - "hdfs: // hadoop/bigdata /" Это сохраняет файл в hdfs - Кроме того, попытался с этим, когда я скопировал абсолютный путь к файлу "/ kanav/выход /». Это возвращается без ошибок, но также не создает никакого файла. –

ответ

7

saveAsTextFile способен принимать локальные пути файловой системы (например, file:///tmp/magic/...). Однако, если вы работаете в распределенном кластере, вы, скорее всего, захотите вернуть данные обратно в кластер и затем сохранить его со стандартными файловыми операциями.

+3

в порядке. этот метод передачи параметра с «file: ///» успешно возвращается с файлом _SUCCESS, но выходных файлов не видно. Я запускаю его на распределенном кластере, однако мои данные так много, что вызов collect() ограничивает JVM –

+0

Если ваш файл слишком велик для одной машины, это не имеет особого смысла для его локализации вместо hdfs или другой распределенной файловой системы. – abalcerek

+0

Не размер файла, но количество файлов в значительной степени. Мой процесс на самом деле предназначен для обработки около 400 ГБ данных в час. @holden У меня, на данный момент, удалось сделать это с помощью FileSystem.copyToLocalFile(). Я должен проверить его на день на надежность, и у меня будет больше информации. –