Я загрузке около 200k текстовых файлов в Спарк с помощью input = sc.wholeTextFiles(hdfs://path/*)
я запустить println(input.count)
Оказывается, что моя искра оболочка выводит тонны текста (которые путь каждого файла) и через некоторое время он просто висит, не возвращая моего результата.Spark: Молча выполнить sc.wholeTextFiles
Я считаю, что это может быть связано с количеством текста, выводимого wholeTextFiles
. Вы знаете, как можно спокойно запускать эту команду? или есть лучшее обходное решение?
Спасибо!
они обычно менее 1 МБ. Некоторые могут быть очень маленькими (несколько килобайт). Идея состоит в том, чтобы загрузить их все, а затем создать граф, используя graphx. Я не вижу другого способа сделать это, чем использовать wholeTextFiles. – Stephane
. Вероятно, теперь лучше отредактировать свой вопрос, включив в него код и содержимое образца. Я предполагаю, что настройка ведения журнала не решила вашу проблему? –
Я буду экспериментировать в понедельник и дам вам знать :) – Stephane