Как сказать искру, где файл должен быть разделен на входы?

Я ищу что-то, что эквивалентно hadoop's InputFormat. Но у меня нет класса .java от Hadoop. Мой вопрос заключается в том, как это делается в искры, не используя способ Hadoop для определения входных данных. Извините, если это глупый вопрос, но я чрезвычайно новичок в Hadoop/Spark. Как сказать искру, где файл должен быть разделен на входы?

источник

2016-09-06 divmermarlav

Для чтения файлов Spark зависит от входных форматов Hadoop. –

Таким образом, создание настраиваемого InputFormat является необходимым шагом? Если так, то спасибо, по крайней мере сейчас я знаю, как продолжить. Любая ~ babysteps ~ документация, где я могу узнать больше? – divmermarlav

Я считаю, что любой гид Hadoop будет делать все отлично. –

Я принимаю презумпцию того, что в случае MR InputFormat данные будут небольшими, поскольку они в основном используются для определения когерентных групп данных (для обработки в одиночной карте или MR). Поэтому маловероятно, что файл, определяющий согласованную группу, слишком большой, чтобы вписаться в память. Таким образом, можно считывать данные с InputFormat и кэшировать их в памяти в случае Spark. Позже вы можете прочитать содержимое этого файла, создать итератор (который будет идентифицировать часть данных, например, раздел Hive), а затем генерировать динамический путь для части данных с помощью этого итератора.

источник

2016-09-07 06:24:09 abhiieor

Как сказать искру, где файл должен быть разделен на входы?

ответ

Смежные вопросы