Я ищу что-то, что эквивалентно hadoop's InputFormat
. Но у меня нет класса .java
от Hadoop. Мой вопрос заключается в том, как это делается в искры, не используя способ Hadoop для определения входных данных. Извините, если это глупый вопрос, но я чрезвычайно новичок в Hadoop/Spark. Как сказать искру, где файл должен быть разделен на входы?
0
A
ответ
0
Я принимаю презумпцию того, что в случае MR InputFormat
данные будут небольшими, поскольку они в основном используются для определения когерентных групп данных (для обработки в одиночной карте или MR). Поэтому маловероятно, что файл, определяющий согласованную группу, слишком большой, чтобы вписаться в память. Таким образом, можно считывать данные с InputFormat
и кэшировать их в памяти в случае Spark. Позже вы можете прочитать содержимое этого файла, создать итератор (который будет идентифицировать часть данных, например, раздел Hive), а затем генерировать динамический путь для части данных с помощью этого итератора.
Смежные вопросы
- 1. CFBundleVersion должен быть разделен на период списка
- 2. Где этот файл должен быть?
- 3. Где стартап должен быть?
- 4. Где должен быть размещен файл конфигурации?
- 5. Где должен быть размещен файл jssecacerts на Mac?
- 6. В какой момент код должен быть разделен в шаблоне MVC?
- 7. Должен ли Javascript быть разделен на файлы по страницам или объединен в один файл?
- 8. Где должен быть размещен beans.xml?
- 9. Где путь pyinstaller должен быть
- 10. CFBundleShortVersion должен быть разделен на период с целым числом не более трех неотрицательных целых чисел.
- 11. C# Пользовательский ввод, который должен быть разделен точкой с запятой
- 12. Фактор базы кода приложения Фактор должен быть разделен
- 13. Где Дальвик должен быть на новой диаграмме?
- 14. Где объект должен быть проверен?
- 15. Где должен быть создан EventLogLog?
- 16. Как мне сказать «компилятору», что код не должен быть оптимизирован?
- 17. Как можно сказать, что ввод функции должен быть списком?
- 18. сказать java-программу, где находится файл свойств
- 19. как читать файл, который разделен запятой
- 20. Ansible Где должен быть размещен секретный ключ?
- 21. SQL: где должен быть задан первичный ключ
- 22. Получение строки, где должен быть поплавок?
- 23. Где должен находиться файл js.erb
- 24. Как сделать файл csv соответствующим образом разделен на строки?
- 25. Как добавить статический контент, который должен быть разделен между проектами в решении Visual Studio
- 26. Где должен быть jspm_packages в ASP.NET CORE?
- 27. где должен быть установлен код session_destroy()?
- 28. Файл .tlb должен быть зарегистрирован?
- 29. Boolean, где параметр должен быть ресурсом
- 30. Где должен выглядеть файл user.clj?
Для чтения файлов Spark зависит от входных форматов Hadoop. –
Таким образом, создание настраиваемого InputFormat является необходимым шагом? Если так, то спасибо, по крайней мере сейчас я знаю, как продолжить. Любая ~ babysteps ~ документация, где я могу узнать больше? – divmermarlav
Я считаю, что любой гид Hadoop будет делать все отлично. –