Я новичок в искрообразовании и использовании его в последнее время для пакетной обработки. В настоящее время у меня есть новое требование, и я застрял на том, как подойти к нему. У меня есть файл, который нужно обработать, но этот файл может периодически обновляться. Я хочу, чтобы начальный файл обрабатывался, и когда и когда есть обновление файла, я хочу, чтобы срабатывали искровые операции и на этот раз должны работать только на обновленные части. Любой способ приблизиться к этому был бы полезен. Я открыт для использования любой другой технологии в сочетании с искровым. Обычно файлы будут размещаться в файловой системе и могут иметь размер в несколько ГБ.Apache spark - работа с автоматическим обновлением входов
1
A
ответ
0
Только Искра не может узнать, обновлен ли файл. Он выполняет свою работу при первом чтении файла, и все.
По умолчанию Spark не будет знать, что файл был обновлен и не будет знать, какие части файла являются обновлениями.
Вы должны скорее работать с папками, Спарк может работать на папке и может распознать, если есть новый файл для обработки в нем -> sc.textFile (PATH_FOLDER) ...
Смежные вопросы
- 1. проверка файла с автоматическим обновлением
- 2. Проблема с автоматическим обновлением Mercurial
- 3. ListsView Связывание с автоматическим обновлением
- 4. Сохранение данных перед автоматическим обновлением
- 5. IE BHO - Управление автоматическим обновлением
- 6. Интеграция с автоматическим обновлением и запусками - install4j
- 7. Ошибка подписания кода с автоматическим обновлением Sparkle
- 8. Android - Виджет с автоматическим обновлением AdapterViewFlipper
- 9. Проблема с автоматическим обновлением файла JNLP
- 10. Apache Spark: работа с опцией/Some/None в RDD
- 11. Работа с автоматическим добавлением полос прокрутки
- 12. Управление автоматическим обновлением проходов от .pkpass
- 13. apache Spark с улей
- 14. Проблема с автоматическим обновлением таблицы HTML с режимом редактирования
- 15. Работа с сессией jsf и обновлением браузера
- 16. Работа с обновлением коллекции в aurelia
- 17. Исправленная работа Apache zepplin работает быстрее, чем spark-submit
- 18. Apache Spark on Mesos: Начальная работа не принимала ресурсов
- 19. Работа Apache Spark EC2 не работает. На устройстве нет места
- 20. Spark - дублирующая работа
- 21. Как использовать Apache Spark с Apache Nutch
- 22. Служба защиты программного обеспечения с включенным автоматическим обновлением
- 23. Модуль HTML с автоматическим обновлением на каждой странице
- 24. Проблема с автоматическим обновлением Subversion (клиент слишком стар)
- 25. Как импортировать этот XML-файл в sql с автоматическим обновлением?
- 26. WPF Image control не является автоматическим обновлением с ViewModel
- 27. Страница не может быть отображена на странице с автоматическим обновлением
- 28. JQuery нагрузки с автоматическим обновлением, передавая переменные в порядке
- 29. Запросить MySQL, проверив несколько флажков с автоматическим обновлением
- 30. matplotlib: поместить оси относительно других осей, с автоматическим обновлением