2014-11-19 3 views
1

Я новичок в искрообразовании и использовании его в последнее время для пакетной обработки. В настоящее время у меня есть новое требование, и я застрял на том, как подойти к нему. У меня есть файл, который нужно обработать, но этот файл может периодически обновляться. Я хочу, чтобы начальный файл обрабатывался, и когда и когда есть обновление файла, я хочу, чтобы срабатывали искровые операции и на этот раз должны работать только на обновленные части. Любой способ приблизиться к этому был бы полезен. Я открыт для использования любой другой технологии в сочетании с искровым. Обычно файлы будут размещаться в файловой системе и могут иметь размер в несколько ГБ.Apache spark - работа с автоматическим обновлением входов

ответ

0

Только Искра не может узнать, обновлен ли файл. Он выполняет свою работу при первом чтении файла, и все.

По умолчанию Spark не будет знать, что файл был обновлен и не будет знать, какие части файла являются обновлениями.

Вы должны скорее работать с папками, Спарк может работать на папке и может распознать, если есть новый файл для обработки в нем -> sc.textFile (PATH_FOLDER) ...

Смежные вопросы