2016-04-18 2 views
2

У меня есть задание Spark Streaming, выполняющееся на кластере (Spark 1.6), которое передает контрольные точки S3. Когда я начинаю работу на начальном этапе, я вижу вкладку «Потоковое». Однако, когда я перезапускаю задание с контрольной точки, вкладка Streaming исчезает. Работа по-прежнему работает как потоковое задание, и я вижу, что партии отображаются в настроенном интервале пакетной обработки. Смотри ниже.Исключительная вкладка скрытия исчезает после перезапуска с контрольной точки

Snapshot

Если я очистить контрольной точки данных, вкладка возвращается. Я подозреваю, что вкладка Streaming неправильно зарегистрирована при перезапуске с контрольной точки.

Я посмотрел на Spark Streaming code. Возможно ли, что этот поток не вызывается, когда состояние приложения десериализуется с контрольной точки?

Кто-нибудь знает, как это исправить?

ответ

2

Если я удаляю данные контрольной точки, вкладка возвращается. Я подозреваю, что вкладка Streaming зарегистрирована неправильно при перезапуске с контрольной точки .

Он вызывается, но вкладка потоковой передачи не отображается, пока не закончит загрузку всех данных из местоположения контрольной точки S3. Если ваша линия длинная, для загрузки может потребоваться некоторое время. Как только все данные будут восстановлены с контрольной точки, вы увидите вкладку потоковой передачи.

Смежные вопросы