Kubernetes pods (некоторые) умирают после работы в течение дня

Мы пробуем тестовую установку с версией Kubernetes версии 1.0.6 на AWS.Kubernetes pods (некоторые) умирают после работы в течение дня

Эта настройка включает в себя стручки для Cassandra (2-х узлов), Spark (master, 2-worker, driver), RabbitMQ (1-node). Некоторые стручки этой установки умирают через день или около того

Есть ли способ получить журналы от Кубернеса о том, как/почему они умерли?

Когда вы пытаетесь перезапустить спрятанные стручки вручную, вы получаете статус некоторых элементов, поскольку категория «/ искровой рабочий готова, контейнер создает», и начало сборки никогда не завершается.

Только вариант в сценарии - «kube-down.sh, а затем kube-up.sh» и проходит всю установку с нуля.

источник

2015-10-11 Ravi Reddy

Вы управляете стручками напрямую или находятся под контроллером репликации? Вы указываете ограничения ресурсов для стручков? Взгляните на '/ var/log/kubelet.log' на узле, где был запущен блок, чтобы узнать, говорит ли он что-нибудь интересное. –

Те, кто умер, запускаются напрямую, поскольку они представляют собой 1 тип экземпляра (например, мастер, драйвер) и не могут выполняться под контроллером репликации. Все вышеперечисленные 8-стручки работают с CPU = «100cpu» (0,10%) на «3-машинах с 2 ядрами каждый» кластер kubernetes –

Всегда ли такие же стручки, которые умирают через 1 день? Вы посмотрели в файле журнала кубе, чтобы узнать, почему они потерпели неудачу? –

kubectl describe ${POD_NAME} или kubectl logs ${POD_NAME} ${CONTAINER_NAME} должно предоставить вам дополнительную информацию для отладки.

Также см. https://github.com/kubernetes/kubernetes/blob/master/docs/user-guide/application-troubleshooting.md#debugging-pods для общих инструкций по устранению неисправностей.

EDIT:

После обсуждения в комментариях, я думаю, что проблема с вашим узлом является то, что узел был отвечать на запросах в течение> 5 минут (потенциально из-за интенсивное использование памяти influxdb). Затем контроллер узла считал узел не готовым и вынул все узлы на узле. Обратите внимание, что контейнеры, управляемые контроллерами репликации, будут воссозданы (с другим именем), но созданные вручную вручную не будут воссозданы.

Если вы подозреваете, что использование памяти в качестве источника infuxdb является основной причиной, вы можете попробовать не запускать этот модуль, чтобы убедиться, что проблема разрешилась сама. Кроме того, вы можете изменить предел памяти influxdb container на меньшее значение.

EDIT2:

Некоторые советы для выяснения того, что случилось с узлом:

Проверить /var/log/kubelet.log. Это самый простой подход.
kubectl describe nodes или kubectl get events | grep <node_name> (для старой версии kubernetes)

Эта команда даст вам события, связанные со статусом узла. Тем не менее, события размываются каждые два часа, поэтому вам нужно будет запустить эту команду в окно времени после того, как ваш узел столкнется с проблемой.

kubectl get node <node_name> -o yaml --watch позволяет контролировать объект узла, включая его статус в yaml. Это будет периодически обновляться.

источник

2015-10-15 21:19:13

Пробовал эти команды, когда стручок мертв. Это возвращение с искрогасителем «error: pod» «не найден», как будто этот стручок никогда не существовал. Не уверен, что есть внутренние журналы на хозяине, хотя –

Даже если pod умер, до тех пор, пока он не был удален, вы должны иметь доступ к контейнеру через 'kubectl'. Не могли бы вы отправить полную команду, которую вы выполнили, и ее вывод? –

Я побежал следующие команды без каких-либо результатов: (1) ./cluster/kubectl.sh получить эВ [------- урожаи FIRSTSEEN LASTSEEN COUNT ИМЯ ВИД подобъектом ПРИЧИНА ИСТОЧНИК сообщение] (2) ./ cluster/kubectl.sh описать стручки искрогасителя --- дает [ошибка: стружки «искровой драйвер» не найден] –

Из-за an issue in Kubernetes у ваших узлов, вероятно, закончилось свободное место на диске.

Непрямое исправление доступно только недавно выпущенным Kubernetes v1.0.7.

AWS: Create one storage pool for aufs, not two #13803 (justinsb)

но, как описано в вышеупомянутой проблеме, в этой области все еще есть какая-то работа.

источник

2015-11-05 16:32:27

Kubernetes pods (некоторые) умирают после работы в течение дня

ответ

Смежные вопросы