2008-09-17 4 views
9

Что, как минимум, должно ли система мониторинга работоспособности приложений для вас (разработчика) и/или вашего начальника (ИТ-менеджера) и/или персонала операций (по вызову)?Каковы требования к системе мониторинга работоспособности приложения?

Что еще нужно делать над минимальными требованиями?

Является ли мониторинг приложений «инфраструктуры» (ms-exchange, apache и т. Д.) Достаточным или необходимо также контролировать отдельные пользовательские приложения, веб-сайты и базы данных?

Если последнее, что вам нужно знать о них?

ДОПОЛНЕНИЕ: спасибо за вход, я действительно искал мониторинга на уровне приложений не инфраструктуры мониторинга, но это хорошо, чтобы знать, как о

+0

Да, это корыстный вопрос. И что? – 2008-09-17 02:45:57

+0

Это кажется расплывчатым для описания того, что именно вы хотите контролировать? – 2008-09-17 02:48:38

+0

вот что я хочу, чтобы вы мне сказали ... – 2008-09-17 02:53:45

ответ

11
  • Работает ли приложение.
  • Необычный процессор/память/использование сети.
  • Сообщить о любых необработанных исключениях.
  • Статус различных модулей (если применимо).
  • Состояние внешних компонентов (базы данных, веб-сервисы, файловые серверы и т. Д.)
  • Количество незавершенных фоновых задач (если применимо).
  • Возможно, отслеживать использование приложения и статистику отчетов по большинству/менее используемым функциям, чтобы вы знали, какие оптимизации наиболее выгодны.
+0

как вы определяете «необычный»? – 2008-09-17 04:39:53

+0

Это зависит от приложения, но в основном я получаю среднее значение за определенный период (скажем, 5 минут), и если он выше X (90% процессор, 1 гигабайт памяти, 200 кбит/с ... эти значения действительно зависят в приложении), сообщите об этом. – 2008-09-17 15:22:10

1

Минимум: убедитесь, что он работает :)

Однако , некоторые другие вещи были бы очень полезны. Например, загрузка ЦП, использование ОЗУ и (в многопользовательских системах), на котором пользователь работает. Кроме того, для приложений, которые получают доступ к сети, список сетевых подключений для каждого приложения. И (если у вас есть доступ к клиентским компьютерам), было бы здорово видеть «заголовок окна» приложения - возможно, проверьте каждые 2-3 минуты, если он изменится и сохранит его. Кроме того, список файлов, открытых приложением, может быть очень полезным, но это не обязательно.

+0

Для мониторинга Apache, Exchange и других распространенных сервисов ознакомьтесь с программным обеспечением, таким как Nagios (с открытым исходным кодом), который выполняет всю работу. Просто установите, настройте и наслаждайтесь. – 2008-09-17 03:33:42

2

Ответ «это зависит». Зачем вам следить? Насколько велик ваш персонал? Вам нужна отчетность? Что такое среда приложения? Кого волнует, если приложение не работает? Кого волнует, если произойдет исключение? Возможна ли какая-либо из ошибок? Я мог бы задавать такие вопросы в течение длительного времени.

+0

, пожалуйста, продолжайте ... – 2008-09-17 02:53:01

+0

[@David Medinets]: что касается «зачем вам нужно следить», ответ: быть активным в поддержке, то есть знать, когда что-то пойдет не так сразу, поэтому мы можем исправить это. – 2008-09-29 19:49:48

1

Я думаю, что это довольно просто - монитор, чтобы вы могли быть предупреждены достаточно рано, прежде чем что-то пойдет не так. Это означает зависимость от монитора и самого приложения.

Очень сложно обеспечить особенности, если вы не укажете информацию о приложении, которое вы контролируете, поэтому я бы сказал, что это общее правило.

2

Это такой открытый вопрос, но я бы начал с физических измерений.
1. Являются ли все машины, которые, как мне кажется, размещены на этом сайте pingable.
2. Все ли машины, которые должны обслуживать контент, обслуживающий какой-либо контент. (В идеале это будет удалено из внешней сети.
3. Ожидается ли каждое ожидаемое обслуживание на каждой машине
3a. Запустили ли эти службы недавно?
4.Остается ли на каждой машине место на жестком диске? (Не забудьте db)
5. Были ли резервные копии этих машин? Когда был последний раз?

Как только вы изложите физический мониторинг систем, можно обратиться к тем, которые относятся к системе?

1. Может ли автоматический сценарий войти? Как долго это займет?
2. Сколько пользователей живет? Были ли добавлены миллионные поддельные счета?
...
Такие вопросы становятся более туманными и могут быть очень специфичными для системы. Они также обычно могут быть получены реактивно при реагировании на физиологические измерения. Заполнение жесткого диска, возможно, журналы веб-сервера заполнились, потому что множество агентов создало слишком много поддельных пользователей. Такого рода вещи.

Хотя план A не обязательно должен быть реактивным, это способ, которым многие установки устанавливают систему мониторинга.

1

Как минимум вы хотите знать, что система здорова. Это субъективно в том, что определяет вашу систему здоровой. Является ли это компьютерами, есть необходимые ресурсы, данные проходят через систему, данные правильно производят результаты и т. Д. И т. Д.

В моем проекте мы осуществляем мониторинг большей части этого, а затем и некоторых. Это действительно сводится к тому, что является самым высоким уровнем, который вы можете использовать для анализа того, что все работает. В нашем случае нам нужно знать до вывода данных. Если вам просто нужно знать, что это эти машины, это избавляет вас от попыток показать неопытного конечного пользователя, что не так.

Существуют также инструменты «с полки», которые будут выполнять большую работу для вас, если вы просто слишком усердны в результатах данных. Мне особенно понравилось Nagios, когда я оглядывался, но нам нужно было больше, чем это могло бы легко показать, поэтому я написал собственную систему мониторинга. В основном мы также следим за «особенностями» в системе, всплесками памяти/процессора и т. Д. ...

1

спасибо всем за вход, я действительно искал мониторинг уровня приложений, а не мониторинг инфраструктуры, но хорошо знать как о

разница:

  • мониторинга инфраструктуры будет серверы плюс MS Exchange Server, Apache, IIS, и так далее
  • мониторинга
  • применения будут пользовательские машины и специальные программы, которые они используют для выполнять свою работу и/или серверы, а также перемещать данные/которые они запускают, чтобы поддерживать поток данных.

иногда трудно нарисовать линию - упрощенное определение может быть «если ваша команда написала это, это приложение; если вы купили его, это инфраструктура»

я думаю, что на практике лучше контролировать и

1

Что вам нужно сделать, это сломать бизнес-процесса приложения и затем программное обеспечение генерируют события в основных бизнес-компонентов. Кроме того, вам нужно будет создавать синтетические транзакции от конца до конца (например, эмуляция конечных пользователей, нажимая на веб-сайт). Все эти данные будут переданы в инструмент мониторинга. Раньше я делал JMX для приложения которого вступили в JMX-адаптер Tivoli Monitoring, а затем я выполнил сценарии, которые реализуют «поддельный пользователь», а затем транслируют результаты в скриптовый адаптер Tivoli Monitoring. Tivoli Monitoring берет данные, а затем создает графики работоспособности и производительности приложений из этого необработанные данные.

2

Большой вопрос.

Мы искали какое-то решение для мониторинга на уровне приложений для наших нужд некоторое время назад, не повезло. Популярное решение для мониторинга в основном предназначено для мониторинга инфраструктуры, и, по моему мнению, они слишком сложны для требований большинства малых и средних компаний.

Мы обязаны (в основном) следующие функции:

  • оповещение - мы хотели бы знать о инциденте как можно быстрее
  • безболезненного управления - веб-сервис станет назначенным лучших
  • визуализаций - это хорошо знать, что происходит, и получить некоторые данные из данных

Поскольку мы не нашли подходящих растворов мы начали писать сами. Наконец, мы закончили работу с запущенной службой под названием AlertGrid. (Вы можете проверить его бесплатно.)

Идея заключается в том, чтобы обеспечить простой способ обработки пользовательских сценариев мониторинга. API интеграции очень прост (одна функция с двумя требуемыми параметрами). В momment мы и другие используем его для:

  • монитора запланированных задач (CRON заданий)
  • монитора всей логики приложения исполнение
  • оповещения об ошибках в приложениях
  • мы также работаем на примерах мониторинг базовой инфраструктуры с использованием AlertGrid