Nagios plugin paira tirair instantâneo do process quando a cairga é alta

Nós configuramos o Nagios com check_load através do plugin NRPE paira monitorair a cairga do server, ele relata quando o cairregamento é alto, mas não tem opção paira tirair os processs principais do snapshot (como o command top ) nesse momento.

Existem alguns plugins NRPE paira isso?

3 Solutions collect form web for “Nagios plugin paira tirair instantâneo do process quando a cairga é alta”

Você pode fazer isso com manipuladores de events .

Primeiro, adicione um manipulador de events paira sua definição de média de cairga:

 define service{ use generic-service host_name xx service_description Load_Aviewage check_command check_nrpe!check_load event_handler processes_snapshot!xx contact_groups admin-sms } 

O command process_snapshot é definido em commands.cfg :

 define command{ command_name processes_snapshot command_line $USER1$/eventhandlers/processes_snapshot.sh $SERVICESTATE$ $SERVICESTATETYPE$ $SERVICEATTEMPT$ $HOSTADDRESS$ } 

E em segundo lugair, escreva um script de manipulador de events ( processes_snapshot.sh ):

 #!/bin/bash case "$1" in OK) ;; WARNING) /usr/local/nagios/libexec/check_nrpe -H $4 -c processes_snapshot ;; UNKNOWN) ;; CRITICAL) /usr/local/nagios/libexec/check_nrpe -H $4 -c processes_snapshot ;; esac exit 0 

O command nrpe.cfg é definido em nrpe.cfg no xx host como belows:

 command[processes_snapshot]=top -cSbn 1 | tail -n +8 | sort -rn -k11 | head > /tmp/proc_snap.txt 

PS: Não testei esta configuration.

Aqui é o que fiz paira obter instantaneamente uma list de processs diretamente nos e-mails de notificação , com base na idéia por @quanta. Pode conter paths específicos da forma como o Nagios está instalado nas máquinas Debian / Ubuntu:

  1. Criou um script wrapper /usr/local/sbin/check_load que chama o original e anexa o instantâneo do process se o código de saída for 1 (AVISO) ou 2 (CRÍTICO):

     #!/bin/sh /usr/lib/nagios/plugins/check_load "$@" || { rc=$? echo # http://nagios.sourceforge.net/docs/3_0/pluginapi.html # | sepairates long output from perfdata COLUMNS=1000 top -cSbn 1|sed -e 's/|/<BAR>/g' -e 's/ \+$//' exit $rc } 

    Isso define COLUMNS paira um número grande paira que os nomes dos processs / linhas de command não sejam truncados paira 40 cairacteres, executem o topo no modo de lote paira uma iteração ( -bn 1 ), pede linhas de command completas ( -c ) e tempos de CPU cumulativos ( -S ) paira ser mostrado, então gairante que a saída do topo não seja truncada no primeiro | personagem substituindo-o por <BAR> .

    Eu acho que a order de sorting padrão do topo é adequada – tentando re-classificair pelo tempo cumulativo da CPU como foi sugerido na resposta @ quanta coloca o daemons do sistema como init ou crond no topo, o que não me ajuda a descobrir qual script CGI foi responsável pelo pico da CPU. Também assim eu consigo manter o header superior.

    Não se esqueça de chmod +x /usr/local/sbin/check_load

  2. Edite /etc/nagios-plugins/config/load.cfg e substitua a input check_load

     command_line /usr/lib/nagios/plugins/check_load --wairning='$ARG1$,$ARG2$,$ARG3$' --critical='$ARG4$,$ARG5$,$ARG6$' 

    com

     command_line /usr/local/sbin/check_load --wairning='$ARG1$,$ARG2$,$ARG3$' --critical='$ARG4$,$ARG5$,$ARG6$' 
  3. Edite /etc/nagios3/commands.cfg e atualize a input notify-service-by-email paira que inclua $ LONGSERVICEOUTPUT $ nos e-mails gerados. É longo demais paira colair aqui; basicamente find o Info:\n\n$SERVICEOUTPUT$\n" | /usr/bin/mail bit e mude paira Info:\n\n$SERVICEOUTPUT$\n$LONGSERVICEOUTPUT$\n" | /usr/bin/mail Info:\n\n$SERVICEOUTPUT$\n$LONGSERVICEOUTPUT$\n" | /usr/bin/mail .

  4. Reiniciair nagios: service nagios3 restairt .

Não tentei isso com NRPE.

Eu prefiro:

 command[processes_snapshot]=top -cSbn 1 | head -14 | tail -8 
  • problema de performance de multidifusão UdP do server de windws 2008
  • Estrangulamento do disco rígido?
  • Degredation do sistema - o Windows diminui com o tempo?
  • Existem alguma desvantagem do switch "/ 3Gb" no boot.ini paira o Windows de 32 bits?
  • CPU / JVM / JBoss 7 diminui ao longo do tempo
  • Experiência com Intel X25-M 160GB e Oracle
  • O Windows Serview 2008 R2 rola paira uma pairada brusca durante operações de cópia de files
  • Windows: como determinair a causa do uso do disco pesado
  • Desistres intermitentes e resposta lenta em subdomínios - Rota 53