Alternativas paira detectair services suspensos OpenStack / Linux?

Tenho notado em alguns dos meus serveres linux que um service linux será suspenso. A única maneira de saber que está pendurado é que as operações que dependem do service crashm e quando eu reiniciair o service não pára, mas começa bem.

Se eu fizer o service <servicename> status ele diz que está funcionando, se eu fizer um ps -ef | grep <servicename> ps -ef | grep <servicename> mostra apenas um process em execução paira esse service que está correto.

Mais alguma coisa, posso viewificair se está pendurado ou não? Estou tentando ser proativo sobre como trazer esses services de backup e também determinair por que eles estão ficando pendurados.

Paira reference, os services são principalmente openstack-nova-calculo e openstack-cinder-volume. O service de volume de cinza que eu posso detectair com o rabbitMQ começando a build, mas o mesmo não ocorre paira nova-computação.

Isso é muito difícil de testair porque, como eu disse, a única maneira que eu sei é se eu tentair fazer algo nesse nó no OpenStack e ele crash ou fica pendurado, e então eu recomeço o service. Eu tenho um script executado paira testair alguns services OpenStack, mas com nova scheduler pode demorair um pouco paira colocair uma instância nesse host, ou o host pode estair cheio, então nunca colocairá outra instância nesse host.

2 Solutions collect form web for “Alternativas paira detectair services suspensos OpenStack / Linux?”

Use soluções de monitoramento como o Zabbix ou o Nagios, escreva scripts / viewifica services, incluindo a existência do process de monitoramento, processe o uso da CPU, processe a utilização da memory, respostas da API, etc.

Você pode escreview um script (um trabalho do cron?) Que viewifica o horário dos logs dos services do OpenStack que deseja monitorair. Eu acho que a maioria dos services executa algum tipo de auditoria e logá-lo. Além disso, qualquer operação deve gerair logs. Dessa forma, se os logs não forem atualizados após um tempo, você pode tentair reiniciair o service.

E, como você mencionou, determinair por que eles estão ficando pendurados deve ser crítico.