Por que monitorar o Hardware de um servidor?
Resposta simples: Proatividade
Monitorando o hardware de servidores, neste caso de servidores Dell, podemos evitar paradas de serviços de Ti.
O único requisito para obter todas as informações citadas no artigo é ter a porta IDRAC 7 ou Dell OpenManage Systems.
Vou citar alguns exemplos de casos reais que temos passado, ganhando a confiança de nossos clientes e aumentado a disponibilidade dos serviços evitando impacto nos negócios.
O clássico:
Ventoinhas:
Servidores de Torre tem um mínimo de 4 ventoinhas, já em servidores de rack Dell temos um mínimo de 8 ventoinhas para esfriar e melhorar o fluxo de ar de todos os componentes, em especial dos CPUs, Bancos de memória, disco e fonte de alimentação.
Quando um ventoinha falha, o servidor notifica de duas formas: visual, através de um led da cor laranja, e se está configurado o serviço de SMTP para envio de e-mail de alerta para o administrador.
O mais comum é que o administrador dificilmente verifique todos os servidores visualmente para ver se tem alarmes(pouco prático e nada proativo) e sobre apenas uma notificação de e-mail,e se ele tiver vários tipos de alerta, a tendência é que tenha uma regra no outlook para mover para uma pasta que geralmente é ignorada.
Fonte de energia:
O problema típico da fonte de energia não é queimar repentinamente, e sim a falha gerada por aquecimento, geralmente ocorre quando há uma parada da ventoinha.
Temos encontrado situações em datacenters onde vimos as ventoinhas das fontes queimadas ou travadas há muito tempo mas, como a temperatura ambiente está bem controlada não sofre com calor. Porém, na primeira manutenção no sistema de ar condicionado, estes servidores irão super aquecer rapidamente ocasionando a parada do servidor, além de gerar outros problemas como queima de outros componentes eletrônicos e perda de dados ao ser deligado automaticamente por proteção.
Obs: se o serviço que roda no servidor é crítico (geralmente é na maioria dos casos) recomendamos sempre no dimensionamento dos servidores modelos com fonte redundante, porque em situação de falha total é possível substituir a fonte sem desligamento do servidor
Agora vou descrever exatamente a função de cada sensor monitorado no gráfico por nosso sistema de monitoramento.
- Ampere Status: monitora se o consumo está dentro da capacidade da (s) fonte (s). Se ficar próximo a potência da fonte, um alerta será emitido.
- Voltagem Status: monitora a tensão entregue na fonte da rede elétrica, possíveis alarmes em caso de baixa e alta tensão ou desligamento.
- Power Suply Status: o estado das fontes de alimentação, qualquer problema parcial ou total será notificado.
- Power Units Status: o estado das fontes de alimentação por unidade.
- Temperature Status: Temperatura geral do servidor.
- Cooling Units Status: Estado das ventoinhas da ou das fontes de alimentação
- Cooling Devices Status: Indicador das ventoinhas por dispositivo.
- Processor Status: Monitoramento do estado do processador.
- Memory Status: Monitoramento do estado da memória.
- Battery Status: Estado da(s) bateria (s) interna do servidor e controladoras.
- Chasis Status: Estado de componentes ligados ao chassis
- Intrusion Detection: Indicador se o servidor está aberto ou foi aberto fisicamente.
- Global System Status: Este é o indicador principal e é o mais interessante porque aponta qualquer dos problemas mencionados nos sensores acima, e também outros componentes que não tem um sensor dedicado mas é identificado o problema com uma análise mais detalhada em conjunto com os logs.
Na minha visão com este sensor temos o monitoramento de hardware completo do servidor.
Você achou que faltou algum componente a ser monitorado de grande utilidade? Participe!