5 Sinais de alerta de uma falha crítica de equipamento
Não subestime o quanto as corporações de hoje dependem de sistemas críticos todos os dias. É por isso que é apenas senso comum que uma empresa seja capaz de avaliar o risco de falha do equipamento. Sem garantias de quando um equipamento pode falhar, deve haver pelo menos uma estimativa precisa de quando ele não pode mais ser considerado confiável.
Uma peça de equipamento invisível pode não parecer crítica para um negócio, mas quando uma única ventoinha de resfriamento falha, faz com que um gerador pare e cause problemas caros a dezenas ou mesmo centenas de milhares de usuários por um período prolongado, você pode ver que ser capaz de estimar quais componentes de sua infraestrutura podem falhar - e quando - é de suma importância. É aí que entra o tempo médio entre falhas (MTBF), o método no qual os profissionais de TI confiam para fornecer estimativas precisas sobre quando o equipamento crítico falhará. Aqui, damos uma olhada no que acaba alguns tipos comuns de equipamentos críticos e como o MTBF pode ajudar a salvar o dia.
O que é MTBF?
A cada equipamento de TI fabricado é atribuído um número de modelo exclusivo. Aqueles que desempenham algum papel na infraestrutura crítica são fornecidos aos clientes com uma estimativa de MTBF. Os cálculos complexos para calcular o MTBF para um equipamento ocorrem durante a longa fase de testes dentro da pesquisa e desenvolvimento de um produto e são relativamente específicos para um determinado modelo.
Se você está procurando encontrar o MTBF para um determinado equipamento, você o encontrará na folha de especificações detalhada fornecida pelo fabricante. Você também pode entrar em contato diretamente com o fabricante.
Roteamento
Um roteador de nível empresarial inclui muitas partes, algumas móveis e outras estáticas. Unidades de fonte de alimentação (PSU) e coolers de resfriamento têm partes móveis e são esses elementos que tendem a ser pontos de falha, especialmente se a unidade não estiver alojada em um data center relativamente livre de poeira. Felizmente, com alguma entrada do administrador, a maioria dos roteadores se reportará a uma instalação SysLog, para que qualquer componente com falha possa ser sinalizado.
Comuta
Na mesma linha, o próximo nível dentro de uma rede corporativa é o hardware de comutação. Embora os switches de nível empresarial também tendam a depender de coolers, geralmente há menos colers do que aqueles encontrados em um chassi de roteador. Se os mecanismos do cooler estiverem intactos, um switch defeituoso geralmente se comportará mal no nível do software, desativando uma porta do switch inesperadamente ou, mais comumente, exibindo um comportamento incomum, como descartar pacotes, causando níveis variados de interrupção do tráfego ou alterando incorretamente configurações definidas pelo usuário sem ser solicitado a fazê-lo.
O gigante da rede Cisco anuncia um de seus roteadores como tendo um MTBF de 188.574 horas para o modelo Cisco Catalyst 3750G-24TS. Se dividirmos isso por 8.765,81277 (o número de horas em um ano), veremos que esse modelo tem uma estimativa de MTBF de cerca de 21,5 anos. Esse número é tranquilizador quando você considera que esse equipamento precisa funcionar bem 24 horas por dia, 7 dias por semana, sem falhas, embora, é claro, na realidade seja apenas uma indicação de sua confiabilidade. Mesmo assim, dá aos usuários um palpite sobre quanto tempo esse equipamento pode durar.
Poder resiliente
Fontes de alimentação ininterrupta (UPS) conectadas a um grande número de baterias podem fornecer energia de backup dentro da empresa durante o breve período antes de os geradores girarem durante uma queda de energia. Certas falhas de software específicas podem se materializar em um nobreak, como em qualquer equipamento, mas, geralmente, as baterias das quais eles extraem energia geralmente causam mais preocupação. Se uma bateria de um nobreak for desligada e recarregada com frequência, sua capacidade diminuirá mais rapidamente e seu tempo de operação diminuirá drasticamente. Sem surpresa, também é possível que as baterias do nobreak falhem totalmente. Um nobreak pode relatar através de modems e redes quando ocorrem falhas, mas, na maioria das vezes, os nobreaks mais antigos acionam alarmes audíveis quando surge um problema.
Armazenamento protegido
Os discos rígidos que usamos hoje e nos quais confiamos em um grau tão alto tornaram-se significativamente mais confiáveis na última década. Eles estão, no entanto, longe de serem infalíveis e, dependendo de qual estudo você pode acreditar, eles parecem funcionar corretamente por um período mais longo dependendo de uma série de fatores. Se o relatório detalhado estiver ativado e a unidade estiver fornecendo feedback sobre erros, então setores corrompidos e falhas de leitura/gravação são a chave para detectar quando um disco dentro de uma matriz de armazenamento está falhando. Outro problema comum em servidores que usam vários discos conectados a um controlador RAID é que o próprio controlador falhará. Infelizmente, às vezes os discos rígidos simplesmente param de funcionar sem qualquer aviso, um problema difícil de se proteger de forma confiável.
Servidores
Além das unidades incorporadas aos servidores e das partes móveis, como os coolers de resfriamento e PSUs mencionados acima, vários problemas também podem surgir nos componentes de hardware de um servidor. O relatório no nível do software (que geralmente se refere ao BIOS ou a outros diagnósticos de componentes de hardware de baixo nível) é fundamental para identificar quando algo falhou ou, mais importante, está mostrando sinais de falha. Um problema que pode não ser imediatamente óbvio é aquele que afeta as placas-mãe. Faz todo o sentido que as máquinas não gostem de muito calor. Mas ainda hoje, se uma placa de circuito moderna é submetida a uma rápida perda de calor - ou passa de um estado muito quente a um resfriamento repentino - rachaduras podem aparecer, fazendo com que a placa falhe desastrosamente. É um problema a ter em mente, especialmente se você estiver movendo equipamentos entre edifícios dentro de um período de tempo implacável de janela de manutenção.
MTBF: também pode falhar
Por mais úteis que sejam as previsões de MTBF, é importante calcular os níveis de risco aceitáveis com qualquer equipamento do qual uma empresa deva depender. Infelizmente, mesmo com todas as garantias estatísticas fornecidas pelos fabricantes, a única forma concreta de garantir a disponibilidade dos equipamentos que executam sistemas críticos é duplicando-a para permitir redundância.
Cada peça individual de hardware usada na empresa é composta de muitos componentes diferentes, portanto, o verdadeiro MTBF está longe de ser um cálculo trivial. Claramente, é fundamental não basear o futuro de uma empresa nessas medições de probabilidade, mas, em vez disso, usá-las como um parâmetro para tomar decisões informadas em relação à continuidade dos negócios e aos procedimentos de recuperação de desastres. Afinal, reduzir o tempo de inatividade por meio de um meticuloso planejamento antecipado pode significar a diferença entre um negócio bem-sucedido e um fracasso comercial.
Comentários
Postar um comentário