Nossos Premium Partners do ATS Group trabalham em parceria com uma grande agência federal do governo dos Estados Unidos. Eles são responsáveis principalmente por fornecer serviços de armazenamento e compute-as-a-service, garantindo que a agência permaneça sempre ativa e operacional.
O desafio
O principal objetivo da agência era simplificar o monitoramento de capacidade e desempenho sem custos adicionais. Além disso, havia requisitos extremamente rígidos de regulamentação e supervisão de SLO que precisavam ser cumpridos, especialmente no que dizia respeito a capacidade e performance.
Não existia no mercado um software comercial que atendesse a todas as necessidades de forma nativa. Ainda assim, era fundamental contar com uma solução poderosa e flexível o suficiente para monitorar praticamente qualquer recurso.
A solução
Como a agência possui vários data centers de diferentes portes, foi adotada uma estrutura distribuída com proxies, relatórios de SLA detalhados, integração com o ServiceNow, diversas integrações internas e uma solução de monitoramento com Zabbix, incluindo alertas preditivos.
Apesar de utilizarem vários softwares, a operação depende principalmente de armazenamento, VMWare e Kubernetes. Além disso, contam com diversos escritórios e data centers satélites, permitindo que, em caso de falha em um data center, outro entre em operação rapidamente, reduzindo ao mínimo o tempo de indisponibilidade.
A infraestrutura monitora mais de 30 métricas e mais de um trilhão de pontos de dados distribuídos em 10 grandes tecnologias, grande parte deles exigidos por regulamentações. Foram necessárias soluções específicas para milhares de métricas detalhadas, como núcleos e frequência de CPU, métricas de uso processador-núcleo e taxas de virtualização entre hosts e máquinas virtuais.
O ambiente Openshift baseado em Kubernetes também precisava ser monitorado com especificações exatas. O deployment foi realizado via Helm Chart, com os componentes do Zabbix instalados como recursos do Kubernetes, monitorando tanto aplicações quanto recursos em nível de nó, e enviando os dados agregados para o Zabbix Server.
As métricas são coletadas pela API do Kubernetes e pelo kube-state-metrics. A solução também utiliza métricas exportadas pelo Prometheus ou chamadas diretas a endpoints HTTP. Para a configuração, proxies e hosts foram criados no Zabbix para representar nós e clusters Kubernetes, enquanto templates e macros foram configurados para apontar para a API do Kubernetes e endpoints do kube-state-metrics.
Os resultados
Graças ao Zabbix, a agência federal passou a contar com uma solução que centraliza o monitoramento do Kubernetes em conjunto com outros recursos de TI, suporta métricas específicas de aplicações sem depender exclusivamente de endpoints Prometheus e oferece flexibilidade para personalização e escalabilidade.
Além disso, os recursos de alerta preditivo do Zabbix identificam anomalias nos dados operacionais e emitem alertas antecipados sobre qualquer situação que possa impactar aplicações ou serviços. Isso permite que a agência cumpra os SLAs, otimize a experiência dos usuários e aumente a produtividade.
Conclusão
A flexibilidade e a facilidade de personalização do Zabbix o tornam ideal para organizações que precisam de uma fonte única e confiável de informações, mesmo nos ambientes regulatórios mais exigentes.
Para saber mais sobre o que o Zabbix pode oferecer ao setor público, fale com a nossa equipe.