Vou criar painéis profissionais do Grafana para kubernetes, linux e HPC
Engenheiro de Sistemas Linux e HPC de Alto Desempenho
Sobre este Serviço
Sobre este serviço
Otimize sua infraestrutura! Obtenha visibilidade de nível empresarial com painéis personalizados do Grafana, criados por um Especialista em IA & HPC.
Na IA e Computação de Alto Desempenho, desempenho é tudo. Eu construo stacks avançados de observabilidade para ambientes complexos. Seja você gerenciando um cluster de treinamento de IA, Kubernetes (K8s), ou um sistema Linux HPC, forneço insights em tempo real que você precisa.
O que eu ofereço:
- Monitoramento de HPC & IA: Métricas detalhadas de uso de GPU (NVIDIA/AMD), jobs no Slurm e InfiniBand.
- Observabilidade do Kubernetes: Monitoramento completo para K8s (GKE, EKS, AKS), focando na saúde dos recursos e escalabilidade.
- Domínio em Linux: Dashboards detalhados para CPU, RAM, I/O de disco e throughput de rede.
- Alertas inteligentes: Configuração de alertas por Slack ou Email para detectar gargalos cedo.
- PromQL avançado: Consultas especializadas do Prometheus para visualização de dados em alta velocidade.
Por que me escolher?
Especialista em IA: Entendo de treinamentos de LLM e cargas de trabalho de inferência de IA. Desempenho em HPC: Dashboards otimizados para grandes volumes de dados. Tecnologia moderna: Especialista em Prometheus, Loki e OpenTelemetry.
Vamos transformar suas métricas brutas em ações de desempenho hoje mesmo!
Meu portfólio
Perguntas frequentes
Tradução automática
Você consegue monitorar uso de GPU para treinamento de modelos de IA?
Sim! Sou especializado em acompanhar métricas de GPU NVIDIA e AMD, incluindo uso de memória, temperatura e consumo de energia. Isso é essencial para otimizar clusters de treinamento de IA e garantir que seu hardware funcione de forma eficiente.
Quais fontes de dados você suporta?
Trabalho com diversas fontes de dados, incluindo Prometheus, VictoriaMetrics, InfluxDB, Loki (para logs) e ferramentas nativas de nuvem como AWS CloudWatch e Google Stackdriver. Também posso integrar exporters personalizados de métricas de IA/ML.
Você consegue configurar alertas para Slack ou Email?
Com certeza. Configuro regras de alertas inteligentes para que você seja notificado imediatamente sobre alta carga de CPU/GPU, falhas de pods no Kubernetes ou falhas de jobs no seu cluster HPC. Também posso configurar roteamento de plantão.
Você suporta agendadores HPC como Slurm?
Sim. Posso criar dashboards que visualizam filas de jobs do Slurm, disponibilidade de nós e saúde das partições. Assim, administradores e pesquisadores de HPC têm uma visão clara da utilização do cluster.
Preciso fornecer o servidor para o Grafana?
Posso trabalhar com sua configuração atual ou ajudar a implantar uma nova instância na AWS, GCP, Azure ou Bare Metal. Também ofereço suporte ao Grafana Cloud, caso prefira uma solução gerenciada.

