Eu vou diagnosticar e resolver os problemas de desempenho do seu cluster HPC
Sobre este Serviço
A maioria dos clusters HPC opera entre 30% e 40% de sua capacidade real.
Não porque o hardware esteja errado. Mas porque a configuração nunca foi ajustada para a carga de trabalho real.
Já identifiquei esse problema exato em instituições de pesquisa, laboratórios de IA e equipes de engenharia. As soluções estão quase sempre no software e na configuração, não no hardware.
O que o diagnóstico cobre:
Gaps na configuração do Slurm (DefMemPerCPU, cgroup, fairshare)
Validação da saúde da rede InfiniBand e velocidade do link
Throughput de armazenamento (configuração de stripe do Lustre/BeeGFS/NFS)
Binding de processos MPI e topologia NUMA
Eficiência do HPL versus pico teórico
Detecção de falhas silenciosas e saúde dos nós
O que você recebe:
Diagnóstico escrito com classificação de severidade por achado
Solução exata para cada problema, comandos incluídos, números de benchmark antes/depois
Ordem de prioridade: o que consertar primeiro para impacto máximo
O que preciso de você: acesso SSH ao nó de login, suas especificações do cluster e 2 horas de baixa atividade para benchmarking.
Prazo: 24-48 horas após o acesso ser concedido.
Dispositivo:
Servidor
Sistema operacional:
Linux
