Eu vou diagnosticar e resolver os problemas de desempenho do seu cluster HPC

Algumas informações foram traduzidas automaticamente.

Índia

Eu falo Inglês
Como Arquiteto de Soluções HPC, configurei sete sistemas HPC na Índia, integrando hardware e software de ponta para tarefas computacionais de alta demanda. Sou especializado em otimizar o Slurm para a...
Sobre este Serviço

A maioria dos clusters HPC opera entre 30% e 40% de sua capacidade real.


Não porque o hardware esteja errado. Mas porque a configuração nunca foi ajustada para a carga de trabalho real.


Já identifiquei esse problema exato em instituições de pesquisa, laboratórios de IA e equipes de engenharia. As soluções estão quase sempre no software e na configuração, não no hardware.


O que o diagnóstico cobre:


Gaps na configuração do Slurm (DefMemPerCPU, cgroup, fairshare)

Validação da saúde da rede InfiniBand e velocidade do link

Throughput de armazenamento (configuração de stripe do Lustre/BeeGFS/NFS)

Binding de processos MPI e topologia NUMA

Eficiência do HPL versus pico teórico

Detecção de falhas silenciosas e saúde dos nós


O que você recebe:


Diagnóstico escrito com classificação de severidade por achado

Solução exata para cada problema, comandos incluídos, números de benchmark antes/depois

Ordem de prioridade: o que consertar primeiro para impacto máximo


O que preciso de você: acesso SSH ao nó de login, suas especificações do cluster e 2 horas de baixa atividade para benchmarking.


Prazo: 24-48 horas após o acesso ser concedido.

Dispositivo:

Servidor

Sistema operacional:

Linux

Outros serviços de Suporte de TI que eu ofereço

Tags relacionadas