Vou fornecer consultoria de aiops e sre para devops e confiabilidade na nuvem
Engenheiro de Infraestrutura GPU LLMOps NVIDIA Kubernetes Neo Cloud
Sobre este Serviço
Você está lançando produtos LLM, mas está enfrentando dificuldades com infraestrutura de GPU, escalabilidade e confiabilidade? Eu ajudo equipes a construir plataformas de GPU de nível de produção de ponta a ponta.
O que você recebe: configuração de GPU na nuvem Neo e fortalecimento do cluster, agendamento de GPU no Kubernetes e autoescalonamento para treinamento e inferência de LLM (vLLM/Ollama/Triton), MLOps/LLMOps, CI/CD para modelos e pipelines de dados, monitoramento de GPU e alertas usando NVIDIA DCGM + Prometheus + Grafana, otimização de custos, planejamento de capacidade e melhores práticas de observabilidade.
Os entregáveis podem incluir revisão de arquitetura, plano de implantação e implementação prática, dependendo do nível do pacote.
Ferramentas:
Docker
•
GitLab
•
Jenkins
•
GitHub
•
CircleCI
Frameworks:
Terraform
•
Ansible
Linguagem de programação:
Bash
•
Python
•
Golang
Especialidade:
Instalação
•
Migração
•
Configuração
