Vou fornecer consultoria de aiops e sre para devops e confiabilidade na nuvem

Algumas informações foram traduzidas automaticamente.

Estados Unidos

Eu falo Inglês

Engenheiro de Infraestrutura GPU LLMOps NVIDIA Kubernetes Neo Cloud

Eu construo infraestrutura escalável de GPU NVIDIA para treinamento e inferência de IA. Sou especialista em clusters de GPU no Kubernetes, treinamento/inferência de LLM e observabilidade de GPU. Ser...
Sobre este Serviço

Você está lançando produtos LLM, mas está enfrentando dificuldades com infraestrutura de GPU, escalabilidade e confiabilidade? Eu ajudo equipes a construir plataformas de GPU de nível de produção de ponta a ponta.

O que você recebe: configuração de GPU na nuvem Neo e fortalecimento do cluster, agendamento de GPU no Kubernetes e autoescalonamento para treinamento e inferência de LLM (vLLM/Ollama/Triton), MLOps/LLMOps, CI/CD para modelos e pipelines de dados, monitoramento de GPU e alertas usando NVIDIA DCGM + Prometheus + Grafana, otimização de custos, planejamento de capacidade e melhores práticas de observabilidade.

Os entregáveis podem incluir revisão de arquitetura, plano de implantação e implementação prática, dependendo do nível do pacote.

Ferramentas:

Docker

GitLab

Jenkins

GitHub

CircleCI

Frameworks:

Terraform

Ansible

Provedor de Nuvem:

Amazon Web Services

microsoft azure

Linguagem de programação:

Bash

Python

Golang

Especialidade:

Instalação

Migração

Configuração