Ver categorias
Explorar
Fiverr Pro
Português
$
USD
Vou arquitetar implantações privadas de LLMs e otimização de inferência vLLM
Luis Ens
Level 2
Sobre este Serviço
Tradução automática
As APIs padrão de cloud LLM apresentam sérias responsabilidades de conformidade para indústrias reguladas e introduzem custos imprevisíveis de escalonamento de tokens. No entanto, hospedar localmente pesos de código aberto (Llama, DeepSeek) sem otimizações leva a crashes imediatos de CUDA por falta de memória, alta latência de tokens e uso subutilizado de clusters caros de GPU.
Eu projeto ambientes privados dedicados e seguros de LLM, implantando frameworks avançados de inferência e camadas de quantização para alcançar máxima taxa de processamento e completa isolamento de dados.
Foco de Engenharia
- Serviço de Alta Taxa: Implementação de motores vLLM e NVIDIA TensorRT-LLM usando PagedAttention para eliminar fragmentação de memória e acelerar processamento em lotes simultâneos.
- Pipeline de Quantização de Modelos: Execução de AWQ, GPTQ ou compilação FP8 para reduzir até 75% do uso de VRAM físico sem comprometer a precisão em benchmarks semânticos.
- Configuração de Arquitetura de Hardware: Configuração de paralelismo ótimo de tensores e pipelines em ambientes multi-GPU (A100, H100, L40S).
- Camada de Middleware de API: Exposição de endpoints REST internos compatíveis com OpenAI para integração rápida e segura na sua stack de aplicações.
Conheça mais sobre Luis Ens
Luis Ens
Experte fuer KI Automatisierung Software Entwicklung und B2B Akquise
Level 2
- A partir deAlemanha
- Membro desdejul. de 2025
- Responde em aprox.:11 horas
- Última entrega3 dias
Idiomas
Alemão, Inglês
Als spezialisierter AI Developer & Integration Specialist mit über 3 Jahren Erfahrung in der Softwareentwicklung verwandle ich komplexe KI-Technologien in produktive Business-Lösungen. Mein Fokus liegt auf der Entwicklung, Feinabstimmung und nahtlosen Integration von künstlicher Intelligenz, autonomen Agenten und Automatisierungs-Workflows in bestehende Unternehmensstrukturen, Web- und Mobile-Anwendungen.
Tradução automática
