Vou fazer projetos de modelos de linguagem grande
Machine Learning, Finanças Quantitativas, Dados
Sobre este Serviço
Eu vou treinar modelos de linguagem personalizados a partir do zero ou ajustar LLMs de peso aberto com seus dados. Construo modelos de transformadores estilo GPT do zero usando PyTorch, variando de demos pequenas com 10M parâmetros até modelos com 50M parâmetros. Também faço ajuste fino de modelos existentes como Llama, Phi-3 e Mistral com seu conjunto de dados usando LoRA/QLoRA.
O que você recebe:
- Peso do modelo treinado completamente e tokenizer ajustado aos seus dados
- Código fonte completo com comentários para treinamento e inferência
- Script de geração de texto + instruções de configuração
- Logs de treinamento, curvas de perda e exemplos de saída
- Direitos comerciais completos
Eu cuido de pré-processamento de dados, treinamento de tokenizer, arquitetura do modelo e pipeline de treinamento. Você só precisa fornecer seu conjunto de dados em formato .txt, .csv ou PDF, ou eu usarei dados de código aberto do HuggingFace, Kaggle e outros.
Importante: Modelos com menos de 50M de parâmetros são feitos para demos, uso educacional e aprendizado do seu estilo de dados específico. Eles demonstram como os LLMs funcionam, mas não terão conhecimento amplo como o ChatGPT.
Especialidade:
Feature learning
•
Análise preditiva
•
Outros
Frameworks:
Scikit-learn
•
keras
•
PyTorch
•
Panda
Tipo de dados:
Texto
Linguagem de programação:
Python
•
SQL
•
Colab
•
NoSQL
Meu portfólio
Outros serviços de Ciência de dados e ML que eu ofereço
Perguntas frequentes
Tradução automática
O que exatamente recebo?
Você recebe: 1) Pesos do modelo treinado .safetensors 2) Tokenizador personalizado 3) Código fonte completo em Python para treinamento + inferência 4) Requirements.txt e guia de instalação 5) Logs de treinamento com gráficos de perda/perplexidade 6) Gerações de texto de exemplo 7) Direitos comerciais completos.
Você fornece os dados de treinamento?
Se você tiver um conjunto de dados personalizado, pode fornecê-lo. Eu cuido da limpeza, formatação, tokenização e treinamento. Formatos aceitos: .txt, .csv, .json ou PDF. Mas se você não tiver, a seu critério, usarei dados de código aberto de sites como HuggingFace, Kaggle e outros para treinar nosso modelo.
Meu modelo de 10M ou 50M vai ser como o ChatGPT?
Não. Modelos com menos de 100M de parâmetros são para demonstrações, provas de conceito e aprender estilos/padrões específicos dos seus dados. Eles vão gerar texto no estilo do seu domínio, mas não terão conhecimento amplo, raciocínio ou seguir instruções como o ChatGPT. Para isso, você precisa de modelos com 7B+ e datasets massivos.
Quanto de dado preciso fornecer?
Para modelos de 10M: de 10MB a 100MB de texto. Para modelos de 50M: de 50MB a 500MB de texto. Mais dados = melhores resultados. 1MB ≈ 200 mil tokens. Se estiver em dúvida, envie seu dataset e eu verificarei se é suficiente antes de começarmos.
