Vou fazer projetos de modelos de linguagem grande

Algumas informações foram traduzidas automaticamente.

Índia

Eu falo Marata, Hindi, Inglês

Machine Learning, Finanças Quantitativas, Dados

Oi, eu sou o Aniket! Sou especialista em Machine Learning, Deep Learning e Visão Computacional, oferecendo soluções de especialista para tarefas complexas de IA. Minha expertise inclui: IA central: T...

Saiba mais

Sobre este Serviço

Eu vou treinar modelos de linguagem personalizados a partir do zero ou ajustar LLMs de peso aberto com seus dados. Construo modelos de transformadores estilo GPT do zero usando PyTorch, variando de demos pequenas com 10M parâmetros até modelos com 50M parâmetros. Também faço ajuste fino de modelos existentes como Llama, Phi-3 e Mistral com seu conjunto de dados usando LoRA/QLoRA.

O que você recebe:

Peso do modelo treinado completamente e tokenizer ajustado aos seus dados
Código fonte completo com comentários para treinamento e inferência
Script de geração de texto + instruções de configuração
Logs de treinamento, curvas de perda e exemplos de saída
Direitos comerciais completos

Eu cuido de pré-processamento de dados, treinamento de tokenizer, arquitetura do modelo e pipeline de treinamento. Você só precisa fornecer seu conjunto de dados em formato .txt, .csv ou PDF, ou eu usarei dados de código aberto do HuggingFace, Kaggle e outros.

Importante: Modelos com menos de 50M de parâmetros são feitos para demos, uso educacional e aprendizado do seu estilo de dados específico. Eles demonstram como os LLMs funcionam, mas não terão conhecimento amplo como o ChatGPT.

Saiba mais

Tela Inteira

Especialidade:

Feature learning

•

Análise preditiva

•

Outros

Frameworks:

Scikit-learn

•

keras

•

PyTorch

•

Panda

Tipo de dados:

Texto

Linguagem de programação:

Python

•

SQL

•

Colab

•

NoSQL

Ferramentas:

caderno Jupyter

•

opencv

•

OpenNN

•

fluxo tensor

•

Excel

•

Colab

+ 1

Meu portfólio

Outros serviços de Ciência de dados e ML que eu ofereço

Machine learning
A partir de US$ 100

Perguntas frequentes

Tradução automática

O que exatamente recebo?

Você recebe: 1) Pesos do modelo treinado .safetensors 2) Tokenizador personalizado 3) Código fonte completo em Python para treinamento + inferência 4) Requirements.txt e guia de instalação 5) Logs de treinamento com gráficos de perda/perplexidade 6) Gerações de texto de exemplo 7) Direitos comerciais completos.

Você fornece os dados de treinamento?

Se você tiver um conjunto de dados personalizado, pode fornecê-lo. Eu cuido da limpeza, formatação, tokenização e treinamento. Formatos aceitos: .txt, .csv, .json ou PDF. Mas se você não tiver, a seu critério, usarei dados de código aberto de sites como HuggingFace, Kaggle e outros para treinar nosso modelo.

Meu modelo de 10M ou 50M vai ser como o ChatGPT?

Não. Modelos com menos de 100M de parâmetros são para demonstrações, provas de conceito e aprender estilos/padrões específicos dos seus dados. Eles vão gerar texto no estilo do seu domínio, mas não terão conhecimento amplo, raciocínio ou seguir instruções como o ChatGPT. Para isso, você precisa de modelos com 7B+ e datasets massivos.

Quanto de dado preciso fornecer?

Para modelos de 10M: de 10MB a 100MB de texto. Para modelos de 50M: de 50MB a 500MB de texto. Mais dados = melhores resultados. 1MB ≈ 200 mil tokens. Se estiver em dúvida, envie seu dataset e eu verificarei se é suficiente antes de começarmos.

Procurando criatividade?

Procurando por um especialista em tecnologia?

Pronto para alcançar e converter consumidores?

Procurando escritores?

Faça seu negócio funcionar de forma mais inteligente

O que está incluído