Vou construir um conjunto de dados SFT específico de domínio para ajuste fino de LLM

Algumas informações foram traduzidas automaticamente.

Vietnã

Eu falo Vietnamita, Inglês

Dados para ajuste fino de LLM e automação com IA

Sou uma engenheira de IA com formação em Ciência da Computação, especializada em dados de ajuste fino de LLM e sistemas de automação de IA. Crio conjuntos de dados SFT prontos para produção, pipelines...
Sobre este Serviço

O ajuste fino de um modelo de linguagem começa com os dados. Respostas vagas, amostras duplicadas ou formatos incorretos prejudicarão seu modelo, independentemente de quão boa seja sua configuração de treinamento.


Eu construo conjuntos de dados SFT específicos de domínio através de uma pipeline de 5 etapas: geração, validação, deduplicação, pontuação como juiz pelo LLM e revisão de qualidade humana. Cada amostra que chega ao seu ciclo de treinamento passou por todas as cinco etapas.


O QUE VOCÊ RECEBE

  • train.jsonl + val.jsonl (divisão 90/10)
  • data_card.md (documentação do conjunto de dados)


FORMATOS

  • Alpaca single-turn, todos os pacotes
  • ShareGPT multi-turn, Standard e Premium


COMPATÍVEL COM

  • Axolotl, LLaMA-Factory, Unsloth, OpenAI Fine-tune API, Together AI


DOMÍNIOS

E-commerce, perguntas e respostas de saúde, sumarização jurídica, assistente de codificação, suporte SaaS, finanças, RH, EdTech, suporte multilíngue e mais. Envie uma mensagem se o seu não estiver na lista.


Não tem certeza de qual pacote se encaixa no seu caso de uso? Envie uma mensagem antes de fazer o pedido.

Linguagem de Programação:

Python

Pytorch

Estruturas e ferramentas para modelos de IA:

Tipo de dados:

Texto

Motor de IA:

GPT

Gemini

DeepSeek

Llama

Grok

Meu portfólio

Tags relacionadas