Vou construir um conjunto de dados SFT específico de domínio para ajuste fino de LLM

Name: construir um conjunto de dados SFT específico de domínio para ajuste fino de LLM
Brand: Fiverr
Availability: InStock

Algumas informações foram traduzidas automaticamente.

Dangineer Phan

Vietnã

Eu falo Vietnamita, Inglês

Dados para ajuste fino de LLM e automação com IA

Sou uma engenheira de IA com formação em Ciência da Computação, especializada em dados de ajuste fino de LLM e sistemas de automação de IA. Crio conjuntos de dados SFT prontos para produção, pipelines...

Saiba mais

Sobre este Serviço

O ajuste fino de um modelo de linguagem começa com os dados. Respostas vagas, amostras duplicadas ou formatos incorretos prejudicarão seu modelo, independentemente de quão boa seja sua configuração de treinamento.

Eu construo conjuntos de dados SFT específicos de domínio através de uma pipeline de 5 etapas: geração, validação, deduplicação, pontuação como juiz pelo LLM e revisão de qualidade humana. Cada amostra que chega ao seu ciclo de treinamento passou por todas as cinco etapas.

O QUE VOCÊ RECEBE

train.jsonl + val.jsonl (divisão 90/10)
data_card.md (documentação do conjunto de dados)

FORMATOS

Alpaca single-turn, todos os pacotes
ShareGPT multi-turn, Standard e Premium

COMPATÍVEL COM

Axolotl, LLaMA-Factory, Unsloth, OpenAI Fine-tune API, Together AI

DOMÍNIOS

E-commerce, perguntas e respostas de saúde, sumarização jurídica, assistente de codificação, suporte SaaS, finanças, RH, EdTech, suporte multilíngue e mais. Envie uma mensagem se o seu não estiver na lista.

Não tem certeza de qual pacote se encaixa no seu caso de uso? Envie uma mensagem antes de fazer o pedido.

Saiba mais

build a domain specific sft dataset for llm finetuning

Tela Inteira

Visualizar Apresentação

Linguagem de Programação:

Python

•

Pytorch

Estruturas e ferramentas para modelos de IA:

+ 2

Tipo de dados:

Texto

Motor de IA:

GPT

•

Gemini

•

DeepSeek

•

Llama

•

Grok

Meu portfólio

Perguntas frequentes

Tradução automática

A qualidade dos dados é garantida?

Cada amostra passa por uma pipeline de 5 etapas - geração, validação, deduplicação, pontuação como juiz pelo LLM e revisão de qualidade humana. Amostras vagas, inconsistentes ou fora do tópico são filtradas ou acionam uma nova execução. O que você recebe passou por todas as cinco etapas.

São esses dados sintéticos?

Sim, gerados por um LLM de última geração. Essa é a prática padrão para construção de conjuntos de dados SFT e funciona bem para a maioria dos casos de uso de ajuste fino. Casos extremos do mundo real podem se beneficiar de exemplos adicionais escritos por humanos.

Qual a diferença entre Alpaca e ShareGPT?

Alpaca é single-turn - uma instrução, uma resposta. ShareGPT é conversacional multi-turn. Use Alpaca para tarefas de seguir instruções ou perguntas e respostas. Use ShareGPT para ajuste fino de chatbot ou assistente onde o contexto importa.

Você consegue lidar com domínios nicho ou raros?

Sim. Já trabalhei com domínios como suporte à saúde mental, finanças islâmicas, assistência jurídica vietnamita e SaaS técnico B2B. Se seu domínio não estiver na lista, envie uma mensagem - a maioria é viável.

Quais frameworks de ajuste fino isso suporta?

Axolotl, LLaMA-Factory, Unsloth, OpenAI Fine-tune API e Together AI. Tanto Alpaca quanto ShareGPT estão prontos para produção para todos esses, de fábrica.

O que a data card inclui?

Domínio, quantidade de amostras, divisão treino/val, formato, tokens médios por amostra, método de deduplicação e uso pretendido. Documentação padrão para conjuntos de dados de ML de produção.

O que preciso fornecer para começar?

A Fiverr irá te orientar em tudo quando você fizer o pedido. Só algumas informações sobre seu caso de uso e preferências - nada complicado.

Tags relacionadas

Aprendizado de máquina

Procurando criatividade?

Procurando por um especialista em tecnologia?

Pronto para alcançar e converter consumidores?

Procurando escritores?

Faça seu negócio funcionar de forma mais inteligente