Vou criar uma pipeline personalizada de reconhecimento e síntese de fala com whisper e elevenlabs

S
shhahhussain
S
shhahhussain
Shah

Level 1

4,8
4,8
Algumas informações foram traduzidas automaticamente.

Sobre este Serviço

Tradução automática

Descrição:

Garanta um processamento de voz preciso e em tempo real com um pipeline personalizado de STT/TTS. Vou criar um sistema de streaming de reconhecimento de fala e síntese de fala usando Whisper/Deepgram para STT e ElevenLabs/Azure/Google para TTS, com mecanismos de fallback para maior confiabilidade.

O que você recebe:

  • Pipeline de streaming de STT/TTS totalmente funcional para dados de voz
  • Integração do Whisper ou Deepgram para transcrição
  • Integração do ElevenLabs, Azure ou Google para TTS de alta qualidade
  • Streaming de WebSocket com baixa latência para desempenho em tempo real
  • Tratamento de erros e tentativas para garantir confiabilidade

Como eu trabalho:

  • Discutir requisitos (idiomas, carga esperada, provedores)
  • Projetar a arquitetura do pipeline para áudio em streaming
  • Implementar a integração de STT/TTS no código backend
  • Adicionar provedores de fallback para failover e resiliência
  • Testar de ponta a ponta com streams de exemplo e métricas

O que eu preciso de você:

  • Idiomas e sotaques alvo para transcrição
  • Serviços primário e backup de STT/TTS preferidos
  • Arquivos de áudio de exemplo para testes
  • Padrões de uso esperado (streams simultâneos, tráfego de pico)
  • Metas e restrições de latência/precisão

Entregáveis:

  • Código em Python para o pipeline de STT/TTS com instruções de configuração
  • Configuração para os provedores de STT e TTS selecionados

Conheça mais sobre Shah

Shah

I build production grade Voice AI agents LiveKit Twilio Python deployed on AWS

5,0(9)

Level 1

  • A partir dePaquistão
  • Membro desdejul. de 2022
  • Responde em aprox.:1 hora
  • Última entrega1 semana
  • Idiomas

    Inglês
I build production-grade Voice AI agents using LiveKit, Twilio, and Python. I’ve implemented real-time inbound/outbound call flows with low-latency streaming, clean turn-taking, and barge-in handling. I improve reliability by tuning VAD, handling jitter/packet loss, and adding retries plus consistent call-state. I containerize and deploy voice agents on AWS so they run stable in production with logging and monitoring.

Tradução automática

Meu portfólio

Avaliações

2 avaliações deste Serviço
4,8

(2)
(0)
(0)
(0)
(0)
Classificação detalhada
  • Nível de comunicação do freelancer
    5
  • Qualidade da entrega
    4,5
  • Valor da entrega
    5
Ordenar por
Mais relevante
  • C

    carsten_lemche

    DK

    Dinamarca

    4,7

    Just perfect ! Nice guy, this was a proof of concept quickly delivered and we will probably add more work in the future.

    US$ 200-US$ 400

    $

    1 dia

    Tempo

    Útil?
    Sim
    Não
  • P

    plaglobal

    Cliente recorrente

    US

    Estados Unidos

    5

    Shah is a professional and great to work with. I highly recommend him!

    US$ 100-US$ 200

    $

    2 dias

    Tempo

    Útil?
    Sim
    Não
Avaliações

2 avaliações deste Serviço
4,8

(2)
(0)
(0)
(0)
(0)
Classificação detalhada
  • Nível de comunicação do freelancer
    5
  • Qualidade da entrega
    4,5
  • Valor da entrega
    5
Ordenar por
Mais relevante
  • C

    carsten_lemche

    DK

    Dinamarca

    4,7

    Just perfect ! Nice guy, this was a proof of concept quickly delivered and we will probably add more work in the future.

    US$ 200-US$ 400

    $

    1 dia

    Tempo

    Útil?
    Sim
    Não
  • P

    plaglobal

    Cliente recorrente

    US

    Estados Unidos

    5

    Shah is a professional and great to work with. I highly recommend him!

    US$ 100-US$ 200

    $

    2 dias

    Tempo

    Útil?
    Sim
    Não