Eu construirei modelos personalizados de reconhecimento de fala ou emoção
Sobre este Serviço
Sobre Este Gig
Sou especialista em construir sistemas multimodais de reconhecimento de fala e emoção combinando modalidades de áudio e texto para melhorar desempenho e precisão.
Com experiência prática em trabalhar com conjuntos de dados complexos como IEMOCAP e MELD, desenvolvi modelos híbridos personalizados usando Bi-LSTM e CNN, alcançando até 85% de precisão no conjunto de dados IEMOCAP. Também estou explorando ativamente Word2Vec e arquiteturas baseadas em Transformers para uma compreensão contextual aprimorada na fala.
Você pode conferir meus projetos e artigos de pesquisa linkados abaixo para mais detalhes.
O que eu ofereço:
- Pré-processamento de conjuntos de dados complexos de áudio e texto
- Desenvolvimento de modelos personalizados (LSTM, CNN, Transformers, etc.)
- Ajuste de hiperparâmetros e otimização de modelos
- Suporte para teses acadêmicas, pesquisas ou projetos industriais
- Soluções prontas para integração em apps ou APIs
Sinta-se à vontade para me enviar uma mensagem antes de fazer seu pedido para discutir suas necessidades específicas.
Especialidade:
Classificação
•
Fala e áudio
•
Análise preditiva
Linguagem de programação:
Python
•
Colab
APIs:
Outros
Ferramentas:
caderno Jupyter
•
Amazon SageMaker
•
Colab
Frameworks:
Scikit-learn
•
keras
•
PyTorch
•
Panda
•
fluxo tensor

