Vou construir uma pipeline de big data dockerizada usando spark e hadoop

Algumas informações foram traduzidas automaticamente.

República Tcheca

Eu falo Inglês, Tcheco

14 pedidos finalizados

DOTNET, C sharp, pipelines de ETL

Mais de 4 anos de experiência em fintech com .NET / C# (mais de 6 anos no total). Eu crio e mantenho sistemas críticos para a infraestrutura de bancos de investimento. Posso te ajudar com: ✅ APIs RE...
Sobre este Serviço

Vou configurar um pipeline de Big Data totalmente Dockerizado usando Apache Spark e Hadoop, pronto para processamento de dados em tempo real ou workflows de ETL em batch - ideal para implantação local ou na nuvem.


O que está incluído (com base no seu pacote selecionado):


  • Configuração do Docker Compose para Spark + Hadoop
  • Exemplo de job Spark pré-configurado
  • Saída integrada no HDFS
  • Código limpo, modular, com comentários
  • Instruções passo a passo para uso local ou na nuvem


Casos de uso:


  • Ingestão e transformação de dados de sensores IoT
  • Análise de transações financeiras
  • Processamento em batch de grandes conjuntos de dados CSV/JSON
  • Pipeline de séries temporais para HDFS para armazenamento de longo prazo
  • Enriquecimento opcional com IA GPT usando API da OpenAI para resumir ou marcar


Ideal para engenheiros, startups ou equipes que precisam de uma solução rápida para infraestrutura de dados escalável.


Precisa de extras como uma API REST, integração com OpenAI, monitoramento (Grafana/Prometheus) ou implantação na AWS EC2? É só pedir!


Por favor, note:


  • Os entregáveis dependem do pacote escolhido
  • Ofertas personalizadas estão disponíveis - é só me enviar uma mensagem!
  • Inclui 2 mensagens de acompanhamento para esclarecimentos após a entrega
  • Você é responsável por testar/rodar em seu próprio ambiente
  • Uso da OpenAI requer sua própria chave de API

Destination Platform:

PostgreSQL

mySQL

Apache Hive

Amazon S3

Ferramentas e plataformas:

Kafka Connect

Apache NiFi

Outros

Meu portfólio