Vou construir pipelines de dados end to end no GCP usando pubsub, kafka e dataform
Sobre este Serviço
Uma plataforma de dados moderna exige uma ingestão robusta e análises modeladas com cuidado. Como um Engenheiro de Dados Certificado pelo Google Cloud, construo sistemas de ponta a ponta garantindo a integridade dos dados desde a fonte até o dashboard.
Eu projeto pipelines orientados a eventos de alto volume com entrega pelo menos uma vez, enquanto arquiteturo modelos centralizados no BigQuery que unem tabelas distintas de mais de 19 unidades de negócio.
O que posso fazer por você:
- Ingestão em Tempo Real: Arquitetar sistemas seguros usando Apache Kafka & GCP Pub/Sub em Java Spring Boot.
- Processamento Sem Servidor: Projetar microsserviços desacoplados via Cloud Run para transformar grandes conjuntos de dados.
- Modelagem Dimensional: Transformar dados brutos do BigQuery em Star Schemas usando Dataform, aplicando SCD Tipo 2 & 4.
- Orquestração: Orquestrar fluxos de trabalho ELT em várias etapas via Cloud Composer (Airflow) para automatizar jobs do Dataform.
Tecnologias que uso: GCP Pub/Sub, Kafka, BigQuery, Dataform, Java (Spring Boot), Cloud Run, Airflow e Terraform.
Por que me escolher? Você terá um especialista em nuvem certificado que implementa frameworks robustos de qualidade de dados, registrando falhas de asserção em tabelas de erro persistentes para que suas análises permaneçam confiáveis.
Vamos conversar antes de você fazer o pedido para alinharmos o escopo!
Perguntas frequentes
Tradução automática
Como você lida com a diferença entre dados de streaming e modelagem em batch?
Utilizo uma abordagem moderna onde Pub/Sub e Cloud Run cuidam da ingestão em tempo real, entregando os dados de forma segura em tabelas brutas do BigQuery. Depois, agendo o Dataform via Cloud Composer (Airflow) para limpar, testar e modelar esses dados brutos periodicamente em tabelas curadas prontas para o negócio.
Você pode garantir que nenhuma mensagem de streaming será perdida?
Sim. Eu projeto sistemas com garantias de entrega pelo menos uma vez, usando lógica de retry robusta e armazenamento intermediário de objetos para garantir tolerância total a falhas.
Você usa Dataform ou dbt para a modelagem no BigQuery?
Recomendo fortemente Dataform para stacks nativos do GCP, pois é totalmente gerenciado dentro do BigQuery e se integra perfeitamente com Cloud Composer. No entanto, tenho proficiência em ambas as ferramentas, dependendo do seu ambiente.
Como você garante que os dados modelados estão precisos?
Implemento um framework robusto de qualidade de dados dentro do Dataform para capturar falhas de asserção. Quaisquer falhas de validação são automaticamente encaminhadas para uma tabela de log de erros persistente no BigQuery para revisão.

