Vou construir um pipeline de dados ETL pronto para produção usando AWS, airflow e pyspark

Algumas informações foram traduzidas automaticamente.

Paquistão

Eu falo Inglês

Engenheiro de Dados, AWS, Apache Airflow, Spark, PostgreSQL, ETL

Sou Engenheiro de Dados e estudante do último ano de Ciência da Computação com experiência prática na construção de pipelines ETL escaláveis e arquiteturas de dados. Trabalhei na Cognetix.io em sistem...
Sobre este Serviço

Você está afogado em dados brutos sem uma maneira confiável de processá-los?

Eu crio pipelines de dados de nível de produção que rodam automaticamente, escalam com seus dados e nunca falham silenciosamente. Sem scripts confusos. Sem etapas manuais. Apenas dados limpos e confiáveis exatamente onde você precisa.


O que eu construo

  • pipelines ETL usando Python e PySpark para extrair, transformar, carregar, feito
  • DAGs do Apache Airflow para fluxos de trabalho totalmente automatizados e agendados
  • pipelines de arquitetura Medallion (Bronze, Silver, Gold) com qualidade de dados em cada camada
  • Plataformas de dados AWS S3 data lake, Glue, EMR no EKS, IAM, Terraform
  • pipelines de ingestão na nuvem de qualquer fonte para PostgreSQL, MySQL, ClickHouse ou Supabase
  • configurações totalmente containerizadas com Docker e Docker Compose
  • implantação com um comando usando CI/CD, sem SSH manual, sem runbooks

Especialidade:

Big data

Extração de dados

Fluxo de dados

Tecnologia:

Amazon Redshift

Apache Kafka

apache spark

Python

SQL

Meu portfólio