You're seeing this page as if you were . The main menu is still yours, though. Exit from immersion
Chen ZangCZ

Chen Zang

Ingénieur Data

€650/day
Paris, FR
15+ years

Average response time: 1 hour

About Chen

Ingénieur Data senior spécialisé en architectures cloud AWS, avec une forte expertise en conception de plateformes data scalables et event-driven. J’interviens sur la mise en place d’architectures serverless orientées événements (EventBridge, SQS, Lambda) et l’orchestration avancée de workflows via Step Functions (SFN) pour piloter des traitements complexes et distribués.

Expert Databricks, je conçois et industrialise des pipelines batch haute performance en PySpark (ELT/ETL), optimisés pour traiter de très grands volumes de données dans des environnements Lakehouse (Delta Lake). Habitué aux environnements AWS (EMR, S3, DynamoDB, Redshift, MWAA), je construis des solutions data end-to-end robustes, automatisées et multi-environnements, avec une attention particulière portée à la performance, à la fiabilité et à la scalabilité.
  • Chinese

    Native or bilingual

  • French

    Fluent

  • English

    Fluent

Can work on-site
Paris (up to 30km)

Experience

  • ENGIE
    Ingénieur Data
    ENERGY AND UTILITIES
    August 2024 - Today (1 year and 10 months)
    Paris, France
    Billing Orchestration du système de facturation pour les offres (BSH+, BSH, BSMA, 100SPOT)

    - Conception et implémentation d’une infrastructure complète sur AWS avec Terraform, gérant une architecture multi-services (Databricks Workflows, Lambda, API Gateway, EventBridge, DynamoDB, S3, Step Functions, SQS, KMS, CloudWatch…)
    - Construction de pipelines ETL à grande échelle sur Databricks avec PySpark pour le traitement des données de facturation
    - Mise en œuvre d'une architecture événementielle (EventBridge + SQS + Lambda) pour le découplage et l’orchestration des composants du système de facturation
    - Développement d’une couche de distribution de données Serverless avec DynamoDB pour un accès haute concurrence
    - Conception, développement et déploiement d’APIs RESTful via API Gateway et Lambda, exposant des données normalisées aux autres composants du système de facturation
    - Mise en place d’un pipeline CI/CD multi-environnements (dev/recette/preprod/prod) avec GitHub Actions, assurant des déploiements fiables et répétables
    Spark Python Databricks AWS Event-driven architecture
  • Dalkia
    Architecte Solution Data
    ENERGY AND UTILITIES
    July 2023 - July 2024 (1 year)
    Paris, France
    - Conception de l’architecture cible pour les données IoT : Définition d’un Lakehouse sur AWS pour les flux capteurs (température, pression). Spécification de l’ingestion différenciée (init, fil de l’eau, rejeu) via Spark/EMR, stockage structuré dans S3 Standardized, déduplication via offset Kafka, et partitionnement horaire. Rédaction du DAT détaillant les couches (*raw* → *standardized*), les buckets S3, et les rôles IAM.
    - Gouvernance et industrialisation de l’entrepôt de données : Réalisation d’un audit comparatif Redshift Provisionné (pour les ETL planifiés) vs Serverless (pour le self-service métier). Rédaction d’un DAT détaillant la stratégie de gouvernance : contrôle d’accès fin (users, rôles, politiques IAM), configuration manuelle du Workload Management (WLM), et mécanisme de *merge* transactionnel pour garantir l’intégrité historique lors des mises à jour incrémentales ou des rejeux.
    - Accompagnement projet et alignement technique : Animation d’ateliers avec les équipes Dev, PO, Urbanisation et Métier pour traduire les besoins en spécifications techniques. Validation de la solution via PoCs (PySpark, Airflow) et conception de DAGs Airflow génériques avec verrou anti-concurrence.
    Cloud AWS PySpark Python Apache Kafka Amazon Redshift
  • Education Zhixing
    Ingénieur Big Data
    EDUCATION AND E-LEARNING
    February 2022 - May 2023 (1 year and 3 months)
    Shanghai, China
    - Conception et déploiement d’un data warehouse from scratch : Modélisation en couches (ODS, DIM, DWD/DWM/DWS) pour centraliser les données métier (visite, intention, inscription, assiduité). Gestion des dimensions à évolution lente (SCD Type 2 via tables « zipper ») pour garantir la cohérence historique. Développement de 30+ tables et 10+ métriques clés (taux de conversion, rétention, assiduité), avec ingestion incrémentale quotidienne (~16 Go/jour) automatisée via Airflow.
    - Mise en place d’un système de recommandation en temps réel : Pipeline Kafka → Spark Structured Streaming pour analyser les réponses élèves en micro-batch. Calcul dynamique de métriques (Top questions par matière/niveau) et génération de recommandations personnalisées via un modèle ALS (Collaborative Filtering) de Spark MLlib. Résultats exposés en MySQL pour les équipes web et BI.
    - Optimisation de la plateforme Big Data (Cloudera Hadoop) : Tuning avancé de Hive (partitionnement, vectorisation, map joins, gestion du *data skew*) et de Spark (repartition, tuning mémoire) pour traiter 300k enregistrements/jour/table sans OOM. Automatisation des ETL full/incremental (Sqoop, PySpark, Shell) sur un cluster de 10 nœuds (200 TB brut).
    Spark Kafka Cloudera Hadoop Airflow Python

Recommendations

Be the first to recommend Chen

Help this freelancer shine by sharing your experience working together.

These freelancer profiles also match your criteria

AgathaA

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

2

BaptisteB

Baptiste Duhen

Fullstack developer

4.6

(4)

5

AmedA

Amed Hamou

Senior Lead Developer

4

(2)

7

AudreyA

Audrey Champion

Web developer

4.3

(3)

4

Education

  • Master Informatique spécialité Systèmes et Applications Répartis
    Université de Paris VI
    2008

Skill set

Categories