Description

Ingénieur Data senior spécialisé en architectures cloud AWS, avec une forte expertise en conception de plateformes data scalables et event-driven. J’interviens sur la mise en place d’architectures serverless orientées événements (EventBridge, SQS, Lambda) et l’orchestration avancée de workflows via Step Functions (SFN) pour piloter des traitements complexes et distribués.

Expert Databricks, je conçois et industrialise des pipelines batch haute performance en PySpark (ELT/ETL), optimisés pour traiter de très grands volumes de données dans des environnements Lakehouse (Delta Lake). Habitué aux environnements AWS (EMR, S3, DynamoDB, Redshift, MWAA), je construis des solutions data end-to-end robustes, automatisées et multi-environnements, avec une attention particulière portée à la performance, à la fiabilité et à la scalabilité.

Languages

Chinese
Native or bilingual
French
Fluent
English
Fluent

Workplace preferences

Can work on-site

Paris (up to 30km)

ENGIE
Ingénieur Data
ENERGY AND UTILITIES
August 2024 - Today (1 year and 10 months)
Paris, France
Billing Orchestration du système de facturation pour les offres (BSH+, BSH, BSMA, 100SPOT)

- Conception et implémentation d’une infrastructure complète sur AWS avec Terraform, gérant une architecture multi-services (Databricks Workflows, Lambda, API Gateway, EventBridge, DynamoDB, S3, Step Functions, SQS, KMS, CloudWatch…)
- Construction de pipelines ETL à grande échelle sur Databricks avec PySpark pour le traitement des données de facturation
- Mise en œuvre d'une architecture événementielle (EventBridge + SQS + Lambda) pour le découplage et l’orchestration des composants du système de facturation
- Développement d’une couche de distribution de données Serverless avec DynamoDB pour un accès haute concurrence
- Conception, développement et déploiement d’APIs RESTful via API Gateway et Lambda, exposant des données normalisées aux autres composants du système de facturation
- Mise en place d’un pipeline CI/CD multi-environnements (dev/recette/preprod/prod) avec GitHub Actions, assurant des déploiements fiables et répétables
Spark Python Databricks AWS Event-driven architecture
Dalkia
Architecte Solution Data
ENERGY AND UTILITIES
July 2023 - July 2024 (1 year)
Paris, France
- Conception de l’architecture cible pour les données IoT : Définition d’un Lakehouse sur AWS pour les flux capteurs (température, pression). Spécification de l’ingestion différenciée (init, fil de l’eau, rejeu) via Spark/EMR, stockage structuré dans S3 Standardized, déduplication via offset Kafka, et partitionnement horaire. Rédaction du DAT détaillant les couches (*raw* → *standardized*), les buckets S3, et les rôles IAM.
- Gouvernance et industrialisation de l’entrepôt de données : Réalisation d’un audit comparatif Redshift Provisionné (pour les ETL planifiés) vs Serverless (pour le self-service métier). Rédaction d’un DAT détaillant la stratégie de gouvernance : contrôle d’accès fin (users, rôles, politiques IAM), configuration manuelle du Workload Management (WLM), et mécanisme de *merge* transactionnel pour garantir l’intégrité historique lors des mises à jour incrémentales ou des rejeux.
- Accompagnement projet et alignement technique : Animation d’ateliers avec les équipes Dev, PO, Urbanisation et Métier pour traduire les besoins en spécifications techniques. Validation de la solution via PoCs (PySpark, Airflow) et conception de DAGs Airflow génériques avec verrou anti-concurrence.
Cloud AWS PySpark Python Apache Kafka Amazon Redshift
Education Zhixing
Ingénieur Big Data
EDUCATION AND E-LEARNING
February 2022 - May 2023 (1 year and 3 months)
Shanghai, China
- Conception et déploiement d’un data warehouse from scratch : Modélisation en couches (ODS, DIM, DWD/DWM/DWS) pour centraliser les données métier (visite, intention, inscription, assiduité). Gestion des dimensions à évolution lente (SCD Type 2 via tables « zipper ») pour garantir la cohérence historique. Développement de 30+ tables et 10+ métriques clés (taux de conversion, rétention, assiduité), avec ingestion incrémentale quotidienne (～16 Go/jour) automatisée via Airflow.
- Mise en place d’un système de recommandation en temps réel : Pipeline Kafka → Spark Structured Streaming pour analyser les réponses élèves en micro-batch. Calcul dynamique de métriques (Top questions par matière/niveau) et génération de recommandations personnalisées via un modèle ALS (Collaborative Filtering) de Spark MLlib. Résultats exposés en MySQL pour les équipes web et BI.
- Optimisation de la plateforme Big Data (Cloudera Hadoop) : Tuning avancé de Hive (partitionnement, vectorisation, map joins, gestion du *data skew*) et de Spark (repartition, tuning mémoire) pour traiter 300k enregistrements/jour/table sans OOM. Automatisation des ETL full/incremental (Sqoop, PySpark, Shell) sur un cluster de 10 nœuds (200 TB brut).
Spark Kafka Cloudera Hadoop Airflow Python