Description

Vous cherchez Senior Data Engineer pour déployer une solution data de design à la mise en prod en entreprise ? Construire des pipelines de données robustes ?

Avec 5 ans et demi d’expériences, je suis spécialisé dans la conception et la mise en œuvre de pipelines de données robustes en Pyspark et sur l’écosystème Azure. Expert en ingestion et traitement Delta/Parquet, optimisation SQL, qualité des données et intégration d’API, avec une solide maîtrise des pratiques CI/CD, de l’observabilité et de la sécurité pour des workflows data prêts pour la production.

Capable de traduire les enjeux métier en architectures techniques scalables, de challenger les choix techniques et de concevoir des solutions pragmatiques, maintenables et opérationnelles. Proactif, orienté résultats et expérimenté dans l’accompagnement des équipes jusqu’à la mise en production.

Industry field of expertise

Languages

French
Native or bilingual
English
Fluent
Arabic
Native or bilingual

Workplace preferences

Can work on-site

Paris (up to 50km)

AXA FRANCE
SENIOR DATA ENGINEER
December 2023 - Today (2 years and 7 months)
Projet JADE — Finance
Piloter l'intégration de l'IA dans le projet JADE, coordonner les échanges avec l'AI Factory pour garantir une mise en œuvre fluide Superviser les collaborations inter‑équipes (CQFD, JADE, AI Factory) pour améliorer l'efficacité et favoriser l'innovation pilotée par les données. Coordonner les livraisons end‑to‑end, de la conception au déploiement en production Optimiser les environnements Databricks : configuration de clusters, gestion des utilisateurs, optimisation des ressources et gouvernance/sécurité des données via Unity Catalog Optimiser les requêtes et les accès sur Azure SQL Database (revue des jointures, filtres, index et plans d'exécution) pour réduire les
Pyspark, Python, Azure Databricks, AzureData Factory, Azure SQL Database, Delta Lake, Unity Catalog
TADY'X GROUP
DATA ENGINEER
September 2022 - September 2023 (1 year)
Projet DATA QUALITY
Implémenter des règles de validation de schéma avec JSON Schema Validator pour contrôler les champs obligatoires, les types de données, les structures spécifiques paie et la compatibilité source/cible Détecter des anomalies avec Python
Projet RDD & SIRH

Créer des DAGs avec Airflow pour orchestrer les workflows ETL, intégrer Service Bus et Event Grid pour des flux d'événements asynchrones entre services Développer des pipelines Python/PySpark pour extraire, nettoyer et transformer les données RH/paie issues de systèmes legacy avant migration vers le HRIS cible Traiter des fichiers structurés et semi‑structurés (JSON, CSV, Parquet) en appliquant des transformations PySpark pour standardiser les jeux de données paie avant intégration Développer des endpoints FastAPI pour exposer des services de données contrôlés et supporter l'intégration avec des applications externes via des API REST Optimiser les requêtes SQL utilisées pour les contrôles de réconciliation et de migration, améliorant la comparaison entre les données paie source et les sorties HRIS cibles Containeriser les services de données avec Docker pour uniformiser le développement local, les tests et les déploiements entre environnements
Python, PySpark, Airflow, JSON SchemaValidator, SQL, FastAPI, API Management, Databricks, Service B
RLANTIS
DATA ENGINEER
July 2019 - August 2021 (2 years and 1 month)
Appliquer des contrôles de qualité et de prétraitement sur des jeux de données de santé, incluant la gestion des valeurs manquantes, les contrôles de cohérence et la préparation de jeux de données prêts pour les cas d'usage IA Contribuer à la préparation, au traitement et à l'analyse de grands jeux de données de santé utilisés pour des modèles d'IA et d'apprentissage automatique Construire et maintenir des workflows de données pour soutenir les équipes de recherche dans la transformation de données brutes et complexes en données structurées, exploitables et fiables Automatiser des pipelines de données avec Airflow pour améliorer la répétabilité, la traçabilité et l'efficacité des tâches de traitement Développer des modèles de données pour rationaliser les pipelines de traitement dans un environnement Azure, contribuant à une amélioration de 20 % de la productivité Préparer des jeux de données nettoyés pour l'étiquetage, l'entraînement et les cas d'usage d'analytique prédictive, en support au développement de modèles ML Containeriser des composants de données avec Docker et contribuer aux pipelines CI/CD via Azure DevOps Appliquer des pratiques orientées sécurité, incluant le chiffrement côté serveur avec Databricks pour protéger les données sensibles
Python, PySpark, Airflow, HDFS, MapReduce,Azure DevOps, Docker, Databricks, Azure, Machine Learning