Description

💡 Data Engineer | Expert en pipelines Big Data & Cloud

4 ans d’expérience dans la conception, l’optimisation et le déploiement de pipelines de données distribués (Spark, Airflow, Trino, Kubernetes, S3, BigQuery).

👉 J’interviens pour fiabiliser et accélérer vos traitements, réduire vos coûts cloud et mettre en place des solutions scalables et documentées.

✅ Performance & Scalabilité : réduction des temps de traitement jusqu’à -40%, coûts de calcul divisés par 2.

✅ Fiabilité & Gouvernance : mise en place de mécanismes de reprise automatique et monitoring robuste.

✅ Collaboration & Delivery : intégration fluide avec vos équipes Produit, Backend & Data pour des workflows adaptés et opérationnels.

🎯 Mon objectif : transformer vos pipelines en leviers de performance et de croissance, avec une approche orientée résultats et une forte autonomie technique.

Languages

French
Native or bilingual
English
Fluent
Spanish
Basic
Arabic
Native or bilingual

Workplace preferences

Can work on-site

Paris 12e Arrondissement (up to 50km)

Realytics
Data Engineer
TELECOMMUNICATIONS
November 2023 - August 2025 (1 year and 9 months)
Paris, France
Participation à la modernisation et à la montée en charge des pipelines analytiques de Realytics, dans le cadre du produit BEE, mesurant l’impact des campagnes TV sur les sessions web en temps réel.

Conception de bout en bout de pipelines Big Data, de l’ingestion à la restitution (PySpark, Trino, Hive), avec prise en charge d’aspects d’administration Hadoop (gestion HDFS, monitoring des services, optimisation des jobs Spark).
Contribution directe à la migration vers Airflow sur Kubernetes avec Helm : mise en place de triggers dynamiques, configuration des workers Spark, supervision des DAGs.
Mise en place de mécanismes automatisés de reprise et redémarrage en cas d’incident (gestion fine des erreurs).
Support quotidien RUN : suivi des exécutions Airflow, analyse des logs Spark, détection et résolution des anomalies de production (corruption de partitions, erreurs SparkSQL, pertes de connectivité S3).
Interactions régulières avec les équipes Backend, Produit, Frontend et Data Analyst pour adapter les workflows à leurs contraintes et synchroniser les déploiements.
Déploiement continu via Jenkins et ArgoCD, rédaction de playbooks Ansible pour standardiser les tâches d’initialisation et de tests.
Utilisation avancée de Linux (CLI, Cron, gestion mémoire, logs système) pour analyser les comportements anormaux.
Approche proactive sur les choix techniques et l’optimisation Spark (partitionnement, tuning du shuffle, broadcast join).

Résultats :
Réduction des temps de traitement d’environ 40%, avec un coût de calcul divisé par deux.
Amélioration de la fiabilité des traitements : 95% de taux de succès pour les DAGs critiques.
Forte autonomie dans la résolution des incidents de production et contribution à la documentation interne.

Environnement technique : PySpark, Trino, Hive, Spark SQL, HDFS, S3, Airflow, Helm, Jenkins, ArgoCD, Docker, Kubernetes, Ansible, Linux, Git, Grafana, Jira.
Airflow Kubernetes Hive PySpark Hadoop
ZELROS
Data Engineer
TECH
October 2022 - October 2023 (1 year)
Paris, France
Mise en place d’un pipeline analytique sur GCP pour soutenir les recommandations clients dans le secteur de l’assurance.
Déploiement d’un pipeline complet en production : ingestion depuis Cloud Storage, traitements et alimentation de tables BigQuery.
Optimisation des performances via le partitionnement BigQuery, garantissant des temps de réponse adaptés à un moteur temps réel.
Support technique en production : résolution de problèmes de permissions cloud, erreurs de scheduling, anomalies sur les données entrantes.
Collaboration avec les équipes Produit et Backend afin d’assurer la cohérence fonctionnelle des données exposées.
Mise en place de tests unitaires (Pytest), d’un système d’alerting et participation aux phases de tests fonctionnels.
Contribution à la maintenance de la CI/CD (GitHub Actions, gestion des dépendances via Poetry, contrôle qualité du code avec Ruff).
Résultats :
Pipeline stable en production avec un SLA < 30 min.
Zéro erreur critique après la mise en place des tests automatisés.

Environnement technique : GCP, BigQuery, Cloud Storage, Airflow, Python, GitHub Actions, Ruff, Poetry, Unix.
Cloud GCP biq query Airflow ruff Bash
Apneal
Apneal Data Engineer
HEALTH AND WELLNESS
May 2022 - September 2022 (4 months)
Paris, France
Participation au développement d'un pipeline de données pour un dispositif de dépistage de l'apnée du sommeil, comprenant la préparation des données issues de bases de données SQLite et de fichiers de polysomnographie, l'orchestration des flux d'ingestion/exportation S3, le traitement des signaux physiologiques et l'industrialisation des modules via un package Python documenté (Sphinx) déployé sur AWS (S3, EC2, SageMaker).
Amazon Web Services AWS EC2 Python