You're seeing this page as if you were . The main menu is still yours, though. Exit from immersion
Soufiane B.SB

Soufiane B.

Data Engineer – Spécialisé dans les pipelines Big

€300/day
Paris 12e Arrondissement, FR
3-7 years

Average response time: 1 hour

About Soufiane

💡 Data Engineer | Expert en pipelines Big Data & Cloud

4 ans d’expérience dans la conception, l’optimisation et le déploiement de pipelines de données distribués (Spark, Airflow, Trino, Kubernetes, S3, BigQuery).
👉 J’interviens pour fiabiliser et accélérer vos traitements, réduire vos coûts cloud et mettre en place des solutions scalables et documentées.

✅ Performance & Scalabilité : réduction des temps de traitement jusqu’à -40%, coûts de calcul divisés par 2.
✅ Fiabilité & Gouvernance : mise en place de mécanismes de reprise automatique et monitoring robuste.
✅ Collaboration & Delivery : intégration fluide avec vos équipes Produit, Backend & Data pour des workflows adaptés et opérationnels.

🎯 Mon objectif : transformer vos pipelines en leviers de performance et de croissance, avec une approche orientée résultats et une forte autonomie technique.
  • French

    Native or bilingual

  • English

    Fluent

  • Spanish

    Basic

  • Arabic

    Native or bilingual

Can work on-site
Paris 12e Arrondissement (up to 50km)

Experience

  • Realytics
    Data Engineer
    TELECOMMUNICATIONS
    November 2023 - August 2025 (1 year and 9 months)
    Paris, France
    Participation à la modernisation et à la montée en charge des pipelines analytiques de Realytics, dans le cadre du produit BEE, mesurant l’impact des campagnes TV sur les sessions web en temps réel.

    • Conception de bout en bout de pipelines Big Data, de l’ingestion à la restitution (PySpark, Trino, Hive), avec prise en charge d’aspects d’administration Hadoop (gestion HDFS, monitoring des services, optimisation des jobs Spark).
    • Contribution directe à la migration vers Airflow sur Kubernetes avec Helm : mise en place de triggers dynamiques, configuration des workers Spark, supervision des DAGs.
    • Mise en place de mécanismes automatisés de reprise et redémarrage en cas d’incident (gestion fine des erreurs).
    • Support quotidien RUN : suivi des exécutions Airflow, analyse des logs Spark, détection et résolution des anomalies de production (corruption de partitions, erreurs SparkSQL, pertes de connectivité S3).
    • Interactions régulières avec les équipes Backend, Produit, Frontend et Data Analyst pour adapter les workflows à leurs contraintes et synchroniser les déploiements.
    • Déploiement continu via Jenkins et ArgoCD, rédaction de playbooks Ansible pour standardiser les tâches d’initialisation et de tests.
    • Utilisation avancée de Linux (CLI, Cron, gestion mémoire, logs système) pour analyser les comportements anormaux.
    • Approche proactive sur les choix techniques et l’optimisation Spark (partitionnement, tuning du shuffle, broadcast join).

    Résultats :
    • Réduction des temps de traitement d’environ 40%, avec un coût de calcul divisé par deux.
    • Amélioration de la fiabilité des traitements : 95% de taux de succès pour les DAGs critiques.
    • Forte autonomie dans la résolution des incidents de production et contribution à la documentation interne.

    Environnement technique : PySpark, Trino, Hive, Spark SQL, HDFS, S3, Airflow, Helm, Jenkins, ArgoCD, Docker, Kubernetes, Ansible, Linux, Git, Grafana, Jira.
    Airflow Kubernetes Hive PySpark Hadoop
  • ZELROS
    Data Engineer
    TECH
    October 2022 - October 2023 (1 year)
    Paris, France
    • Mise en place d’un pipeline analytique sur GCP pour soutenir les recommandations clients dans le secteur de l’assurance.
    • Déploiement d’un pipeline complet en production : ingestion depuis Cloud Storage, traitements et alimentation de tables BigQuery.
    • Optimisation des performances via le partitionnement BigQuery, garantissant des temps de réponse adaptés à un moteur temps réel.
    • Support technique en production : résolution de problèmes de permissions cloud, erreurs de scheduling, anomalies sur les données entrantes.
    • Collaboration avec les équipes Produit et Backend afin d’assurer la cohérence fonctionnelle des données exposées.
    • Mise en place de tests unitaires (Pytest), d’un système d’alerting et participation aux phases de tests fonctionnels.
    • Contribution à la maintenance de la CI/CD (GitHub Actions, gestion des dépendances via Poetry, contrôle qualité du code avec Ruff).
    Résultats :
    • Pipeline stable en production avec un SLA < 30 min.
    • Zéro erreur critique après la mise en place des tests automatisés.

    Environnement technique : GCP, BigQuery, Cloud Storage, Airflow, Python, GitHub Actions, Ruff, Poetry, Unix.
    Cloud GCP biq query Airflow ruff Bash
  • Apneal
    Apneal Data Engineer
    HEALTH AND WELLNESS
    May 2022 - September 2022 (4 months)
    Paris, France
    Participation au développement d'un pipeline de données pour un dispositif de dépistage de l'apnée du sommeil, comprenant la préparation des données issues de bases de données SQLite et de fichiers de polysomnographie, l'orchestration des flux d'ingestion/exportation S3, le traitement des signaux physiologiques et l'industrialisation des modules via un package Python documenté (Sphinx) déployé sur AWS (S3, EC2, SageMaker).
    Amazon Web Services AWS EC2 Python

Recommendations

Be the first to recommend Soufiane

Help this freelancer shine by sharing your experience working together.

These freelancer profiles also match your criteria

AgathaA

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

2

BaptisteB

Baptiste Duhen

Fullstack developer

4.6

(4)

5

AmedA

Amed Hamou

Senior Lead Developer

4

(2)

7

AudreyA

Audrey Champion

Web developer

4.3

(3)

4

Education

  • Master en science des données
    Université Paris Dauphine
    2022

Skill set (37)

Categories