Description

Data Engineer spécialisé Databricks, Spark et Azure avec 5 ans d'expérience dans la construction de pipelines de données robustes et performants pour des environnements critiques.

Je conçois et industrialise des architectures Lakehouse (Bronze / Silver / Gold) sur Azure, avec une approche orientée performance, qualité de code et observabilité.

Ce que j'apporte à vos projets :

▸ Ingestion & pipelines — construction de pipelines ETL/ELT complexes (Databricks, Azure Data Factory, Airflow, dbt), ingestion multi-sources (API, SFTP, fichiers, streaming)

▸ Optimisation Spark — analyse de plans d'exécution, élimination des shuffles, partitionnement, Z-ordering. J'ai réduit un job critique de 6h à 1h chez Société Générale

▸ Architecture Data — modélisation Delta Lake, gouvernance Unity Catalog, orchestration de bout en bout

▸ Industrialisation — code modulaire et testable (Pytest, Cucumber), CI/CD (GitLab, Jenkins, Azure DevOps), migration Dev→Prod complète

Mes environnements : Apache Spark, PySpark, Scala, Python, SQL, Delta Lake, Databricks, Azure Data Lake Gen2, Snowflake, Airflow 2.x, ADF, dbt, Oracle, Hive

Secteurs : Banque (Société Générale) · Télécoms (Canal+) · Asset Management (Carmignac) · Énergie (Engie) · Paris sportifs (Betclic)

Certifications Databricks :

✦ Data Engineer Professional (2026)

✦ Data Engineer Associate (2024)

✦ Apache Spark 3.0 Developer (2024)

Diplômé ingénieur EPITA, spécialisation Intelligence Artificielle.

Je travaille en français et en anglais.

Languages

French
Native or bilingual
English
Fluent

Workplace preferences

Can work on-site

Paris (up to 50km)

CANAL+ TELECOM
Data Engineer / Devops / Software Engineer / Archi
February 2025 - Today (1 year and 4 months)
Architecture collecte SFTP et historisation des factures multi-opérateurs (OI & sous-traitants), corrélation multi-systèmes (Praxedo, Interop, refacturation OI), certification des anomalies de facturation. Oracle.
Réalisations clés
▸ Industrialisation complète Airflow : conception et développement de DAGs de synchronisation SFTP avec préservation d'arborescence, gestion des exclusions, reprise sur erreur et logging structuré.
▸ Architecture d'ingestion modulaire : patern BaseProcessing (load_data / clean_data / insert_data) déployé sur 6+ flux (PXO, GUDI, MTHD, YANA/KOUROU, SRR).
▸ Migration Dev → Prod : packaging complet du projet (config, connexions, variables Airflow), mise en place de tests unitaires et validations de données.
▸ Création des tables Oracle (DDL) et schémas d'historisation.
▸ Orchestration de bout en bout : SFTP → serveur data → Oracle.
Stack : Airflow 2.x, Python (Pandas), Oracle, Linux, Git/GitLab
SOCIÉTÉ GÉNÉRALE
Data Engineer
October 2023 - November 2024 (1 year and 1 month)
Pipeline de cartographie de flux firewall en quasi-réel (1,3 Cloud LUCID, Hive.
Réalisations clés
▸ Optimisation Spark majeure : réduction du temps d'exécution d'un job critique de 6 heures à 1 heure (÷6) par analyse du plan d'exécution, repartitionnement et élimination des shuffles.
▸ Pipeline d'enrichissement : collecte API partenaires, alimentation quotidienne des référentiels Hive, jointures multi sources pour la cartographie des logs bruts.
▸ Tooling d'observabilité : fonction utilitaire de diagnostic des partitions (volume par partition) pour accélérer le debugging en production.
▸ Transformation JSON → Hive via jobs Spark, orchestrés quotidiennement par Control-M.
▸ Monitoring de la progression des jobs via Yarn.
Stack : Control-M, Yarn, Hive, Jenkins, Scala, Spark, HQL, GitHub
CARMIGNAC
Data Engineer
March 2022 - October 2023 (1 year and 7 months)
▸ Librairie Scala/Spark mutualisée : co-développement d'une librairie via IntelliJ pour génériser les traitements redondants, partagée dans l'écosystème Databricks.
▸ Pipeline event-driven ADF : déclenchement automatique sur dépôt de fichiers Excel, parsing multi-onglets, validation de schéma par job Spark (routing bad/valid), enrichissement métadonnées et stockage en tables Delta.
▸ Jointure cross-source : croisement Morningstar (fonds d'investissement) et Vendome (actifs financiers), écriture PostgreSQL pour alimentation BI.
▸ Mise en place de tests Cucumber (BDD) pour validation des développements.
▸ Construction des pipelines ADF (Linked Services, Datasets, Triggers, Alerts).
▸ Mise en production du stream BI Digitalization.
Stack : Azure Data Factory, Blob Storage, Databricks, Cucumber, Scala, Spark, SQL, IntelliJ
Refonte backend de l'application Agathe (maintenance prédictive IA) : migration vers FastAPI pour améliorer la maintenabilité et les performances. Capteurs IoT temps réel sur équipements industriels.

Check out Fayssal's experience

Be the first to recommend Fayssal

Help this freelancer shine by sharing your experience working together.

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

Baptiste Duhen

Fullstack developer

4.6

(4)

Amed Hamou

Senior Lead Developer

(2)

Audrey Champion

Web developer

4.3

(3)

Signup to reveal

Diplôme d'ingénieur, Informatique
EPITA: Ecole d'Ingénieur en Informatique
2021
Diplôme d'ingénieur, Informatique
Industrial Engineering,
Chulalongkorn Univerisity
Industrial Engineering,

Databricks Certified Associate Developer for Apache Spark 3.0
Databricks
2024
https://credentials.databricks.com/f4580356-92fd-405c-b173-e5713a078fc0#gs.4ijo9m
Databricks Spark
Databricks Certified Data Engineer Associate
Databricks
2024
https://credentials.databricks.com/8643a29f-2245-4d14-a4a7-c7dfa68b24e2#gs.hcq9rw#acc.jPpXrUw1
Data Engineer Microsoft Azure

Fayssal's certifications are only visible to Malt Community members

Data Engineer

Fayssal B.

Data Engineer · Databricks · Azure Lakehouse Spark

About Fayssal

Experience

Recommendations

These freelancer profiles also match your criteria

Education

Certifications

Skill set (20)

Categories