Description

Je suis Lead Cloud Data Engineer avec plus de 9 ans d'expériences, en Data engineering. J'ai définit et développer des pipelines data on premises et sur le cloud AWS. Ainsi qu'une grande expérience sur la partie Devops que ça soit des déploiement sur Kubernetes ou sur le cloud . Je suis certifié AWS Solutions Architect et Databricks Data Engineer.

Industry field of expertise

Languages

French
Native or bilingual
English
Fluent

Workplace preferences

Can work on-site

Paris (up to 50km)

BpiFrance
Tech lead/Architect Data
December 2022 - Today (3 years and 6 months)
Paris, France
Contexte : Finances et risques
En tant que Lead Data Engineer AWS au sein de l'équipe CFR (compute finance risque) chez
Bpifrance,on traite les données liées aux crédits d'entreprises avec Bpifrance.Nous assurons
l'ingestion, la préparation et l'exposition de données, que ce soit en mode batchs ou
streaming, afin de les utiliser ultérieurement pour des prédictions décisionnelles.
• Participation aux différents ateliers agile pour la définition des périmètres techniques et fonctionnel des projets
• Cadrage, suivi et chiffrage des travaux par l'équipe MOE.
• Définition des bonnes pratiques au sein de l'équipe (tests, clean code, documentation technique,..)
• Définition de l'architecture et des design pattern pour le développement du framework qui gère l'ingestion et la préparation des données.

• Définition des différents microservices pour le calcul des métriques de risques.
• Configuration des cluster Kafka et amélioration de la performance des microservices.
• Participation aux développement des différents jobs glue Spark et streaming à
partir de kafka pour le traitement des données à partir de S3 ou MongoDb.
• Implémentation des triggers Lambda pour le déclenchements de ces Jobs.
• Étude et développement de la pipeline CI/CD du projet sur jenkins( en utilisant des scripts groovy,bash,..), déploiement des job avec terraform sur aws,.
• Configuration du cluster kubernetes pour le déploiement des APIs et microservices , ainsi que fluxcd et helm.
• Définition des jenkins library pour améliorer les pipeline .
• Tests unitaires et fonctionnels en développant en mode TDD, BDD.
• Automatisation des tâches de RUN: sanity check, reprise des jobs,...

Environnement technique :
Big data: Spark , Kafka
Langages et framework: Python 3.9, Java 11, 17 .
AWS: Glue, S3, Lambda, API Gateway,, EKS, KMS,
Base de données : Mongo, DynamoDb.
API: Flask.
CI/CD: Git, Jenkins, Maven, Artifactory,Docker,Kubernetes, Helm, Fluxcd, Sonar, Terraform.
BPCE
Senior Data Engineer/Devops
November 2021 - December 2022 (1 year and 1 month)
Contexte : Finances et risques
Étant l'organe central de la banque populaire et la caisse d'épargne, La BPCE doit traiter
plusieurs types de fichiers chaque jour, avec une volumétrie importante. J'ai travaillé sur des problématiques d'études des risques financiers des banques et établissements partenaires de la BPCE. La plateforme Cloudera (CDP) avec Spark sont utilisés pour l'ingestion, la préparation et
l'exposition des données.
Sujet : Ingestion, préparation et exposition des données du Risque crédit et Risque financiers. Rôle dans le projet : Senior Data Engineer. Durée : 11 mois Missions et Tâches :
• Analyses fonctionnelles et techniques des besoins, en collaboration avec les Business
Analysts.
• Participation aux différents ateliers agile pour la définition des périmètres techniques et fonctionnel des projets
• Développements :
• Développement d'ing-core, le framework cœur utilisé par tous les projets big data dans la BPCE, qui se basent sur Java,scala, spark, spring,..
• Développement des différents jobs Spark pour le traitement des données ( ypd, risque_fi, rdl, wlr,..)
• Ingestion des données dans hdfs et configuration avec Hive des tables
correspondantes.
• Développement des services pour les traitement des données Hbase
• Configuration des jobs spark et étude de leurs performances.
• Étude et développement de la pipeline CI/CD du projet sur jenkins( en utilisant des scripts groovy,bash,..).
• Tests unitaires et fonctionnels. Suivi des anomalies, ticketing sur Jira
• Assistance recette et production, monitoring des différents job ( spark ui , grafana,..)
• Amélioration de la performance des différents jobs et modules.

Environnement technique :
Big data: Spark , Cloudera (Yarn,Hive, Hbase, Hue, Hdfs,..)
Langages et framework: Java 8 et Spring, Scala 2.
Base de données : Hbase.
CI/CD: Git, Jenkins, Maven, artifactory, Ansible, Sonar, XL Deploy, XL Release.
AWS
Lead Data Engineer
June 2021 - November 2021 (5 months)
Contexte : Hardware startup. Dans un contexte de startup, sous la direction directe du CTO, j'étais chargé d'évaluer la
performance des nouveaux processeurs que la startup a introduit dans le marché. Les processeurs se basant sur l'architecture RISC-V, leurs performances étaient comparées aux processeurs suivant l'architecture x86. Ils étaient benchmarkés sur des clusters de database et big data comme Cassandra, MongoDB …etc. Mes tâches se focalisaient sur la partie big data avec Spark.

Sujet : Benchmark Spark sur des processeurs RISC-V vs x86. Rôle dans le projet : AWS Lead Data Engineer. Durée : 6 mois Missions et Tâches :

• Analyses fonctionnels et techniques des besoins, en collaboration avec le CTO et Les équipes produits.
• Ingestion des données TPC-DS dans S3 sous format parquet.
• Développement des jobs spark pour le traitement des données TPC-DS.
• Intégration de spark measure dans les différents jobs, pour la collecte des metrics.
• Déploiement et configuration des jobs spark sur EMR (Elastic mapreduce).
• Déploiement des jobs sur des clusters de EC2 instances, en utilisant Spark standalone mode.
• Construction de la chaîne CI/CD avec Jenkins pour l'automatisation de la
configuration, la création et le lancement des clusters EMR et EC2.
• Automatisation de la configuration des EC2 en utilisant ansible playbooks.
• Automatisation des déploiements en utilisant Terraform.
• Monitoring et amélioration de la performance des différents jobs Spark.
• Étude et comparaison des différents benchmark effectués dans les clusters EMR, EC2
(x86 architecture) et les résultats obtenus par une autre équipe en déployant le cluster sur des architectures RISC-V dans AWS FPGA instances.