About Abdelmajid
French
Native or bilingual
English
Fluent
Experience
- ENGIEData & ML EngineerENERGY AND UTILITIESJanuary 2024 - Today (2 years and 5 months)Paris, FranceConception et développement d’un framework robuste de traitement de données des clients d’ENGIE sur la plateforme Databricks.
- Développement de librairies de traitement de données réutilisables en Python et PySpark, permettant une ingestion et une transformation des données à grande échelle et de manière évolutive.
- Refactorisation et optimisation des jobs PySpark sur Databricks, avec des gains significatifs de performance et une réduction notable des temps d’exécution sur les workloads distribués.
- Mise en place de pipelines CI/CD pour automatiser le déploiement des jobs Databricks via GitLab, garantissant des mises à jour rapides, fiables et traçables.
- Conception et orchestration de pipelines de données pour le traitement et l’analyse à grande échelle des données de consommation de gaz et d’électricité.
- Conception et développement d’un moteur de prévision pour anticiper les schémas de consommation des clients à partir de données historiques.
- Contribution à la conception de l’architecture du data lake d’ENGIE, assurant la maintenabilité et la réutilisabilité des pipelines de données.
- Environnement technique : Databricks, Python, PySpark, Airflow, GitLab.
- SACEMDATA ARCHITECTFILM AND AVDecember 2021 - November 2023 (1 year and 11 months)Paris, FranceConception et déploiement d’une plateforme de données cloud sur AWS pour le traitement des flux de données provenant des principales plateformes musicales (Spotify, YouTube, Deezer, iTunes), optimisant l’efficacité des analyses métiers et la prise de décision.
- Conception et mise en place de l’architecture complète de l’infrastructure de traitement des données sur AWS, avec l’utilisation de S3, Glue, EMR, Lambda et Elasticsearch.
- Développement de librairies Python réutilisables pour interagir avec les services AWS, favorisant la standardisation des processus d’ingestion et de transformation.
- Automatisation et planification des flux d’ingestion de données pour la collecte et le traitement des informations issues de multiples plateformes de streaming, garantissant des datasets fiables et mis à jour en continu.
- Migration des workflows IBM DataStage (traitement des données financières) vers AWS Glue.
- Mise en place de pipelines analytiques sur AWS EMR pour l’analyse à grande échelle des comportements utilisateurs, des schémas d’écoute et des statistiques d’usage.
- Indexation et mise à disposition des données dans Elasticsearch, facilitant leur exploitation par les équipes Frontend pour alimenter des applications de visualisation et des tableaux de bord dynamiques, offrant une analyse fluide et efficace des données.
- Environnement technique : Python, PySpark, AWS (S3, Lambda, SNS, SQS, Glue, EMR, Step Functions, API Gateway, Elasticsearch).
- Caisse des Dépôts et ConsignationsSoftware & DATA EngineerPUBLIC SECTORNovember 2018 - November 2021 (3 years)Arcueil, Paris, FranceConception et déploiement de la plateforme de données centralisée du Groupe Caisse des Dépôts (CDC), en s’appuyant sur la distribution Cloudera pour répondre aux besoins de stockage et de traitement de données de l’ensemble des filiales. Mise en place d’un Data Lake évolutif, supportant à la fois le traitement batch et temps réel, dans un objectif d’industrialisation des flux d’ingestion, de conformité RGPD et de mise à disposition de données fiables pour les équipes métiers.
- Conception de l’architecture d’ingestion et de traitement des données sur l’environnement Cloudera.
- Automatisation de la configuration des répertoires HDFS et des structures de tables Hive via des scripts Shell, réduisant le temps de déploiement des environnements.
- Mise à disposition d’outils de travail pour les Data Engineers, incluant des notebooks JupyterLab et des environnements Hive/HDFS/HBase prêts à l’emploi.
- Mise en place d’un pipeline de streaming basé sur Kafka pour l’ingestion de données en temps réel.
- Développement d’une solution de gestion et de traitement des logs applicatifs via la stack ELK (Elasticsearch, Logstash, Kibana), facilitant la surveillance et l’analyse en continu.
- Développement d’une solution générique d’ingestion RDBMS avec Python et Apache Sqoop pour l’intégration de données relationnelles.
- Construction de pipelines ETL pour le traitement de données à grande échelle avec PySpark, garantissant robustesse et scalabilité.
- Modélisation des données et dénormalisation des schémas afin de supporter des charges analytiques OLAP haute performance sur Hive, améliorant la vitesse et la scalabilité des requêtes sur de larges volumes de données.
- Implémentation et déploiement de solutions conformes au RGPD, incluant le chiffrement, l’anonymisation et la suppression des données sensibles.
- Environnement technique : Python, Cloudera (HDFS, Yarn, Hue, Hive, HBase, Phoenix, Kafka), ELK, Jenkins, GitLab.
Recommendations
Be the first to recommend Abdelmajid
Help this freelancer shine by sharing your experience working together.
These freelancer profiles also match your criteria
Agatha Frydrych
Backend Java Software Engineer
4.7
(3)
2
Baptiste Duhen
Fullstack developer
4.6
(4)
5
Amed Hamou
Senior Lead Developer
4
(2)
7
Audrey Champion
Web developer
4.3
(3)
4
Education
- Master Informatique et recherche opérationnelleEcole Polytechnique de Paris (l'X)2018Master Informatique et recherche opérationnelle
- Diplôme d'ingénieur d'état en informatiqueENSIAS2016Diplôme d'ingénieur d'état en informatique