Description

Expert en data engineering, passionné par les mathématiques, la programmation et les technologies innovantes. Fort d’une expérience confirmée dans la conception et le déploiement de pipelines de données à grande échelle et de systèmes distribués, j’excelle dans la création d’architectures robustes, performantes et évolutives pour exploiter tout le potentiel des données et répondre à des enjeux stratégiques. Animé par une recherche constante de performance, de qualité du code et d’impact métier, je combine expertise technique et rigueur pour concevoir des solutions fiables et optimisées.

Domaines d’expertise : Data engineering avancé, cloud computing, analyse de graphes à grande échelle, et implémentation d’algorithmes d’optimisation et de recherche opérationnelle.

Compétences techniques : Python, Scala, SQL, Apache Spark, Databricks, AWS

Languages

French
Native or bilingual
English
Fluent

Workplace preferences

Can work on-site

Paris (up to 50km)

ENGIE
Data & ML Engineer
ENERGY AND UTILITIES
January 2024 - Today (2 years and 5 months)
Paris, France
Conception et développement d’un framework robuste de traitement de données des clients d’ENGIE sur la plateforme Databricks.

Développement de librairies de traitement de données réutilisables en Python et PySpark, permettant une ingestion et une transformation des données à grande échelle et de manière évolutive.
Refactorisation et optimisation des jobs PySpark sur Databricks, avec des gains significatifs de performance et une réduction notable des temps d’exécution sur les workloads distribués.
Mise en place de pipelines CI/CD pour automatiser le déploiement des jobs Databricks via GitLab, garantissant des mises à jour rapides, fiables et traçables.
Conception et orchestration de pipelines de données pour le traitement et l’analyse à grande échelle des données de consommation de gaz et d’électricité.
Conception et développement d’un moteur de prévision pour anticiper les schémas de consommation des clients à partir de données historiques.
Contribution à la conception de l’architecture du data lake d’ENGIE, assurant la maintenabilité et la réutilisabilité des pipelines de données.
Environnement technique : Databricks, Python, PySpark, Airflow, GitLab.
Python Spark PySpark Optimisation du code
SACEM
DATA ARCHITECT
FILM AND AV
December 2021 - November 2023 (1 year and 11 months)
Paris, France
Conception et déploiement d’une plateforme de données cloud sur AWS pour le traitement des flux de données provenant des principales plateformes musicales (Spotify, YouTube, Deezer, iTunes), optimisant l’efficacité des analyses métiers et la prise de décision.
Conception et mise en place de l’architecture complète de l’infrastructure de traitement des données sur AWS, avec l’utilisation de S3, Glue, EMR, Lambda et Elasticsearch.
Développement de librairies Python réutilisables pour interagir avec les services AWS, favorisant la standardisation des processus d’ingestion et de transformation.
Automatisation et planification des flux d’ingestion de données pour la collecte et le traitement des informations issues de multiples plateformes de streaming, garantissant des datasets fiables et mis à jour en continu.
Migration des workflows IBM DataStage (traitement des données financières) vers AWS Glue.
Mise en place de pipelines analytiques sur AWS EMR pour l’analyse à grande échelle des comportements utilisateurs, des schémas d’écoute et des statistiques d’usage.
Indexation et mise à disposition des données dans Elasticsearch, facilitant leur exploitation par les équipes Frontend pour alimenter des applications de visualisation et des tableaux de bord dynamiques, offrant une analyse fluide et efficace des données.
Environnement technique : Python, PySpark, AWS (S3, Lambda, SNS, SQS, Glue, EMR, Step Functions, API Gateway, Elasticsearch).
Spark Python Amazon Web Services Big Data Optimisation du code
Caisse des Dépôts et Consignations
Software & DATA Engineer
PUBLIC SECTOR
November 2018 - November 2021 (3 years)
Arcueil, Paris, France
Conception et déploiement de la plateforme de données centralisée du Groupe Caisse des Dépôts (CDC), en s’appuyant sur la distribution Cloudera pour répondre aux besoins de stockage et de traitement de données de l’ensemble des filiales. Mise en place d’un Data Lake évolutif, supportant à la fois le traitement batch et temps réel, dans un objectif d’industrialisation des flux d’ingestion, de conformité RGPD et de mise à disposition de données fiables pour les équipes métiers.
Conception de l’architecture d’ingestion et de traitement des données sur l’environnement Cloudera.
Automatisation de la configuration des répertoires HDFS et des structures de tables Hive via des scripts Shell, réduisant le temps de déploiement des environnements.
Mise à disposition d’outils de travail pour les Data Engineers, incluant des notebooks JupyterLab et des environnements Hive/HDFS/HBase prêts à l’emploi.
Mise en place d’un pipeline de streaming basé sur Kafka pour l’ingestion de données en temps réel.
Développement d’une solution de gestion et de traitement des logs applicatifs via la stack ELK (Elasticsearch, Logstash, Kibana), facilitant la surveillance et l’analyse en continu.
Développement d’une solution générique d’ingestion RDBMS avec Python et Apache Sqoop pour l’intégration de données relationnelles.
Construction de pipelines ETL pour le traitement de données à grande échelle avec PySpark, garantissant robustesse et scalabilité.
Modélisation des données et dénormalisation des schémas afin de supporter des charges analytiques OLAP haute performance sur Hive, améliorant la vitesse et la scalabilité des requêtes sur de larges volumes de données.
Implémentation et déploiement de solutions conformes au RGPD, incluant le chiffrement, l’anonymisation et la suppression des données sensibles.
Environnement technique : Python, Cloudera (HDFS, Yarn, Hue, Hive, HBase, Phoenix, Kafka), ELK, Jenkins, GitLab.
Sqoop PySpark Hive Big Data Hadoop

Check out Abdelmajid's experience

Be the first to recommend Abdelmajid

Help this freelancer shine by sharing your experience working together.

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

Baptiste Duhen

Fullstack developer

4.6

(4)

Amed Hamou

Senior Lead Developer

(2)

Audrey Champion

Web developer

4.3

(3)

Signup to reveal

Master Informatique et recherche opérationnelle
Ecole Polytechnique de Paris (l'X)
2018
Master Informatique et recherche opérationnelle
Diplôme d'ingénieur d'état en informatique
ENSIAS
2016
Diplôme d'ingénieur d'état en informatique

Check out Abdelmajid's education

Abdelmajid Boutjim

Data Architect | Data & ML Engineer

About Abdelmajid

Experience

Recommendations

These freelancer profiles also match your criteria

Education

Skill set (23)

Categories