You're seeing this page as if you were . The main menu is still yours, though. Exit from immersion
Abdelmajid BoutjimAB

Abdelmajid Boutjim

Data Architect | Data & ML Engineer

€600/day
Paris, FR
8-15 years

Average response time: 1 hour

About Abdelmajid

Expert en data engineering, passionné par les mathématiques, la programmation et les technologies innovantes. Fort d’une expérience confirmée dans la conception et le déploiement de pipelines de données à grande échelle et de systèmes distribués, j’excelle dans la création d’architectures robustes, performantes et évolutives pour exploiter tout le potentiel des données et répondre à des enjeux stratégiques. Animé par une recherche constante de performance, de qualité du code et d’impact métier, je combine expertise technique et rigueur pour concevoir des solutions fiables et optimisées.

Domaines d’expertise : Data engineering avancé, cloud computing, analyse de graphes à grande échelle, et implémentation d’algorithmes d’optimisation et de recherche opérationnelle.

Compétences techniques : Python, Scala, SQL, Apache Spark, Databricks, AWS
  • French

    Native or bilingual

  • English

    Fluent

Can work on-site
Paris (up to 50km)

Experience

  • ENGIE
    Data & ML Engineer
    ENERGY AND UTILITIES
    January 2024 - Today (2 years and 5 months)
    Paris, France
    Conception et développement d’un framework robuste de traitement de données des clients d’ENGIE sur la plateforme Databricks.

    • Développement de librairies de traitement de données réutilisables en Python et PySpark, permettant une ingestion et une transformation des données à grande échelle et de manière évolutive.
    • Refactorisation et optimisation des jobs PySpark sur Databricks, avec des gains significatifs de performance et une réduction notable des temps d’exécution sur les workloads distribués.
    • Mise en place de pipelines CI/CD pour automatiser le déploiement des jobs Databricks via GitLab, garantissant des mises à jour rapides, fiables et traçables.
    • Conception et orchestration de pipelines de données pour le traitement et l’analyse à grande échelle des données de consommation de gaz et d’électricité.
    • Conception et développement d’un moteur de prévision pour anticiper les schémas de consommation des clients à partir de données historiques.
    • Contribution à la conception de l’architecture du data lake d’ENGIE, assurant la maintenabilité et la réutilisabilité des pipelines de données.
    • Environnement technique : Databricks, Python, PySpark, Airflow, GitLab.
    Python Spark PySpark Optimisation du code
  • SACEM
    DATA ARCHITECT
    FILM AND AV
    December 2021 - November 2023 (1 year and 11 months)
    Paris, France
    Conception et déploiement d’une plateforme de données cloud sur AWS pour le traitement des flux de données provenant des principales plateformes musicales (Spotify, YouTube, Deezer, iTunes), optimisant l’efficacité des analyses métiers et la prise de décision.
    • Conception et mise en place de l’architecture complète de l’infrastructure de traitement des données sur AWS, avec l’utilisation de S3, Glue, EMR, Lambda et Elasticsearch.
    • Développement de librairies Python réutilisables pour interagir avec les services AWS, favorisant la standardisation des processus d’ingestion et de transformation.
    • Automatisation et planification des flux d’ingestion de données pour la collecte et le traitement des informations issues de multiples plateformes de streaming, garantissant des datasets fiables et mis à jour en continu.
    • Migration des workflows IBM DataStage (traitement des données financières) vers AWS Glue.
    • Mise en place de pipelines analytiques sur AWS EMR pour l’analyse à grande échelle des comportements utilisateurs, des schémas d’écoute et des statistiques d’usage.
    • Indexation et mise à disposition des données dans Elasticsearch, facilitant leur exploitation par les équipes Frontend pour alimenter des applications de visualisation et des tableaux de bord dynamiques, offrant une analyse fluide et efficace des données.
    • Environnement technique : Python, PySpark, AWS (S3, Lambda, SNS, SQS, Glue, EMR, Step Functions, API Gateway, Elasticsearch).
    Spark Python Amazon Web Services Big Data Optimisation du code
  • Caisse des Dépôts et Consignations
    Software & DATA Engineer
    PUBLIC SECTOR
    November 2018 - November 2021 (3 years)
    Arcueil, Paris, France
    Conception et déploiement de la plateforme de données centralisée du Groupe Caisse des Dépôts (CDC), en s’appuyant sur la distribution Cloudera pour répondre aux besoins de stockage et de traitement de données de l’ensemble des filiales. Mise en place d’un Data Lake évolutif, supportant à la fois le traitement batch et temps réel, dans un objectif d’industrialisation des flux d’ingestion, de conformité RGPD et de mise à disposition de données fiables pour les équipes métiers.
    • Conception de l’architecture d’ingestion et de traitement des données sur l’environnement Cloudera.
    • Automatisation de la configuration des répertoires HDFS et des structures de tables Hive via des scripts Shell, réduisant le temps de déploiement des environnements.
    • Mise à disposition d’outils de travail pour les Data Engineers, incluant des notebooks JupyterLab et des environnements Hive/HDFS/HBase prêts à l’emploi.
    • Mise en place d’un pipeline de streaming basé sur Kafka pour l’ingestion de données en temps réel.
    • Développement d’une solution de gestion et de traitement des logs applicatifs via la stack ELK (Elasticsearch, Logstash, Kibana), facilitant la surveillance et l’analyse en continu.
    • Développement d’une solution générique d’ingestion RDBMS avec Python et Apache Sqoop pour l’intégration de données relationnelles.
    • Construction de pipelines ETL pour le traitement de données à grande échelle avec PySpark, garantissant robustesse et scalabilité.
    • Modélisation des données et dénormalisation des schémas afin de supporter des charges analytiques OLAP haute performance sur Hive, améliorant la vitesse et la scalabilité des requêtes sur de larges volumes de données.
    • Implémentation et déploiement de solutions conformes au RGPD, incluant le chiffrement, l’anonymisation et la suppression des données sensibles.
    • Environnement technique : Python, Cloudera (HDFS, Yarn, Hue, Hive, HBase, Phoenix, Kafka), ELK, Jenkins, GitLab.
    Sqoop PySpark Hive Big Data Hadoop

Recommendations

Be the first to recommend Abdelmajid

Help this freelancer shine by sharing your experience working together.

These freelancer profiles also match your criteria

AgathaA

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

2

BaptisteB

Baptiste Duhen

Fullstack developer

4.6

(4)

5

AmedA

Amed Hamou

Senior Lead Developer

4

(2)

7

AudreyA

Audrey Champion

Web developer

4.3

(3)

4

Education

  • Master Informatique et recherche opérationnelle
    Ecole Polytechnique de Paris (l'X)
    2018
    Master Informatique et recherche opérationnelle
  • Diplôme d'ingénieur d'état en informatique
    ENSIAS
    2016
    Diplôme d'ingénieur d'état en informatique

Skill set (23)

Categories