You're seeing this page as if you were . The main menu is still yours, though. Exit from immersion
Hassina SaddedineHS

Hassina Saddedine

Data Engineer | Data Quality | AWS, GCP, IBM Cloud

€600/day
Nanterre, FR
3-7 years

Average response time: 1 hour

About Hassina

Ingénieure Data & IA – Data Quality, Big Data & Cloud (AWS / GCP / IBM)

Ingénieure Data & IA spécialisée dans la mise en qualité, la fiabilisation et la valorisation de données à grande échelle. J’interviens sur l’ensemble du cycle de vie de la donnée, de la collecte à la mise en production, avec un fort focus sur la Data Quality by design, la gouvernance et l’industrialisation des pipelines data en environnement cloud (AWS, GCP).

Conception et orchestration de pipelines ETL robustes et automatisés intégrant des contrôles qualité systématiques : ingestion, nettoyage, normalisation, validation des schémas et traçabilité des données (AWS Glue, PySpark, Airflow, GCP Dataflow). Gestion de données volumineuses et multi-sources (audio, texte, capteurs, documents), avec stockage et historisation sur S3, GCS, BigQuery, Redshift et PostgreSQL. Mise en place de monitoring et d’alerting pour garantir la complétude, la cohérence et la continuité des traitements.

Expérience sur des projets Data Science et IA (NLP, reconnaissance vocale, vision par ordinateur, ML embarqué), avec une attention particulière portée à la qualité des datasets d’entraînement, à leur cohérence et à leur exploitabilité. Entraînement, évaluation et déploiement de modèles sur AWS SageMaker et GCP AI Platform, intégrant des pipelines de préparation de données fiables et reproductibles.

Habituée à travailler dans des environnements complexes et contraints, j’accompagne les équipes métiers et techniques dans la structuration de données fiables, auditables et prêtes pour les usages analytiques, ML et IA, tout en optimisant les coûts et les performances via une approche FinOps et cloud-native.
  • French

    Native or bilingual

  • English

    Fluent

Can work on-site
Nanterre (up to 50km), Nanterre (up to 10km), Saint-Quentin-en-Yvelines (up to 10km), Paris (up to 20km)

Experience

  • BNP Paribas
    Data engineer - Data Quality
    BANKING AND INSURANCE
    September 2025 - December 2025 (3 months)
    Montreuil, France
    Cadrage & besoins métier:
    Ateliers avec Product Owner et Data Scientists pour définir les exigences du service d’assistant virtuel : règles métier Q&A, critères de qualité des données et contraintes SI (sécurité bancaire, DMZR, IBM COS, Elasticsearch).

    Architecture & design (DDD):
    Conception d’une architecture Domain / Application / Infrastructure. Modélisation des entités clés (Document, Chunk, Embedding, IndexRecord) et mise en place d’un pipeline modulaire, évolutif et maintenable.

    Ingestion & Data Quality (ETL):
    Développement d’un pipeline d’ingestion complet depuis IBM COS : détection automatique des formats (CSV/JSON), parsing robuste, normalisation, contrôles qualité et cycle de vie des données
    (raw → parsed → enriched → indexed → dead_letter).

    Qualité & fiabilité des données:
    Définition et implémentation de règles de Data Quality (complétude, cohérence, unicité, conformité).
    Détection des anomalies (données manquantes, doublons, erreurs de format), gestion des erreurs et traçabilité des traitements.

    Sécurité & accès aux données:
    Développement d’un connecteur Python sécurisé pour IBM COS (DMZR) avec récupération dynamique des credentials via Vault et logs sécurisés.

    Structuration & embeddings:
    Mise en place d’une stratégie de chunking adaptée au contexte bancaire (cohérence sémantique, tailles maîtrisées).
    Génération d’embeddings avec gestion des batchs, retries et logs structurés.

    Industrialisation Elasticsearch:
    Création et gestion des index, mappings optimisés (analyzers personnalisés, champs nested, multi-fields).
    Bulk indexing avec gestion des erreurs partielles et switch d’alias atomique sans downtime.

    Documentation & agilité:
    Rédaction de la documentation technique sur Confluence.
    Travail en méthodologie Agile Scrum, gestion des user stories techniques et suivi via Jira.
    Vault Python Domain Driven Design Elasticsearch IBM Cloud
  • Letxbe
    Data Engineer – Data Quality & Governance - Cloud AWS
    SOFTWARE PUBLISHING
    December 2023 - August 2025 (1 year and 8 months)
    Paris, France
    Cadrage & exigences data
    Recueil des besoins auprès des parties prenantes métiers et techniques avec un fort accent sur la qualité, la fiabilité et la gouvernance des données : règles métier, exigences de sécurité, contraintes SI, coûts et choix des services cloud.

    Data Quality by design
    Définition et implémentation de règles de qualité des données (complétude, cohérence, unicité, conformité des schémas).
    Intégration de contrôles qualité automatisés dans les pipelines d’ingestion et d’indexation pour détecter les anomalies (données manquantes, incohérences, erreurs partielles).

    Plateforme data & infrastructure
    Déploiement et industrialisation d’OpenSearch sur AWS via Terraform : clusters sécurisés (IAM, TLS/KMS), journalisation CloudWatch, sous-réseaux privés multi-AZ et VPC Endpoints garantissant l’intégrité et la confidentialité des données.

    Pipelines fiables & scalables
    Conception de pipelines Python d’indexation et de recherche avec validation systématique des données : mappings dynamiques, analyzers personnalisés, champs nested et contrôles de cohérence avant exposition.
    Optimisation des requêtes et exposition via API à faible latence.

    Migration & fiabilisation des données
    Migration depuis ArangoDB vers OpenSearch : extraction, nettoyage, transformation et contrôles qualité post-migration pour garantir l’exhaustivité et la conformité des données.

    Monitoring & gouvernance
    Monitoring proactif de la qualité et de la fraîcheur des données (alertes sur erreurs, volumes, shards, snapshots).
    Sécurisation des flux via AWS Transfer Family (SFTP), automatisation SQS → Lambda → API et suivi FinOps pour une gouvernance data durable.
    Terraform Transfer Family Textract ArangoDB
  • Stellantis
    Data Engineer – Data Quality & Industrialisation des Pipelines (GCP | Véhicules autonomes)
    AUTOMOBILE
    September 2021 - December 2023 (2 years and 2 months)
    Paris, France
    Cadrage & exigences data
    Collaboration avec les équipes Data, ML et ingénierie véhicule pour définir les exigences de qualité des données issues des essais sur route : fiabilité des flux capteurs, cohérence temporelle, exploitabilité analytique et ML, contraintes de volumétrie et de performance.

    Ingestion & pipelines data (GCP)
    Mise en place de pipelines automatisés pour la collecte, la synchronisation et le transfert des données capteurs (vidéo, audio, LIDAR, logs CAN) vers Google Cloud Storage, avec orchestration via Apache Airflow et déclenchement à la réception des fichiers bruts.

    Data Processing & Data Quality
    Développement de traitements distribués avec Dataflow pour garantir la qualité des données : nettoyage (filtrage audio, suppression de frames redondantes), normalisation des timestamps multi-capteurs, contrôles de complétude et de cohérence, enrichissement par métadonnées (ID véhicule, GPS, conditions météo).

    Fiabilité & contrôles qualité
    Implémentation de règles de Data Quality sur les données entrantes et transformées : détection automatique des données corrompues, incomplètes ou incohérentes, mise à l’écart des flux non conformes et sécurisation des datasets utilisés pour l’analyse et le ML.

    Stockage & structuration
    Structuration des données dans BigQuery (tables partitionnées, schémas maîtrisés), avec suivi de la fraîcheur, des volumes et de la traçabilité des flux de la source jusqu’aux datasets finaux.

    Orchestration & monitoring
    Orchestration complète des pipelines avec Airflow, intégrant contrôles qualité à chaque étape clé, monitoring des jobs, gestion des échecs et reprise automatique pour garantir la continuité des traitements.

    Datasets ML & déploiement
    Préparation de datasets fiables pour l’entraînement de modèles sur Vertex AI, puis déploiement de modèles validés sur plateformes embarquées (NVIDIA Jetson), avec Docker, RTMaps et ROS2 pour assurer reproductibilité et robustesse.
    Big Data Docker giltab Airflow Google cloud

Recommendations

These freelancer profiles also match your criteria

AgathaA

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

2

BaptisteB

Baptiste Duhen

Fullstack developer

4.6

(4)

5

AmedA

Amed Hamou

Senior Lead Developer

4

(2)

7

AudreyA

Audrey Champion

Web developer

4.3

(3)

4

Education

  • Master 2
    Créteil
    2020
    Système distribués et technologies de la data science

Certifications

  • ros
    Orsys
    2023
  • Hand’s -on machine learning with Nvidia and Aws
    Coursera
    2023

Skill set

Categories