Description

Ingénieure Data & IA – Data Quality, Big Data & Cloud (AWS / GCP / IBM)

Ingénieure Data & IA spécialisée dans la mise en qualité, la fiabilisation et la valorisation de données à grande échelle. J’interviens sur l’ensemble du cycle de vie de la donnée, de la collecte à la mise en production, avec un fort focus sur la Data Quality by design, la gouvernance et l’industrialisation des pipelines data en environnement cloud (AWS, GCP).

Conception et orchestration de pipelines ETL robustes et automatisés intégrant des contrôles qualité systématiques : ingestion, nettoyage, normalisation, validation des schémas et traçabilité des données (AWS Glue, PySpark, Airflow, GCP Dataflow). Gestion de données volumineuses et multi-sources (audio, texte, capteurs, documents), avec stockage et historisation sur S3, GCS, BigQuery, Redshift et PostgreSQL. Mise en place de monitoring et d’alerting pour garantir la complétude, la cohérence et la continuité des traitements.

Expérience sur des projets Data Science et IA (NLP, reconnaissance vocale, vision par ordinateur, ML embarqué), avec une attention particulière portée à la qualité des datasets d’entraînement, à leur cohérence et à leur exploitabilité. Entraînement, évaluation et déploiement de modèles sur AWS SageMaker et GCP AI Platform, intégrant des pipelines de préparation de données fiables et reproductibles.

Habituée à travailler dans des environnements complexes et contraints, j’accompagne les équipes métiers et techniques dans la structuration de données fiables, auditables et prêtes pour les usages analytiques, ML et IA, tout en optimisant les coûts et les performances via une approche FinOps et cloud-native.

Industry field of expertise

Languages

French
Native or bilingual
English
Fluent

Workplace preferences

Can work on-site

Nanterre (up to 50km), Nanterre (up to 10km), Saint-Quentin-en-Yvelines (up to 10km), Paris (up to 20km)

BNP Paribas
Data engineer - Data Quality
BANKING AND INSURANCE
September 2025 - December 2025 (3 months)
Montreuil, France
Cadrage & besoins métier:
Ateliers avec Product Owner et Data Scientists pour définir les exigences du service d’assistant virtuel : règles métier Q&A, critères de qualité des données et contraintes SI (sécurité bancaire, DMZR, IBM COS, Elasticsearch).

Architecture & design (DDD):
Conception d’une architecture Domain / Application / Infrastructure. Modélisation des entités clés (Document, Chunk, Embedding, IndexRecord) et mise en place d’un pipeline modulaire, évolutif et maintenable.

Ingestion & Data Quality (ETL):
Développement d’un pipeline d’ingestion complet depuis IBM COS : détection automatique des formats (CSV/JSON), parsing robuste, normalisation, contrôles qualité et cycle de vie des données
(raw → parsed → enriched → indexed → dead_letter).

Qualité & fiabilité des données:
Définition et implémentation de règles de Data Quality (complétude, cohérence, unicité, conformité).
Détection des anomalies (données manquantes, doublons, erreurs de format), gestion des erreurs et traçabilité des traitements.

Sécurité & accès aux données:
Développement d’un connecteur Python sécurisé pour IBM COS (DMZR) avec récupération dynamique des credentials via Vault et logs sécurisés.

Structuration & embeddings:
Mise en place d’une stratégie de chunking adaptée au contexte bancaire (cohérence sémantique, tailles maîtrisées).
Génération d’embeddings avec gestion des batchs, retries et logs structurés.

Industrialisation Elasticsearch:
Création et gestion des index, mappings optimisés (analyzers personnalisés, champs nested, multi-fields).
Bulk indexing avec gestion des erreurs partielles et switch d’alias atomique sans downtime.

Documentation & agilité:
Rédaction de la documentation technique sur Confluence.
Travail en méthodologie Agile Scrum, gestion des user stories techniques et suivi via Jira.
Vault Python Domain Driven Design Elasticsearch IBM Cloud
Letxbe
Data Engineer – Data Quality & Governance - Cloud AWS
SOFTWARE PUBLISHING
December 2023 - August 2025 (1 year and 8 months)
Paris, France
Cadrage & exigences data
Recueil des besoins auprès des parties prenantes métiers et techniques avec un fort accent sur la qualité, la fiabilité et la gouvernance des données : règles métier, exigences de sécurité, contraintes SI, coûts et choix des services cloud.

Data Quality by design
Définition et implémentation de règles de qualité des données (complétude, cohérence, unicité, conformité des schémas).
Intégration de contrôles qualité automatisés dans les pipelines d’ingestion et d’indexation pour détecter les anomalies (données manquantes, incohérences, erreurs partielles).

Plateforme data & infrastructure
Déploiement et industrialisation d’OpenSearch sur AWS via Terraform : clusters sécurisés (IAM, TLS/KMS), journalisation CloudWatch, sous-réseaux privés multi-AZ et VPC Endpoints garantissant l’intégrité et la confidentialité des données.

Pipelines fiables & scalables
Conception de pipelines Python d’indexation et de recherche avec validation systématique des données : mappings dynamiques, analyzers personnalisés, champs nested et contrôles de cohérence avant exposition.
Optimisation des requêtes et exposition via API à faible latence.

Migration & fiabilisation des données
Migration depuis ArangoDB vers OpenSearch : extraction, nettoyage, transformation et contrôles qualité post-migration pour garantir l’exhaustivité et la conformité des données.

Monitoring & gouvernance
Monitoring proactif de la qualité et de la fraîcheur des données (alertes sur erreurs, volumes, shards, snapshots).
Sécurisation des flux via AWS Transfer Family (SFTP), automatisation SQS → Lambda → API et suivi FinOps pour une gouvernance data durable.
Terraform Transfer Family Textract ArangoDB
Stellantis
Data Engineer – Data Quality & Industrialisation des Pipelines (GCP | Véhicules autonomes)
AUTOMOBILE
September 2021 - December 2023 (2 years and 2 months)
Paris, France
Cadrage & exigences data
Collaboration avec les équipes Data, ML et ingénierie véhicule pour définir les exigences de qualité des données issues des essais sur route : fiabilité des flux capteurs, cohérence temporelle, exploitabilité analytique et ML, contraintes de volumétrie et de performance.

Ingestion & pipelines data (GCP)
Mise en place de pipelines automatisés pour la collecte, la synchronisation et le transfert des données capteurs (vidéo, audio, LIDAR, logs CAN) vers Google Cloud Storage, avec orchestration via Apache Airflow et déclenchement à la réception des fichiers bruts.

Data Processing & Data Quality
Développement de traitements distribués avec Dataflow pour garantir la qualité des données : nettoyage (filtrage audio, suppression de frames redondantes), normalisation des timestamps multi-capteurs, contrôles de complétude et de cohérence, enrichissement par métadonnées (ID véhicule, GPS, conditions météo).

Fiabilité & contrôles qualité
Implémentation de règles de Data Quality sur les données entrantes et transformées : détection automatique des données corrompues, incomplètes ou incohérentes, mise à l’écart des flux non conformes et sécurisation des datasets utilisés pour l’analyse et le ML.

Stockage & structuration
Structuration des données dans BigQuery (tables partitionnées, schémas maîtrisés), avec suivi de la fraîcheur, des volumes et de la traçabilité des flux de la source jusqu’aux datasets finaux.

Orchestration & monitoring
Orchestration complète des pipelines avec Airflow, intégrant contrôles qualité à chaque étape clé, monitoring des jobs, gestion des échecs et reprise automatique pour garantir la continuité des traitements.

Datasets ML & déploiement
Préparation de datasets fiables pour l’entraînement de modèles sur Vertex AI, puis déploiement de modèles validés sur plateformes embarquées (NVIDIA Jetson), avec Docker, RTMaps et ROS2 pour assurer reproductibilité et robustesse.
Big Data Docker giltab Airflow Google cloud