Description

🚀 Architecte Plateformes IA & LLMOps | De l’idée à l’IA réellement opérée

J’aide les entreprises à transformer l’IA générative en service fiable, sécurisé et rentable, capable de fonctionner à grande échelle.

Mon expertise porte sur la conception et l’exploitation de plateformes d’inférence LLM et RAG de production, pensées pour des contextes exigeants : forte volumétrie, SLA stricts, données sensibles et intégration au SI existant.

🌟 Ce que j’apporte

Industrialiser l’IA, pas seulement la démontrer

Passage du PoC à une plateforme opérée : performance d’inférence, haute disponibilité, coûts maîtrisés et exploitabilité réelle.

Des RAG utiles au métier

Moteurs de recherche augmentée fiables, traçables et explicables, adaptés aux usages réglementaires, financiers ou médicaux.

Une approche LLMOps complète

CI/CD des modèles, gouvernance des prompts et datasets, monitoring des dérives, gestion des quotas et optimisation des dépenses.

Des architectures robustes

Infrastructures multi-GPU on-prem ou cloud, Kubernetes/OpenShift, vLLM/Triton, stratégies de scaling et de résilience.

📌 Exemples d’impact

- Plateforme LLM groupe bancaire : >150k utilisateurs, latence maîtrisée, SLA p99, exploitation multi-sites sécurisée.

- Plateforme IA clinique : aide à la décision traçable sur données de santé, conformité et adoption par les praticiens.

- Agents métiers : automatisation de rapports complexes et recherche documentaire à forte valeur ajoutée.

🎯 Ma promesse

Vous livrer une plateforme GenAI de production avec :

-Une architecture solide et scalable

-Une gouvernance opérationnelle

-Une exploitation maîtrisée

-Des coûts pilotés

-Des applications métiers porteuses de valeur

Industry field of expertise

Languages

French
Native or bilingual
English
Native or bilingual
German
Conversational

Workplace preferences

Can work on-site

Paris (up to 50km)

BNPP
AI Platform Architect & Owner
BANKING AND INSURANCE
August 2025 - Today (10 months)
Montreuil, France
Architecture & exploitation plateforme IA groupe
— Conception, déploiement et exploitation de la plateforme d’inférence IA du groupe BNP, fournissant des capacités LLM et ML à l’ensemble des entités (modèles standardisés et custom).
— Exploitation d’un cluster GPU on-premise multi-sites via HyperShift, hébergeant des clusters OpenShift dédiés IA, HA et redondés inter-sites.
— Mise en œuvre de clusters OpenShift AI intégrant Kubernetes, SDN, Service Mesh, Operators, Prometheus, Grafana, Alertmanager, Loki, Jaeger, Pipelines, RBAC et Network Policies.

Scalabilité & performance
— Dimensionnement de nœuds multi-GPU pour modèles de 7B à 600B paramètres, optimisation MIG, scheduling, NUMA et topologies NVLink.
— Exploitation sous contraintes industrielles : dizaines de milliers d’utilisateurs concurrents, >150k MAU, SLA stricts, TTFT optimisé, latence p99 < 3s.
— Stratégies avancées de scaling, batching et priorisation sur clusters mutualisés hors-prod et clusters prod dédiés.

Serving & workloads critiques
— Serving de LLM, embeddings et modèles ML financiers (scoring, prévision, détection d’anomalies) sur infrastructures mutualisées et environnements prod isolés et chiffrés.
— Conception d’isolations fortes réseau, compute, stockage et secrets pour contextes sensibles.

Stockage & résilience
— Architecture hybride NAS HA + stockage local partagé pour performance et tolérance aux pannes.
— Redondance multi-site, PRA, sauvegardes et continuité de service.

Gouvernance & écosystème
— Structuration de la gouvernance produit : rôles, comités, cycle de vie des offres, catalogue de services et contractualisation interne.
— Pilotage fournisseurs et dépendances critiques.
— Exploitation écosystème Red Hat : OpenShift, OpenShift AI, HyperShift, Quay, ACM, ArgoCD, Pipelines, Service Mesh, Keycloak, ODF.
— Alignement aux standards groupe sécurité, conformité, observabilité et exploitation.
OpenShift Kubernetes LLMOps LLMs Gouvernance
KPMG (SA)
Lead Data Scientist - LLM
CONSULTING AND AUDITS
October 2024 - August 2025 (10 months)
Courbevoie, France
Agents LLM / RAG
— Conception d’agents RAG avancés (ReAct, Multihop, Plan-Search-Respond) pour Risk Management, Audit, MOA et IFRS avec Python, Haystack, LangGraph, DSPy, LiteLLM, Pydantic, Azure OpenAI, Mistral.
— Mise en production d’un agent de génération de rapports multirisques (climat, géographie, droits humains) via LangChain, Tavily, GPT-4o et Llama 3.1.
— Stratégies d’indexation multi-niveaux, gestion du contexte périphérique, search hybride (chunk, embeddings, full-text).
— Indexation d’images et contenus non textuels dans documents (GPT-4o, YOLO, Azure OCR, ColPali).

Architecture / MLOps
— Industrialisation CI/CD des projets Data Science : build, tests, packaging, déploiement et monitoring des pipelines ML/LLM.
— Co-conception du socle IA Azure avec la DSI : Azure ML, AKS, Blob, Functions et Durable Functions.
— Architectures d’inférence combinant streaming, batch et orchestration événementielle via queues et bus de messages.
— Pipelines asynchrones distribués (fan-out/fan-in, retry, idempotence, tolérance aux pannes).
— Déploiement de modèles Azure ML : autoscaling, versioning, blue/green, canary, rollback.
— Stack d’évaluation SOTA : context relevancy/recall, ATS, nDCG@k avec pipelines dédiées.
— Mise en place d’agent store, config store et dataset store pour gouvernance.
— Suivi des coûts LLM par user/use case avec quotas et alerting.

Lead Data Science
— Direction technique d’une équipe de 4 Data Scientists.
— Pilotage backlog DSLP+Scrum dans Azure DevOps (KANBAN, boards par use case).
— Création d’une codebase IA dédiée suivant best practices Python/DS : uv, pre-commit, Makefile, DevContainer, Ruff.
— Documentation complète algorithmes, métriques et indexation.
— Stratégie de tests unitaires, intégration et E2E.
— Qualité code : pylint, black, isort, bandit, safety, ruff, mypy, coverage intégrés CI/CD.
— Qualification des use cases avec le program management.
Tech Lead Data Scientist LLM LLMOps Mise en production Coordination d'équipe
STEALTH CLINICAL CONTEXT
Lead LLMOPs – Platform Architect
BIOTECH
August 2024 - November 2025 (1 year and 3 months)
Paris, France
Architecture plateforme IA clinique / GenAI
— Conception et industrialisation d’une plateforme d’aide à la décision pour patients atteints de maladies rénales chroniques, exploitée en production sous contraintes données de santé (sécurité, souveraineté, conformité).
— Architecture end-to-end : ingestion, normalisation, pseudonymisation, moteur RAG, stack LLM, couche d’inférence, API métier et interfaces utilisateurs.
— Moteur RAG médical multi-sources exploitant dossiers patients, biologie et référentiels cliniques (FAISS/Qdrant, embeddings biomédicaux, retrieval hybride, reranking, gestion du contexte longitudinal).
— Interface clinicien type chat décisionnel avec visualisation du contexte, justification des réponses et feedback (Gradio).
— Pilotage produit : roadmap, itérations, ateliers utilisateurs et mesure d’impact sur la qualité des décisions.

LLM Engineering & gouvernance
— Fine-tuning de Llama-3 8B, Mistral 7B, Qwen sur corpus médical (Transformers, PEFT, QLoRA/LoRA, TRL).
— Pipelines d’alignement supervisé et RLHF avec human-in-the-loop.
— Gouvernance complète : versioning datasets/modèles/prompts, métriques, audits et traçabilité des décisions cliniques.
— Cadre de responsabilité : seuils de confiance, fallback humain, refus contrôlé et traçabilité médico-légale.

Plateforme d’inférence & exploitation
— Plateforme bare metal HA basée sur vLLM (multi-model, continuous batching, KV cache, tensor parallel, scheduling GPU) et Infinity pour embeddings à grande échelle.
— Orchestration Kubernetes des services IA/data : API, vector store, PostgreSQL, monitoring, stockage chiffré MinIO, CI/CD et audit logs.
— Processus d’exploitation : SLA, supervision technique et métier, gestion d’incidents et continuité de service.
Platform Architecture RAG LLM Fine-tuning IA Souveraine Bare Metal