You're seeing this page as if you were . The main menu is still yours, though. Exit from immersion
Henri BertrandHB

Henri Bertrand

AI Architect | LLMOps | GenAI | Agents | RAG

€750/day
Paris, FR
8-15 years

Average response time: 24 hours

About Henri

🚀 Architecte Plateformes IA & LLMOps | De l’idée à l’IA réellement opérée

J’aide les entreprises à transformer l’IA générative en service fiable, sécurisé et rentable, capable de fonctionner à grande échelle.
Mon expertise porte sur la conception et l’exploitation de plateformes d’inférence LLM et RAG de production, pensées pour des contextes exigeants : forte volumétrie, SLA stricts, données sensibles et intégration au SI existant.

🌟 Ce que j’apporte

Industrialiser l’IA, pas seulement la démontrer
Passage du PoC à une plateforme opérée : performance d’inférence, haute disponibilité, coûts maîtrisés et exploitabilité réelle.

Des RAG utiles au métier
Moteurs de recherche augmentée fiables, traçables et explicables, adaptés aux usages réglementaires, financiers ou médicaux.

Une approche LLMOps complète
CI/CD des modèles, gouvernance des prompts et datasets, monitoring des dérives, gestion des quotas et optimisation des dépenses.

Des architectures robustes
Infrastructures multi-GPU on-prem ou cloud, Kubernetes/OpenShift, vLLM/Triton, stratégies de scaling et de résilience.

📌 Exemples d’impact

- Plateforme LLM groupe bancaire : >150k utilisateurs, latence maîtrisée, SLA p99, exploitation multi-sites sécurisée.
- Plateforme IA clinique : aide à la décision traçable sur données de santé, conformité et adoption par les praticiens.
- Agents métiers : automatisation de rapports complexes et recherche documentaire à forte valeur ajoutée.

🎯 Ma promesse

Vous livrer une plateforme GenAI de production avec :
-Une architecture solide et scalable
-Une gouvernance opérationnelle
-Une exploitation maîtrisée
-Des coûts pilotés
-Des applications métiers porteuses de valeur
  • French

    Native or bilingual

  • English

    Native or bilingual

  • German

    Conversational

Can work on-site
Paris (up to 50km)

Experience

  • BNPP
    AI Platform Architect & Owner
    BANKING AND INSURANCE
    August 2025 - Today (10 months)
    Montreuil, France
    Architecture & exploitation plateforme IA groupe
    — Conception, déploiement et exploitation de la plateforme d’inférence IA du groupe BNP, fournissant des capacités LLM et ML à l’ensemble des entités (modèles standardisés et custom).
    — Exploitation d’un cluster GPU on-premise multi-sites via HyperShift, hébergeant des clusters OpenShift dédiés IA, HA et redondés inter-sites.
    — Mise en œuvre de clusters OpenShift AI intégrant Kubernetes, SDN, Service Mesh, Operators, Prometheus, Grafana, Alertmanager, Loki, Jaeger, Pipelines, RBAC et Network Policies.

    Scalabilité & performance
    — Dimensionnement de nœuds multi-GPU pour modèles de 7B à 600B paramètres, optimisation MIG, scheduling, NUMA et topologies NVLink.
    — Exploitation sous contraintes industrielles : dizaines de milliers d’utilisateurs concurrents, >150k MAU, SLA stricts, TTFT optimisé, latence p99 < 3s.
    — Stratégies avancées de scaling, batching et priorisation sur clusters mutualisés hors-prod et clusters prod dédiés.

    Serving & workloads critiques
    — Serving de LLM, embeddings et modèles ML financiers (scoring, prévision, détection d’anomalies) sur infrastructures mutualisées et environnements prod isolés et chiffrés.
    — Conception d’isolations fortes réseau, compute, stockage et secrets pour contextes sensibles.

    Stockage & résilience
    — Architecture hybride NAS HA + stockage local partagé pour performance et tolérance aux pannes.
    — Redondance multi-site, PRA, sauvegardes et continuité de service.

    Gouvernance & écosystème
    — Structuration de la gouvernance produit : rôles, comités, cycle de vie des offres, catalogue de services et contractualisation interne.
    — Pilotage fournisseurs et dépendances critiques.
    — Exploitation écosystème Red Hat : OpenShift, OpenShift AI, HyperShift, Quay, ACM, ArgoCD, Pipelines, Service Mesh, Keycloak, ODF.
    — Alignement aux standards groupe sécurité, conformité, observabilité et exploitation.
    OpenShift Kubernetes LLMOps LLMs Gouvernance
  • KPMG (SA)
    Lead Data Scientist - LLM
    CONSULTING AND AUDITS
    October 2024 - August 2025 (10 months)
    Courbevoie, France
    Agents LLM / RAG
    — Conception d’agents RAG avancés (ReAct, Multihop, Plan-Search-Respond) pour Risk Management, Audit, MOA et IFRS avec Python, Haystack, LangGraph, DSPy, LiteLLM, Pydantic, Azure OpenAI, Mistral.
    — Mise en production d’un agent de génération de rapports multirisques (climat, géographie, droits humains) via LangChain, Tavily, GPT-4o et Llama 3.1.
    — Stratégies d’indexation multi-niveaux, gestion du contexte périphérique, search hybride (chunk, embeddings, full-text).
    — Indexation d’images et contenus non textuels dans documents (GPT-4o, YOLO, Azure OCR, ColPali).

    Architecture / MLOps
    — Industrialisation CI/CD des projets Data Science : build, tests, packaging, déploiement et monitoring des pipelines ML/LLM.
    — Co-conception du socle IA Azure avec la DSI : Azure ML, AKS, Blob, Functions et Durable Functions.
    — Architectures d’inférence combinant streaming, batch et orchestration événementielle via queues et bus de messages.
    — Pipelines asynchrones distribués (fan-out/fan-in, retry, idempotence, tolérance aux pannes).
    — Déploiement de modèles Azure ML : autoscaling, versioning, blue/green, canary, rollback.
    — Stack d’évaluation SOTA : context relevancy/recall, ATS, nDCG@k avec pipelines dédiées.
    — Mise en place d’agent store, config store et dataset store pour gouvernance.
    — Suivi des coûts LLM par user/use case avec quotas et alerting.

    Lead Data Science
    — Direction technique d’une équipe de 4 Data Scientists.
    — Pilotage backlog DSLP+Scrum dans Azure DevOps (KANBAN, boards par use case).
    — Création d’une codebase IA dédiée suivant best practices Python/DS : uv, pre-commit, Makefile, DevContainer, Ruff.
    — Documentation complète algorithmes, métriques et indexation.
    — Stratégie de tests unitaires, intégration et E2E.
    — Qualité code : pylint, black, isort, bandit, safety, ruff, mypy, coverage intégrés CI/CD.
    — Qualification des use cases avec le program management.
    Tech Lead Data Scientist LLM LLMOps Mise en production Coordination d'équipe
  • STEALTH CLINICAL CONTEXT
    Lead LLMOPs – Platform Architect
    BIOTECH
    August 2024 - November 2025 (1 year and 3 months)
    Paris, France
    Architecture plateforme IA clinique / GenAI
    — Conception et industrialisation d’une plateforme d’aide à la décision pour patients atteints de maladies rénales chroniques, exploitée en production sous contraintes données de santé (sécurité, souveraineté, conformité).
    — Architecture end-to-end : ingestion, normalisation, pseudonymisation, moteur RAG, stack LLM, couche d’inférence, API métier et interfaces utilisateurs.
    — Moteur RAG médical multi-sources exploitant dossiers patients, biologie et référentiels cliniques (FAISS/Qdrant, embeddings biomédicaux, retrieval hybride, reranking, gestion du contexte longitudinal).
    — Interface clinicien type chat décisionnel avec visualisation du contexte, justification des réponses et feedback (Gradio).
    — Pilotage produit : roadmap, itérations, ateliers utilisateurs et mesure d’impact sur la qualité des décisions.

    LLM Engineering & gouvernance
    — Fine-tuning de Llama-3 8B, Mistral 7B, Qwen sur corpus médical (Transformers, PEFT, QLoRA/LoRA, TRL).
    — Pipelines d’alignement supervisé et RLHF avec human-in-the-loop.
    — Gouvernance complète : versioning datasets/modèles/prompts, métriques, audits et traçabilité des décisions cliniques.
    — Cadre de responsabilité : seuils de confiance, fallback humain, refus contrôlé et traçabilité médico-légale.

    Plateforme d’inférence & exploitation
    — Plateforme bare metal HA basée sur vLLM (multi-model, continuous batching, KV cache, tensor parallel, scheduling GPU) et Infinity pour embeddings à grande échelle.
    — Orchestration Kubernetes des services IA/data : API, vector store, PostgreSQL, monitoring, stockage chiffré MinIO, CI/CD et audit logs.
    — Processus d’exploitation : SLA, supervision technique et métier, gestion d’incidents et continuité de service.
    Platform Architecture RAG LLM Fine-tuning IA Souveraine Bare Metal

Recommendations

Youness M.YM
Thomas Moreau BisottiTM
Teddy ToussaintTT
+1
Youness M. and 3 other people have recommended Henri

These freelancer profiles also match your criteria

AgathaA

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

2

BaptisteB

Baptiste Duhen

Fullstack developer

4.6

(4)

5

AmedA

Amed Hamou

Senior Lead Developer

4

(2)

7

AudreyA

Audrey Champion

Web developer

4.3

(3)

4

Education

  • Master 2 Deep Learning EmbarquĂ©e
    Université de Cergy-Pontoise
    2017
    Master 2 Deep Learning Embarquée

Skill set

Categories