Description

Ne laissez plus vos modèles mourir en phase de POC.

Hello 👋🏼 Je suis Rahul, Ingénieur MLOps & Système.

L'IA en production ne pardonne pas: latence inacceptable, explosion des coûts Cloud, instabilité sous la charge. J'accompagne les équipes Data et les institutions pour transformer leurs travaux de recherche (Python/Notebooks) en infrastructures d'inférence robustes, souveraines et rentables.

💡 Ce que j'apporte concrètement à vos équipes

Inférence LLM à grande échelle : Déploiement et optimisation de modèles via vLLM pour tenir des charges massives (ex : industrialisation de l'IA de support pour une administration publique majeure).
Cost-Killing & Optimisation GPU : Réduction de la latence et de l'empreinte mémoire via la quantification, ONNX et le tuning des moteurs d'inférence.
Infrastructures Critiques & Souveraineté : Création de clusters Kubernetes (EKS/GKE) hautement disponibles et déploiements sécurisés sur clouds souverains (Outscale, AWS) via Terraform et pipelines CI/CD stricts.
Deep Tech & Bas niveau : Là où l'écosystème Python montre ses limites, je réécris les briques critiques en C++ ou Go pour garantir une performance système maximale.

🛠️ Stack & Écosystème

IA & Data : Python, PyTorch, vLLM, ONNX, FastAPI
Cloud & Infra : AWS, Outscale (SecNumCloud), GCP, Kubernetes, Docker
DevOps : Terraform, GitHub Actions, GitLab CI
Core & Performance : C++, Rust, Go

🎯 Pourquoi collaborer avec moi ?

La plupart des profils MLOps sont des assembleurs d'outils. Je suis un ingénieur système.

En production, face à une fuite mémoire ou un goulot d'étranglement incompréhensible sur vos clusters, je ne suis pas bloqué par l'abstraction des frameworks. Je sais descendre dans le code bas-niveau pour diagnostiquer et fixer ce que d'autres ne voient pas.

📩 Un POC à industrialiser, une infra souveraine à monter ou des coûts GPU à diviser par deux ? Discutons-en !

Industry field of expertise

Languages

French
Native or bilingual
English
Fluent

Workplace preferences

Remote only

Primarily works remotely

Taker
Ingénieur Computer Vision & IA
CONSULTING AND AUDITS
December 2025 - Today (7 months)
Paris, France
Conception et optimisation de pipelines d'inférence avancés pour des problématiques complexes de traitement d'image.

Inférence & State-of-the-Art (SOTA): Intégration, optimisation et mise en production de modèles de segmentation ultra-précis issus de l'état de l'art (SAM2 de Meta, RMBG).
Pipeline de Computer Vision: Développement complet du pipeline d'isolation d'arrière-plan (Background Removal) avec des contraintes fortes de précision et de performance de calcul.
Architecture en Microservices: Intégration de pipeline IA dans des infrastructure IT robuste en microservices.
Microservices Architecture Computer Vision Machine learning FastAPI Pytorch
Datakeen
Machine Learning Ops (MLOps)
CONSULTING AND AUDITS
April 2025 - August 2025 (4 months)
Paris, France
Pilotage de l’infrastructure technique et du cycle de vie des modèles LLM & Anti-fraude pour +20 clients grands comptes ou des administrations publiques.

Déploiement LLM à l'échelle & Haute Performance (vLLM): J'ai orchestré la mise en production et l'optimisation de solutions LLM complexes (ex: industrialisation d'un modèle de classification pour une grande administration nationale). J'ai garanti une faible latence et une haute disponibilité en déployant ces modèles via vLLM et FastAPI.
Architectures Critiques & Cloud Souverain: J'ai répondu aux exigences strictes de sécurité (isolation des données, traitement de documents sensibles) en concevant et déployant des architectures sur-mesure sur des environnements multi-cloud et souverains (AWS, SecNumCloud via Outscale/3DS, Scaleway), incluant la gestion de clusters GPU sous load-balancing (ex: pour un acteur majeur de l'assurance).
Core Engineering & Optimisation Anti-Fraude: J'ai mené l'entraînement, l'optimisation et le déploiement de modèles de Deep Learning (classification, détection d'anomalies, OCR) dédiés à la lutte anti-fraude sur des titres d'identité, en assurant une mise à l'échelle pour les clients.
Industrialisation CI/CD & Culture Ingénierie: J'ai fiabilisé et accéléré le rythme de livraison de l'équipe engineering en construisant des pipelines CI/CD automatisés. J'ai également rédigé la documentation technique de référence (Standard Operating Procedures) pour standardiser les pratiques de déploiement.
Observabilité & Fiabilité en Temps Réel: J'ai assuré la robustesse des systèmes en production en implémentant des sondes de performance avancées, permettant le monitoring continu de l'infrastructure, le suivi de la dérive des modèles (data drift) et la garantie d'une marge opérationnelle optimale.
Cette expérience m’a permis de livrer des solutions robustes, scalables et maintenables, en étroite collaboration avec les équipes techniques.
AWS Docker Kubernetes Pytorch CI/CD
Bal des fous
Backend & Cloud Engineer
ENTERTAINMENT AND LEISURE
January 2026 - Today (6 months)
Paris, France
Intervention en tant que consultant technique sur l'architecture back-end et les fonctionnalités d'engagement pour une application de type réseau social.
Architecture Temps Réel (FCM): Conception et implémentation d'un système de notifications push temps réel via Firebase Cloud Messaging, pensé pour supporter efficacement la charge et l'engagement des utilisateurs.
Moteur de Cross-Posting: Développement et intégration d'un système de publication inter-plateformes complexe garantissant la synchronisation et la fiabilité des flux de données.
Google cloud Microservices Architecture NestJs Développement Back-End Software Architecture