Sommaire

Agents & GenAI : Comment nous avons boosté un projet de data engineering à l’échelle de 150 microservices

Depuis 2,5 ans, notre équipe livre un projet de data engineering à grande échelle : plus de 150 microservices, des pipelines complexes, et des exigences de qualité élevées. Depuis un an, nous avons intégré la GenAI et des agents pour transformer notre façon de travailler.

Dans ce talk, nous partagerons comment l’IA a accéléré certaines tâches critiques :

Refactoring de code : industrialiser 4 fois plus vite du code de prototypage pour qu’il respecte l’ensemble de nos standards. Data contracts : rédiger 10 fois plus vite cette documentation, avec une précision qui rivalise avec l’expertise humaine. Tests d’architecture : automatiser des contrôles sur les standards d’architecture et les exigences du cloud provider pour limiter les bugs. Mais l’IA n’est pas une solution magique. Nous aborderons aussi :

Ce qui résiste lui résiste encore : implémenter des choses que l’on a jamais faites dans le projet, refactoring complexes. Nos bonnes pratiques : documentation as code & documentation optimisée pour l’IA, mono-repository pour centraliser le contexte, et serveurs MCP pour donner des accès sécurisés et maîtrisés au LLM. Avec de nombreuses démonstrations, ce retour d’expérience brut, avec des succès, des échecs, et des leçons concrètes pour intégrer l’IA dans vos projets sans perdre le contrôle.

📍 Talk donné à :

  • Data Days Lille, mars 2026, Lille : slides

Tags :

  • Data Engineering
  • GenAI
  • Agents

MLOps à l’échelle : Plateformiser le registre et l’inférence pour accélérer les déploiements

L’intelligence artificielle est aujourd’hui au cœur de toutes les organisations. Les plateformes de données facilitent la création de modèles performants, mais le déploiement reste souvent artisanal, nécessitant la recréation de registres, d’API et de runners pour chaque projet. La gouvernance à l’échelle des modèles, exigée par l’IA Act, est fastidieuse.

Cette présentation prospective propose un concept pour standardiser et automatiser ces étapes en quelques clics ou lignes de commande : la model platform.

Ce talk explore ce que je pense être l’avenir du MLOps : des model platforms intégrant registre de modèles, déploiement, A/B testing et production shadow en toute simplicité. D’ici 2-3 ans, tous les fournisseurs de cloud offriront cette capacité.

Une démonstration en direct d’une plateforme basée sur des technologies open source (MLflow, Kubernetes) montrera comment un modèle peut être mis en production en moins de 5 minutes grâce à ces technologies.

À l’issue de cette présentation, vous comprendrez l’utilité d’une model platform, identifierez ses fonctionnalités principales, et découvrirez une proposition d’implémentation. De quoi accélérer tous vos projets d’IA.

📍 Talk donné à :

  • Data Days Lille, mars 2025, Lille : slides

Tags :

  • MLOps
  • Architecture
  • Prospective

Optimisation de performance bénéfice ou sacrifice ?

⚡ Plus le code est rapide, plus le code est bon.

Plutôt que d’ajouter des ressources de calculs, des technologies, réfléchissez à l’architecture, au code et au stockage des données pour économiser les dressources matériels.

🚀 Les premières optimisations relèvent des bonnes pratiques que tout le monde devrait savoir faire, les suivantes sont sacrificielles : elles dégradent la lisibilité, la maintenabilité du code. Pensé comme une déclinaise concrète de la loi de Eroom proposé par Tristan Nitot, ce talk, commencera avec un exemple de code bien mal codé comme nous l’avons tous déjà fait, puis au fil des optimisations, nous verrons bénéfices et sacrifices à faire pour aller toujours plus vite.

📍 Talk donné à :

  • Touraine Tech, Février 2025, Tour
  • Snow Camp, Janvier 2025, Grenoble : slides
  • Breizh Camp, Juin 2024, Rennes : slides, vidéo

Tags :

  • Data
  • Architecture
  • Numérique responsable

La CI/CD à l’heure du Machine Learning

La CI/CD est un outil bien connu du logiciel pour construire et déployer des artefacts. En Machine Learning, c’est un peu particulier :

🔢 En plus de devoir construire et déployer du code, il faut gérer l’artefact modèle.

🗓️ Le build du modèle correspond à son entraînement, il ne se fait pas que quand le code change, il peut également être déclenché par un changement dans les données.

🏋️‍♀️ Le code pèse généralement quelques Mo, le modèle peut lui peser jusqu’à plusieurs Go.

Ces trois particularités font que le processus de construction et de déploiement doit être repensé.

📍 Talk donné à :

Tags :

  • MLOps
  • Architecture

Dessine-moi une architecture de Data Science

Un talk itératif durant lequel Sofia et Emmanuel-Lin dessine une architecture de Data Science au fil des évolutions des besoins métiers.

📍 Talk donné à :

Tags :

  • Architecture
  • Data Science
  • MlOps

L’histoire d’une architecture émergente

Un modèle de Data Science en production au jour 1, une architecture émergente, des clients satisfaits, une équipe sereine.

C’est l’histoire racontée dans ce talk, celle d’un projet d’architecture émergente qui a permis de gagner des centaines de milliers d’euros dès la première journée de développement. C’est l’histoire d’un MVP vraiment minimaliste.

📍 Talk donné à :

Tags :

  • Architecture
  • Data Science

MLOps : Mise en production, et après ?

Une fois en production, il faut monitorer son système modèle, a part un drift de donnée dans tous les sens, comment choisir les bonnes métriques à suivre dans un système qui contient beaucoup d’incertitudes.

📍 Talk donné à :

Tags :

  • MLOps
  • Data Science
  • Monitoring

Interprétabilité des Systèmes de Data Science

Le besoin d’interprétabilité sur les systèmes de Data Science est clairement identifié mais pas toujours clairement défini.

Ce talk, vise à reposer le pourquoi, pour qui, pour quoi et le comment de l’interprétabilité de ces systèmes.

📍 Talk donné à :

Tags :

  • Data Science
  • Interprétabilité
  • Numérique responsable

Tutoriel sur la librairie dataPreparation

Présentation de la librairie R open source que j’ai développé et maintient depuis de nombreuses années pour faire de la préparation de données éfficiente.

📍 Talk donné à :

Tags :

  • Data Engineering
  • R