Comment l’Institut Pasteur tire parti de l’IA générative ?

Retour d’expérience

Comment l’Institut Pasteur tire parti de l’IA générative ?

Dans cette interview, Hubadviser a eu la chance d’interviewer, Thomas Menard, Responsable Adjoint de la production chez l’Institut Pasteur pour nous expliquer comment la DSI a travaillé pour permettre aux différents métiers d’exploiter la puissance de l’IA en toute sécurité, sans développer de la frustration ou du shadow IA. Nous avons abordé les notions de Self-Service, de LLMs et de RAG ainsi que les problématiques d’infrastructure.

L’IA générative au service de la recherche

Un contexte scientifique exigeant

Ismail Charkaoui : L’Institut Pasteur est reconnu mondialement pour ses avancées en biologie et en médecine. Mais la gestion des connaissances scientifiques est un véritable défi. Comment l’IA générative s’inscrit-elle dans cette dynamique ?

Thomas Ménard : Exactement ! La recherche scientifique repose sur une quantité énorme de données, et l’un des grands enjeux est de les structurer et les exploiter efficacement. L’arrivée des IA génératives a ouvert de nouvelles perspectives, mais aussi posé des questions de gouvernance. Très vite, on s’est demandé comment fournir un outil sécurisé à nos collaborateurs pour éviter qu’ils utilisent ChatGPT en y partageant des données potentiellement sensibles.

Ismail Charkaoui : Donc l’idée était de proposer une alternative interne et contrôlée ?

Thomas Ménard : Tout à fait. L’objectif était triple :

Protéger la confidentialité des données scientifiques et médicales.

Centraliser et encadrer l’usage des IA pour en tirer le meilleur parti.

Promouvoir l’adoption de l’IA générative par nos métiers pour ne pas accuser de retard par rapport à la concurrence.

Ismail Charkaoui : Je comprends bien, quelles étaient vos options pour permettre l’utilisation de l’IA générative en interne ?

Thomas Ménard : L’option la plus facile voire naturelle était de se tourner vers Microsoft et d’acheter des licences Copilot. Nous avons testé la solution mais nous n’étions pas convaincus par son intuitivité. De nombreux métiers nous ont explicitement dit qu’ils préféraient utiliser leur ChatGPT personnel plutôt que de basculer sur Copilot, ce qui est vrai problème en terme de sécurité. De plus, le prix des versions Copilot qui étaient intéressantes pour nous étaient trop importants si bien que nous aurions dû jongler entre un nombre de licences limitées et une demande en IA générative grandissante, nos coûts OPEX auraient pu exploser. C’est pourquoi après réflexion nous avons écarté cette option.

Ismail : Et la solution que vous avez adopté est Librechat, pouvez-vous nous la décrire et nous expliquer pourquoi vous l’avez choisi ?

Thomas : LibreChat se présente comme une plateforme de chatbot open source, avec une interface utilisateur proche de ChatGPT. En interne, on peut :

Personnaliser l’interface (logo, couleurs, règles d’utilisation).

Choisir librement le ou les moteurs IA derrière LibreChat (LLaMA, Mistral, etc.).

Sécuriser et contrôler l’accès via l’authentification centralisée (LDAP, SSO), et chiffrer les échanges.

Connecter LibreChat à diverses sources de données internes (API, bases documentaires, référentiels).

Ismail : Pourquoi avoir choisi cette solution ?

Thomas : LibreChat s’est imposé pour plusieurs raisons :

Son intuitivité : Son interface et l’expérience utilisateur ressemble beaucoup à celles de ChatGPT, ce qui en fait un très bon outil pour maximiser l’adoption.

Sa modularité, qui nous permet d’utiliser plusieurs LLMs

Son auto-hébergement, on peut l’héberger sur nos propres serveurs ce qui garantit la souveraineté des données.

Sa communauté active, qui améliore constamment l’outil.

Ismail : Vous venez de nous dire que vous utilisiez plusieurs LLMs, qu’est ce que vous utilisez ou pourquoi faire le choix d’utiliser plusieurs options ?

Thomas : Nous avons une dizaine de modèles actifs, allant des petits modèles rapides aux gros modèles exigeants en ressources GPU. Parmi eux OpenAI, Mistral AI, Llama et même Deepseek que nous avons testé récemment.

Nous avons adopté une approche bimodale :

1. Modèles cloud (OpenAI, Anthropic)

Performance élevée
Risque de fuite des données

2. Modèles on-premise

Sécurisation totale
Infrastructure coûteuse et maintenance plus complexe

Le but est de permettre aux utilisateurs d’utiliser le LLM le plus adapté selon le cas d’usage qu’ils souhaitent réaliser. Il faut toutefois de la pédagogie et de la sensibilisation car il n’est pas évident pour eux de choisir un LLM plutôt qu’un autre.

A termes nous voulons créer un hub centralisé avec :

Un accès simplifié aux modèles IA (cloud et on-premise).
Une API commune, pour intégrer l’IA dans les workflows métiers.
Des outils de supervision et de traçabilité (logs, monitoring des usages)

Ismail : L’idée, c’est que chaque collaborateur puisse exploiter l’IA sans se soucier de la complexité technique ?

Thomas : C’est ça. Nous voulons que LibreChat devienne le guichet unique pour accéder à l’IA générative, de manière sécurisée et optimisée.

Ismail : Lorsque je suis allé dans vos locaux, j’ai découvert un outil capable de répondre à des questions précises sur des données confidentielles de Pasteur, un formidable outil de pilotage, capable par exemple de donner la cartographie de tous les projets vaccinations en cours chez Pasteur, chose qui était impossible par le passé. Pouvez-vous m’expliquer comment cela fonctionne ?

Thomas : Ce que vous avez vu est un agent SQL. Il convertit la question en requête SQL et interroge une base de données interne. C’est idéal pour obtenir des statistiques précises en temps réel.

Ismail : Le but est de développer le Self-Service ?

Thomas : Exactement, en fait aujourd’hui tout le monde parle d’IA et moins de Data, mais l’IA peut nous aider à être plus « Data Driven ». Grâce à l’IA, et au LLM, le requêtage est beaucoup plus simple, il se fait en langage naturel si bien que le pilotage de l’activité par la data est beaucoup plus démocratique. On coupe les intermédiaires et les métiers accèdent directement à la donnée qui les intéresse.

Ismail Charkaoui : Est-ce que cet outil est un RAG ?

Thomas : Pas exactement, contrairement à l’agent SQL, le RAG extrait des informations depuis un corpus de documents non structurés (rapports, notes, publications). Mais cela demande une gouvernance documentaire rigoureuse et nous n’y sommes encore.

Ismail Charkaoui : Quels sont les principaux défis du RAG ?

Thomas Ménard : La qualité des données. Beaucoup d’entreprises pensent qu’un RAG peut “magiquement” structurer leurs connaissances, mais si les documents sont mal organisés ou obsolètes, le résultat est médiocre.

Ismail Charkaoui : Vous avez fait appel à une société externe pour vous aider sur ce point ?

Thomas Ménard : Oui, car structurer un corpus documentaire, c’est un vrai métier. Ils nous ont aidés à :

Cartographier les données existantes.
Établir des règles de structuration et de mise à jour.
Optimiser les pipelines d’ingestion des documents.

Aujourd’hui la construction de notre RAG interne avance bien.

Ismail : Pour avancer autant sur l’IA, il faut une infrastructure qui le supporte, comment avez-vous pu avancer sur tous ces chantiers ?

Thomas : Oui. On disposait d’un parc GPU et d’une architecture containerisée (Docker, Kubernetes).

Cela nous a permis de déployer LibreChat rapidement et d’ajouter progressivement de nouveaux modèles. Cela s’explique par le fait que Pasteur a toujours investi dans son infrastructure informatique, nous avons de la puissance de calcul disponible et une stratégie infrastructure claire, c’est un atout pour nous lancer dans ce type de projet.

Conclusion

Ce retour d’expérience de l’Institut Pasteur illustre à la fois les opportunités et les défis liés à l’adoption de l’IA générative dans un cadre professionnel exigeant. En optant pour LibreChat, Pasteur a pu assurer la souveraineté de ses données, tout en offrant à ses collaborateurs un accès simplifié à des LLM variés. Au-delà du chatbot interne, la mise en place d’un agent SQL démontre également comment l’IA peut dynamiser le pilotage et la prise de décision, en démocratisant l’accès aux données.

Toutefois, cet enthousiasme pour l’IA ne doit pas occulter la réalité : la réussite d’un projet IA repose autant sur la qualité de l’infrastructure et la robustesse des processus IT que sur la gouvernance documentaire. L’exemple du RAG le montre bien : il exige une véritable maturité dans la gestion et la structuration des informations, justifiant l’appui de spécialistes externes.

Dans les mois et années à venir, l’Institut Pasteur poursuivra l’enrichissement de son « hub » d’IA, combinant modèles hébergés sur site et solutions cloud. Cette démarche illustre la nécessité d’une approche équilibrée : savoir exploiter la puissance de l’IA générative sans compromettre la sécurité ni la souveraineté des données. Pour les organisations qui, comme Pasteur, cherchent à valoriser un patrimoine documentaire complexe, l’expérience acquise servira de guide, tout en ouvrant la voie à de nouvelles innovations, des innovations qu’Hubadviser aura à cœur de suivre et de partager.

À propos de Thomas MÉNARD

Thomas Ménard est Responsable de Production Adjoint au sein de l’Institut Pasteur. Avec plus de 25 ans d’expérience dans l’informatique, Thomas Ménard a évolué au sein de grands groupes comme Amadeus, Bouygues Télécom et l’Institut Pasteur. Aujourd’hui Responsable de Production Adjoint, il pilote une équipe et intervient sur des environnements à forte technicité. Il a contribué à l’adoption de DevOps, de Kubernetes et à la stratégie microservices de l’Institut. Il se concentre désormais sur l’intégration de solutions d’intelligence artificielle pour améliorer l’efficacité opérationnelle.