Le Dr Nicolas Gambardella nous parle de son parcours en tant que chercheur et plus particulièrement de ses projets de recherche dans le domaine de l’Intelligence Artificielle (IA) et du deep Learning .
Dr Nicolas GAMBARDELLA
Directeur de recherche CNRS
Pouvez-vous nous parler de votre parcours professionnel et des expériences qui vous ont conduit à travailler dans le domaine de la recherche en intelligence artificielle et deep learning appliqué au domaine de la santé ?
Mon parcours a toujours été interdisciplinaire, à la croisée de l’informatique et des sciences de la vie et de la santé. Un magistère à l’École Normale Supérieure m’a permis de suivre des modules aussi divers que la neuroendocrinologie, la biophysique moléculaire, et l’évolution, un des premiers domaines que la bioinformatique a révolutionné. Lors de ma thèse à l’institut Pasteur de Paris, dans le groupe de Jean-Pierre Changeux, j’avais toujours une main sur la pipette et une sur le clavier. C’est d’ailleurs dans ce cadre que j’ai commencé à utiliser les réseaux de neurones artificiels en cascade (ce qui sera appelé plus tard apprentissage profond, Deep Learning en anglais) pour prédire la structure secondaire des protéines responsable de la dépendance au tabac.
Un stage post-doctoral à l’université de Cambridge en Angleterre dans le groupe de Dennis Bray m’a permis de parfaire mes connaissances en modélisation mathématique des systèmes biologiques. Le reste de ma carrière s’est alors centré sur l’utilisation des méthodes de bioinformatique et de biologie des systèmes pour comprendre les bases moléculaires de phénomènes aussi divers que la plasticité synaptique, le métabolisme associé à la longévité, ou encore les voies de signalisation impliquées dans la carcinogenèse.
Le deep learning est en train de fondamentalement changer la société, et le domaine de la santé n’y échappe pas, que ce soit en recherche ou en clinique. Lors de ma première candidature au CNRS, en 2000, mon projet de prédire systématiquement la structure de toutes les protéines en utilisant des réseaux de neurones n’avait pas été retenu. Il était sans doute prématuré. Alphafold a montré que ce n’était plus le cas. Pour moi, il ne faisait aucun doute que je pouvais revenir à mes premières amours et que le chapitre suivant de ma carrière devait se consacrer au deep learning. Mon arrivée au sein de l’EGID et de PreciDIAB est de ce fait une opportunité unique.
Pourriez-vous expliquer le concept d'intelligence artificielle et deep learning, et préciser comment ceux-ci sont appliqués pour traiter les données de santé ?
Le concept d’intelligence artificielle recouvre tout système informatique prenant une décision automatique sans intervention humaine. Ces décisions peuvent être par exemple des classifications, des prédictions, ou encore le retour d’un objet textuel, visuel, ou sonore. Au sein de l’IA, on distingue l’apprentissage automatique (machine learning), comprenant des programmes informatiques apprenant à prendre des décisions directement à partir de données, des outils comme les systèmes experts, fondées sur des règles imposées a priori. C’est la grosse différence entre AlphaGO qui a battu le champion du monde de GO en 2016 et DeepBlue qui avait battu le champion du monde d’échec en 1997. Ce dernier simulait « simplement » tous les mouvements possibles alors que le premier a appris à jouer tout seul contre lui-même.
Le deep learning est une architecture particulière d’apprentissage automatique construite à partir de réseaux de neurones artificiels, c’est-à-dire des fonctions mathématiques reliées entre elles. L’appellation « neurone » vient du fait qu’à l’origine, ces fonctions mathématiques ressemblaient beaucoup à l’idée que l’on se faisait du neurone biologique. Elles somment les entrées venant d’autres neurones, pondérées par des « poids synaptiques » qui vont être appris lors de l’entraînement du modèle. Puis, elles produisent une sortie unique après transformation qui est envoyée vers d’autres neurones. L’adjectif « profond » vient du fait que les modèles contiennent souvent de nombreuses couches successives de tels neurones. Pour entraîner ces modèles, on leur fournit de grandes quantités de données et on modifie de manière répétée les paramètres du modèle (il y en a parfois des centaines de milliards) pour minimiser les différences entre les décisions et la réalité ou ce que l’on désire obtenir.
L’intelligence artificielle est utilisée depuis bien longtemps dans le monde de la santé, notamment avec les systèmes experts. Mais l’envolée de l’apprentissage automatique a dû attendre l’existence de grandes quantités de données, notamment en imagerie, génomique, et phénotypes moléculaires, ainsi que des puissances de calcul suffisantes. Le deep learning est en train de révolutionner l’utilisation des données de santé pour le diagnostic, mais aussi la prévention des risques et la médecine de précision. Les premières avancées ont vu le jour en imagerie (détection des tumeurs, prédictions des risques cardiovasculaires sur l’imagerie rétinienne, etc.), mais toutes les données de santé sont maintenant concernées, que ce soient les mesures cliniques, biologiques, ou encore les caractéristiques socio-économiques des patients. Même les archives des assurances maladies et de la consommation de médicaments sont désormais utilisées dans des modèles IA (de manière totalement anonyme !), par exemple via le Système national des données de santé (SNDS). À ce titre, les liens privilégiés de PreciDIAB avec d’autres projets du CHU de Lille comme l’entrepôt de données de santé et l’initiative Include.
Quels sont les principaux objectifs de vos projets au sein de PreciDIAB, et en quoi croyez-vous qu'ils auront un impact significatif sur le domaine de la médecine de précision ?
Les modèles que nous développons dans le cadre de PreciDIAB vont nous permettre d’impacter trois aspects de la prise en charge du diabète :
1) Amélioration de la prédiction des risques : Alors que les scores polygéniques sont calculés comme des combinaisons linéaires sommant les facteurs de risques pondérés, l’apprentissage profond permet de modéliser des relations non-linéaires entre les facteurs de risques. En sus des données de génotypage, ces modèles s’appuieront sur des données cliniques, épigénétiques, et de génomique fonctionnelles, ce qui permettra la mise au point de scores de risques « mis à jour », et donc prenant en compte l’impact du mode de vie et l’environnement. Ce travail sera notamment possible grâce à la multitude de données issues des études de PreciDIAB telles que DESCENDANCE, fournissant les génotypes des patients et de leurs parents, et bien sûr la plateforme LIGAN, qui permet de passer à l’échelle en génomique de précision.
2) Groupement des patients : Il existe plusieurs schémas thérapeutiques pour maîtriser le diabète, incluant des traitements préventifs, des mesures hygiéno-diététiques, des interventions chirurgicales et des approches médicamenteuses. Ces dernières incluent par exemple l’insulinothérapie, la metformine, ou encore les incrétines exogènes (comme l’Ozempic). Toutes les approches ne sont pas appropriées pour tous les patients et des événements indésirables graves peuvent survenir, par exemple des hypoglycémies sévères. Le groupement des patients susceptibles de répondre de manière similaire aux traitements, que ce soit les améliorations ou les problèmes apportés par ces derniers, est de ce fait un jalon crucial vers une médecine de précision personnalisée. Dans ce cadre, la cohorte PreciDIAG, constituée de patients avec des histoires naturelles de la maladie et des schémas thérapeutiques documenté,s sera précieuse.
3) Une meilleure compréhension des mécanismes moléculaires et physiologiques sous-jacents au diabète : Les modèles d’apprentissage automatique ont longtemps été vus comme des boîtes noires, prenant des décisions sur la base de combinaisons complexes et indéchiffrables d’innombrables paramètres. La donne a changé avec l’essor de l’apprentissage profond interprétable (ou explicable) qui permet d’extraire les motifs appris par les réseaux de neurones et utilisés pour fonder leurs décisions. Ces approches permettent de découvrir de nouvelles interactions entre données apprises et la multi-modalités des modèles apportera des informations sur les relations entre différents phénotypes moléculaires et sur l’impact des réseaux moléculaires sur l’émergence d’endotypes métaboliques. Ces nouvelles fenêtres ouvertes sur l’étiologie du diabète et des troubles cardio-métaboliques associés suggéreront de nouvelles pistes de traitement.
Selon vous, quelles avancées majeures pouvons-nous anticiper dans le développement de l'intelligence artificielle et du deep learning dans un avenir proche, en particulier dans le domaine de la santé appliquée aux patients diabétiques ?
Les outils IA vont devenir meilleurs, plus versatiles, et plus faciles d’utilisation. Une des révolutions prenant place à l’heure où nous parlons est l’application des techniques de deep learning développées pour le traitement du langage naturel (ChatGPT…). Ces architectures puissantes sont tout à fait adaptées aux analyses de données génomiques, mais sont également applicables à bien d’autres données séquentielles, même à des images. Elles comprennent des couches dites d’attention, qui révèlent les relations entre données entrantes et mettent en exergue ce que le modèle utilise pour prendre les décisions. Une autre avancée importante est la montée de la multi-modalité, c’est-à dire des modèles prenant en compte différents types de données. Les modèles à venir pour la médecine de précision du diabète pourront utiliser par exemple des images (visages, fonds d’œil), du texte (questionnaires, comptes-rendus cliniques), des données chiffrées (analyses de sang), des données de génomique, et plus. Couplée avec les objets connectés, l’IA pourra faire le domaine vers une médecine de précision personnalisée en temps réel.
L’omniprésence des outils d’IA ne va pas sans poser de nombreuses questions éthiques. Certaines sont justifiées, d’autres non. Par exemple, il est important de comprendre que les vastes ensembles de données d’apprentissage sont fusionnés dans les paramètres des modèles finaux et qu’aucune information personnelle ne peut être récupérée. En revanche, une attention toute particulière doit par exemple être apportée aux biais de ces ensembles d’apprentissage, qui pourraient se traduire par des outils présentant des fiabilités différentes pour différentes populations. Des discriminations peuvent également être engendrées par le choix des critères utilisés par les modèles, dont l’importance pourrait différer selon les populations. D’où l’intérêt d’études PreciDIAB comme PrevenDIAB, qui se concentre sur les populations en situation de précarité.
Nous ne sommes qu’au tout début de cette révolution. Comme toute technologie, l’IA vient avec des promesses et des menaces, et nous allons devoir apprendre à nous en servir pour réaliser les premières tout en maîtrisant les secondes.
Découvrez les interviews...
PU-PH en Médecine interne et vice-doyen Santé numérique et Communication de l’UFR3S
Chargé de Recherche au CNRS, leader du WP4.1 dans PreciDIAB
Professeur de pharmacologie médicale Directeur du Centre d’Investigation Clinique (CIC 1403 Inserm-CHU de Lille) et de l’Unité d’Essais Cliniques dédiée aux diabètes.
Médecin nutritionniste, spécialiste en endocrinologie et maladies métaboliques, et responsable du Service Nutrition & Activité Physique de l’Institut Pasteur de Lille (IPL).
Benoit Deprez, Professeur en pharmacie et Directeur de l'U1177 à l'Institut Pasteur de Lille
Physiologie & Explorations Fonctionnelles Cardiovasculaires CHU Lille, Inserm U1011
Ingénieur de Recherche en Bio-informatique, responsable de la plateforme bio-informatique de l’UMR 1283/8199
Pr Anita Morandi, pédiatre et Professeur de pédiatrie à l’Hôpital-Universitaire et à l’Université de Vérone (Italie)
Professeur des universités – Practicien hospitalier dans le service de médecine aiguë gériatrique, spécialiste du parcours de soins, des interactions médicamenteuses et l’intelligence artificielle.
Service d’Endocrinologie Diabétologie, Métabolismes Nutrition du CHU de Lille.
Maître de conférences et chercheur à l’Université de Lille au sein de l’Unité de Recherche Pluridisciplinaire Sport, Santé, Société – URePSSS
Prof. Inga Prokopenko, PhD, directrice du département Statistique Multi-Omics de l’Université de Surrey, chercheuse associée à l’Université de Lille, et responsable du projet « études des liens entre diabètes et risques de cancers » au sein du Centre National PreciDIAB.
Chirurgien et Professeur au CHU de Lille et à l’Université de Lille, Responsable de la plateforme DiabInnov
Directrice de Recherche à l’Inserm, Responsable scientifique des programmes de médecine génomique des diabètes du Centre, responsable de l’EquipEx LIGAN-PM et cheffe d’équipe au sein de l’UMR 1283/8199
Pédiatre à l’Hôpital Saint Vincent de Paul et chercheuse attachée à l’UMR 1283/8199
Précédent
Suivant