Pr Vincent Sobanski

Pr Vincent Sobanski

PU-PH en Médecine interne et vice-doyen Santé numérique et Communication de l’UFR3S

Le Pr Vincent Sobanski partage avec nous son parcours de médecin, chercheur et vice-doyen Santé numérique et Communication et insiste sur l’importance des données de santé dans la recherche clinique.

Pourriez-vous nous parler de votre parcours professionnel et des raisons qui vous ont conduit à évoluer de la médecine interne vers le domaine des données massives en santé ?

Dans notre activité d’interniste, nous utilisons les différents outils à disposition pour établir un diagnostic expliquant les symptômes du patient. Cela inclut la recherche des signes positifs et des causes différentielles, à l’aide du sens clinique, des examens biologiques ou d’imagerie, des explorations fonctionnelles ou encore de l’anatomopathologie. Il faut ensuite décider de la prise en charge thérapeutique, en combinant les atteintes présentes lors du début de la maladie mais aussi celles qu’on attend, c’est-à-dire le pronostic global. Pendant mon internat, j’étais fasciné par la complexité des présentations cliniques : chaque patient, même au sein d’une même maladie, était un peu différent par ses symptômes ou les résultats des tests. Un peu déconcerté face à cette grande hétérogénéité clinique, j’essayais d’imaginer que nous serions capables d’absorber toutes ces informations et que la puissance informatique nous permettrait de reproduire le raisonnement d’un médecin avec beaucoup d’expérience face à un nouveau patient.

Lorsque le CHU de Lille a élaboré son plan d’établissement pour 2017, je me suis porté volontaire pour réaliser un audit interne sur notre « politique numérique de recherche ». Alors que j’étais familier des cohortes clinico-biologiques prospectives (celle du FHU IMMINeNT/PRECISE initiée par le Pr David Launay a démarré en 2014), j’ai découvert qu’installer un entrepôt de données de santé (EDS) serait stratégique pour notre campus. Le rêve était un peu fou : il s’agissait de réunir toutes les données produites au CHU dans le cadre du soin et de les réutiliser pour la recherche alors que les bases n’étaient pas connectées pour la plupart. Avec mes collègues Grégoire Ficheur et Didier Theis, et soutenus par la direction générale, nous nous sommes rendus au CHU de Rennes car le Pr Marc Cuggia était un pionner dans ce domaine. Nous avons constitué une équipe, obtenu des financements (MEL dans le cadre du projet PreciDIAB et I-Site) et des locaux, puis choisi une solution pour ranger, stocker et requêter les données. Un important travail réglementaire a été fourni pour obtenir l’autorisation CNIL, sésame indispensable à l’ère du RGPD pour exploiter les données de santé. Lorsque l’EDS INCLUDE a ouvert officiellement, nous étions dans le top 3 avec l’APHP et le CHU de Rennes en termes de maturité de développement.

Après 4 ans de direction du projet INCLUDE, j’ai souhaité revenir à ma thématique principale de recherche qu’est l’immunologie. Fort de cette expérience et disposant maintenant des données qui nous manquaient initialement, j’ai créé une équipe de recherche dédiée à la caractérisation de groupes homogènes de patients (endotypes) à l’aide de l’intelligence artificielle. Cette équipe pluridisciplinaire ENDOMIC appartient à l’unité INFINITE (Inserm, Univ. Lille, CHU Lille). Elle accueille des informaticiens, des data-scientists, des biologistes spécialistes des omiques et des professionnels de santé pour que nous avancions ensemble. En partenariat avec le laboratoire CRIStAL et l’Inria, nous développons de nouvelles méthodes informatiques pour intégrer et analyser des données hétérogènes, complexes, et de dimensions variables. Nous venons d’obtenir une chaire IA Santé avec la KU Leuven, partenaire stratégique majeur de l’Université de Lille, ainsi qu’un financement Inserm Messidore. Nous participons au projet de CDP PRIME-NEXTGEN, conjoint entre les unités EGID et Infinite, afin de s’enrichir mutuellement des approches développées sur les maladies auto-immunes ou sur le diabète. Cette comparaison est essentielle pour mieux appréhender le concept original de méta-inflammation.

Vous êtes l’un des acteurs majeurs de l’entrepôt de données de santé, pouvez-vous nous expliquer en quoi consiste concrètement l’EDS et quels bénéfices il apporte à la recherche ?

L’EDS permet d’accompagner le chercheur qui souhaite analyser des données de santé. En l’orientant vers les sources de données les plus pertinentes, en affinant sa question de recherche, en lui facilitant les démarches réglementaires, l’équipe de l’EDS dirigée par Charlotte Geay fait gagner un temps précieux dans un contexte international très compétitif.

Globalement, l’EDS contient les données de plus de 2 millions de patients venus au CHU depuis 2018. Environ 17 millions de documents sont disponibles comme les comptes rendus d’hospitalisation et de consultation, et plusieurs centaines de millions de résultats de biologie. Nous avons aussi les comptes rendus d’imagerie et le codage de l’activité (PMSI). On peut consulter l’EDS pour identifier des patients d’intérêt ou pour extraire de façon automatisée les données d’intérêt. Évidemment ces recherches nécessitent un cadre réglementaire strict, en respectant les droits du citoyen (anonymisation, information du patient et recueil de sa non-opposition, protection de la vie privée, cybersécurité, etc.).

Dans le cadre de PreciDIAB, ces données riches mais hétérogènes de l’EDS sont exploitées par l’équipe du Pr Jean-Baptiste Beuscart (Metrics) afin d’identifier les patients diabétiques hospitalisés au CHU et potentiellement éligibles à un essai thérapeutique. Des outils d’IA (alignement terminologique, annotation automatisée, analyse supervisée et non-supervisée) sont mobilisés pour réaliser des classifications de patients diabétiques en lien avec certaines questions cliniques et de déterminer les capacités de recrutement. Ces fonctionnalités essentielles sont un véritable atout pour répondre aux attentes des recherches institutionnelles et industrielles

Il sera bientôt possible de consulter un EDS à l’échelle inter-régionale dans le cadre du G4 (Amiens, Caen, Lille, Rouen) ce qui va représenter une avancée notable (la région Grand-Ouest est déjà très organisée). À terme, on peut imaginer une structuration nationale sous la forme de hubs régionaux connectés sur l’ensemble du territoire. C’était le projet figurant dans le rapport préfigurateur du Health Data Hub (HDH), mais c’est une démarche centralisée qui a finalement été choisie avec l’installation du HDH à PariSanté Campus. Je reste convaincu que les expertises multiples pour mener à bien un projet d’IA en santé (experts des données, informaticiens, professionnels de santé, spécialistes d’éthique, juristes, etc.) doivent se trouver au plus près des chercheurs. Sur notre campus, avoir les experts de l’EDS INCLUDE à deux pas des professionnels de santé et des chercheurs est une grande chance.

 

Vous avez animé une table ronde sur les données de santé lors des Away Days du club PreciDIAB Initiative. Quels étaient les enjeux principaux de cette discussion et les objectifs visés ?

La stratégie nationale des données de santé a permis la création du HDH qui vise à garantir un accès facilité aux données pour les chercheurs et les industriels, ce qui peut sembler redondant avec les EDS. Néanmoins, l’accès au SNDS (Système National des Données de Santé) est géré par le seul HDH. Grâce aux données de l’assurance maladie, des hôpitaux (PMSI), des délivrances de médicaments en ville (SNIIRAM), des certificats de décès, etc. on peut analyser la santé de la population à l’échelle du pays.

Nous étions heureux d’accueillir Gautier Schreiner, directeur des projets et services utilisateurs du HDH, pour faire un état d’avancement du HDH (données intégrées, partenaires, stratégie de développement) et mieux connaître les possibilités d’accès aux données du SNDS ou des cohortes. Ce qui intéresse particulièrement les chercheurs et industriels, c’est la possibilité d’apparier une cohorte de recherche avec les données du SNDS (pour enrichir les variables ou suivre les patients dans leur parcours de soins).

Ensuite, nous avons assisté à trois présentations de projets lillois (Michaël Génin, Antoine Lamer et Guillaume Millot), représentatives des possibilités d’exploitation du SNDS (utiliser des données géo-environnementales pour étudier le lien pesticides – cancer du pancréas, analyser l’impact des médias sur les tendances temporelles en psychiatrie comme la consommation de psychotropes ou le risque de suicide, analyser le risque de cancer chez les patients avec des maladies auto-immunes comme la sclérodermie systémique).

Vous êtes également Vice-Doyen de l’UFR3S en Santé numérique et Communication, comment voyez-vous l'évolution des nouvelles technologies dans le domaine de la santé ?

Les connaissances sur le fonctionnement de notre système biologique et sur les maladies sont exponentielles. Il faut donc les entretenir régulièrement, mais il est déjà impossible de tout connaître même dans sa propre sous-spécialité. Il est donc indispensable de savoir rechercher la bonne information. À l’heure des grands modèles de langage (comme chat-GPT), de l’analyse génomique accessible pour l’individu sain, de la diffusion des images et vidéos sur de multiples canaux, il importe de développer un regard critique pour savoir utiliser ces outils prometteurs avec la distance nécessaire vis-à-vis des risques d’information erronée ou de rupture du secret médical. Les enjeux de cybersécurité, de confidentialité, de lutte contre la désinformation sont nouveaux pour les professionnels de santé, les chercheurs, les patients et leurs proches. Être à l’aise avec la programmation informatique ou les statistiques est un plus aujourd’hui, mais comprendre comment fonctionnent ces outils et connaître leurs limites sera essentiel demain. Grâce au projet CAPS’UL (Campus Participatif en Santé numérique du site Universitaire Lillois) porté par l’Université de Lille, nous disposons de 5 ans pour mettre en place un enseignement spécifique pour l’ensemble des étudiants futurs professionnels de santé (médecine, pharmacie, odontologie, maïeutique, IFSI, soit 2000 étudiants par an). Pour les professionnels déjà en exercice, on recommande le DU Intelligence Artificielle en Santé porté par l’UFR3S, ouvert depuis 2019.

Il m’apparaît essentiel enfin que les approches algorithmiques soient évaluées rigoureusement, afin de permettre une implémentation efficace dans notre système de santé où le praticien ne manque pas de sollicitations ! L’IA doit apporter une information pertinente au bon moment, et indiquer au professionnel de santé un degré de confiance dans l’estimation (indispensable pour évaluer le rapport bénéfice/risque d’une intervention en santé). L’impact écologique des moyens de stockage et de calcul me semble aussi un défi important pour les années à venir, alors que notre CHU s’engage fortement dans une démarche d’écoconception du soin.

 

Crédit photo: Maurice DE MEULAERE

Découvrez les interviews...

Précédent
Suivant

Le diabète dans tous ses états

Un blog consacré aux mille et une facettes du diabète.
Edité par Marc Gozlan, journaliste médico-scientifique