Six recommandations pour l'usage de l'IA médicale (IAM) en pratique clinique

L'IA est aujourd'hui au centre de toutes les discussions et débats. Alors que le concept date du milieu du XXème siècle, l'IA refait surface dans les années 80-90 grâce à la puissance des machines devenues capables d'entrainer des réseaux de neurones énormes et la disponibilité de données d'entraînement. Aujourd'hui on peut entraîner un système de reconnaissance d'images au moyen d'une centaine de millions d'images auxquelles on a accès grâce à Internet (Yann Le Cun dans "La plus belle histoire de l'intelligence", Robert Laffont, 2018). 

C'est à partir de 2012 que s'est faite la formidable accélération que l'on observe aujourd'hui. Yann Le Cun raconte dans son livre cette compétition ImageNet qui a été gagnée par les chercheurs de l'Université de Toronto (Geoffrey Hinton et son équipe) grâce à la méthode que le chercheur français avait inventée, des réseaux circonvolutifs entraînés par la rétropropagation de gradient...plus quelques ruses, et surtout un programme très rapide tournant sur les nouveaux processeurs conçus pour le rendu graphique (GPU pour Graphics Processing Unit). L'équipe de Toronto a écrasé tous les compétiteurs. A la suite de cette victoire, la communauté scientifique internationale a effectué un revirement complet vis à vis de l'IA et de ses méthodes.

A l'ère des maladies chroniques, le médecin est amené à gérer des centaines de milliers de données de santé à caractère personnel tout au long de la vie de ses patients. Par exemple, un jeune patient  atteint d'un diabète de type 1 est suivi pendant plusieurs dizaines d'années, comme les patients atteints de maladies rénales chroniques. Le Big Data en médecine ne peut être correctement géré que par l'IA. Mais tout dépend des objectifs que l'on donne aux algorithmes. En clair, il faut bien cerner ce dont on a besoin et ne pas se perdre dans des fantasmes hypothétiques que l'être humain, notamment le médecin, aura du mal à comprendre et à expliquer aux patients.

Cette équipe de chercheurs néerlandais est consciente des possibles insuffisances de l'IA dans le domaine de la santé. Elle a élaboré six recommandations en faveur d'une méthodologie rigoureuse de l'IA lorsque l'on veut traiter des données de santé. Nous rapportons ces recommandations "techniques" et en donnons une traduction "pratico-pratique" pour les médecins. 

Van Hartskamp M, Consoli S, Verhaegh W, Petkovic M, van de Stolpe A.V. Artificial Intelligence in Clinical Health Care Applications: Viewpoint. Interact J Med Res. 2019 Apr 5;8(2):e12100. doi: 10.2196/12100.

1ère recommandation : poser des questions précises et pertinentes lorsqu'on veut développer un projet d'IA. 

Les auteurs estiment que lorsqu'on se lance dans un projet de recherche clinique avec l'IA, il faut préalablement réunir les experts cliniciens du sujet et travailler avec eux les questions pertinentes qui seront posées au système algorithmique. Ne pas respecter cette première étape, peut conduire à des erreurs qui peuvent être dommageables aux patients. 

Dans une démarche clinique, on cherche d'abord à faire le meilleur diagnostic possible avant de décider d'un traitement. L'IA peut aider au diagnostic si la question qui est posée est précise. Bien que les chinois pensent qu'on peut remplacer une médecin "humain" par un robot "humanoïde" qui a réussi les épreuves universitaires du diplôme de docteur en médecine, rien n'indique pour l'instant que ce robot, doté de connaissances théoriques acquises par la consultation de nombreux livres et d'articles, sera en capacité de faire un diagnostic juste et précis à partir des symptômes formulés par un patient. Chez le médecin "humain" les connaissances théoriques ne sont pas suffisantes pour faire un bon diagnostic, il y a aussi l'expérience. Peut-être qu'un jour, un robot médecin qui aura acquis une certaine expérience autoapprenante grâce au Deep learning  sera en mesure de faire des diagnostics personnalisés. Nous n'en sommes pas encore là.

2ème recommandation : avoir des datas "propres" pour espérer obtenir des réponses pertinentes et fiables.

Demander à un algorithme de traiter des données insuffisantes ou erronées, non représentatives de la population concernée, peut conduire à des réponses inexactes et donc dangereuses lorsqu'il s'agit de données de santé visant à délivrer des soins aux patients. Un algorithme traite les données qu'on lui donne et réalise une démarche autoapprenante (Deep learning) avec ces mêmes données. Si elles sont "propres" , c'est à dire fiables, il donnera des réponses pertinentes. Si elles sont erronées, il donnera des réponses erronées.

Par exemple, les données scientifiques de la littérature médicale ne sont pas toutes fiables et il est dangereux de demander à un algorithme de les traiter dans leur globalité sans avoir fait préalablement un tri entre celles qui sont fiables et celles qui ne le sont pas. Là encore, c'est l'expert que permet de dire qu'une donnée est fiable ou non, sachant que les données propres aux patients ne sont jamais complètes à 100%. 

3ème recommandation : pour prévenir les fausses corrélations, il faut que la variabilité entre les patients soit maitrisée par l'algorithme.

Le risque de fausses corrélations dans le traitement des données de santé existe. Ces fausses corrélations peuvent induire des conclusions erronées. La principale cause est la non maitrise par l'algorithme d'une certaine variabilité entre les patients. D'où la nécessité de tester préalablement la méthode de l'IA sur des échantillons à faible variabilité  et de vérifier ainsi les limites de l'IA sur le sujet concerné.

Alors que dans le traitement des images par l'IA, qu'elles soient radiologiques ou pathologiques, le nombre d'échantillons  possible est important, à l'inverse, lorsqu'il s'agit de données cliniques, chaque donnée est liée à un patient. Il est donc nécessaire d'avoir un grand nombre de patients pour construire un algorithme. 

4ème recommandation : la relation entre la variable d'entrée et la variable prédictive de sortie doit être la plus directe et causale possible.

Le but d'un algorithme en santé est de faire, par exemple, une prédiction d'efficacité ou de non efficacité d'un traitement pour une maladie donnée. Les variables initiales ne doivent pas s'éloigner des variables prédictives sur le plan "causal" si l'on veut que la réponse à la question posée soit fiable. Le lien éventuel entre une donnée corrélative et une donnée causale nécessite une approche Bayésienne de probabilité.

C'est une donnée essentielle si on veut, sur le plan du diagnostic demandé à l'IA, distinguer par exemple deux pathologies qui ne sont pas distinctes dans l'analyse médicale traditionnelle. Or, les données de patients ne sont jamais 100% complètes et 100% fiables. Lorsque la variabilité prédictive s'éloigne trop de la variabilité initiale,  l'apport de l'IA peut être insuffisant, voire donner des résultats erronés. Aujourd'hui, l'IA peut donner une valeur prédictive à dix ans en fonction des indicateurs de vie du patient au moment de l'analyse par l'IA, mais ces indicateurs peuvent changer avec le temps.

5ème recommandation : l'exigence d'une validation de l'algorithme selon la réglementation en vigueur.

A quel moment faut-il présenter aux autorités réglementaires un système algorithmique fondé sur l'apprentissage profond (Deep learning) ? C'est un sujet difficile car un algorithme de Deep learning continue à apprendre pour acquérir une sensibilité et une spécificité performante et suffisante. Lorsqu'il s'agit d'une analyse d'images (radiologie, dermatologie, pathologie, etc..), cet objectif peut être atteint assez rapidement et l'application d'IA peut alors bénéficier de la validation réglementaire.

Lorsqu'il s'agit d'un usage clinique d'aide au diagnostic et au choix thérapeutique, avec des données de santé souvent incomplètes et imparfaites, le niveau acceptable de sensibilité et de spécificité pour une validation réglementaire ne sera atteint que dans une durée longue, imprévisible,  car l'algorithme ne s'améliore que sur la base de données cliniques fiables, mais aussi erronées. A quel moment l'application d'IA pourra-t-elle alors être validée par les autorités sanitaires de régulation telles que la FDA  aux USA ? Le caractère "boite noire" (black box) de l'algorithme de Deep Learning  représente indiscutablement un frein à cette validation, comme vient de le connaître le système Watson pour l'oncologie, lequel n'est pas encore validé. D'où la question posée par les auteurs de réfléchir à des solutions nouvelles telles que des algorithmes très ciblés et dont l'apprentissage peut être à un moment "gelé".

6ème recommandation : choisir une méthode d'IA juste et adaptée au problème clinique posé.

Les méthodes d'IA sont nombreuses. Il faut choisir la méthode la plus appropriée au problème clinique posé. Pour l'analyse d'images, la technologie du Deep learning s'est révélée être appropriée pour atteindre à un moment donné un niveau de spécificité (taux de faux positifs) et de sensibilité (taux de faux négatifs) acceptable. D'autres méthodes d'IA sont nécessaires lorsqu'il s'agit d'études cliniques, de prédire une évolution clinique ou de prédire des risques de morbidité à moyen ou long terme. Le modèle probabiliste Bayésien est souvent utile.

En résumé, les médecins doivent être formés aux solutions de l'IA médicale. Ils doivent pouvoir expliquer à leurs patients les limites des solutions logarithmiques. Il faut sortir de l'angélisme ambiant où toute solution d'IA est considérée comme plus fiable que l'intelligence humaine. En médecine, l'IA, pour l'instant, n'est qu'une aide à la démarche diagnostique et thérapeutique vis à vis de laquelle le médecin doit avoir un regard critique.

19 avril 2019