Nouveauté ! Développez votre produit SxMD avec un eQMS structuré comprenant des modèles SxMD prêts à être audités et conformes aux normes EU et US. En savoir plus !

LLM en dispositifs médicaux, tout ce qu'il faut savoir.

L'adoption des technologies progresse à un rythme sans précédent. Cela ne semble pas être le cas dans la vie de tous les jours, mais dans la pratique, la vitesse est pour le moins intimidante. Lorsque les téléphones portables ont été mis sur le marché pour la première fois, il a fallu environ 16 ans pour atteindre 100 millions d'utilisateurs. En 2004, lorsque Facebook a été lancé, il a fallu 4,5 ans pour atteindre le même nombre, et WhatsApp 3,5 ans après son lancement en 2009. Ensuite, il a fallu 2 mois à ChatGPT après son lancement en 2022 (et seulement 5 jours à Threads après son lancement en 2023). Il n'est pas difficile de comprendre que ces technologies ont le potentiel de bouleverser les sociétés et les industries en très peu de temps.

Les grands modèles linguistiques (LLM), tels que celui utilisé dans ChatGPT, font appel à l'intelligence artificielle (IA) et sont formés à partir de milliards de mots tirés de livres, d'articles et d'autres contenus basés sur l'internet. Les LLM utilisent des architectures de réseaux neuronaux qui tirent parti de l'apprentissage en profondeur pour représenter les relations associatives complexes entre les mots tels qu'ils sont utilisés dans l'ensemble de données d'apprentissage du contenu textuel. En 2023, une mise à jour du ChatGPT lui a permis d'atteindre le niveau de performance requis pour les examens d'aptitude médicale aux États-Unis, et il a été suggéré que les applications de l'IA pourraient être prêtes à être utilisées dans des contextes cliniques, éducatifs ou de recherche.

Il n'est donc pas surprenant que diverses applications des LLM soient apparues pour un usage général et dans le domaine des soins de santé. Dans le domaine des soins de santé, il s'agit notamment des LLM qui peuvent faciliter les tâches opérationnelles sans objectif médical direct, telles que le résumé de la documentation clinique, la création de résumés de sortie, la génération de notes de clinique, d'opération et de procédure, l'obtention d'une autorisation préalable de l'assurance et le résumé d'articles de recherche. Les LLM peuvent également aider les médecins dans les tâches qui sont directement associées à un objectif médical, par exemple en diagnostiquant des conditions basées sur des dossiers médicaux, des images, des résultats de laboratoire, et en suggérant des options ou des plans de traitement.

Dans ce billet de blog, nous souhaitons souligner comment les LLM et d'autres systèmes d'IA générative ont le potentiel d'aider l'industrie des soins de santé, comment les LLM et autres systèmes similaires se situent entre différents cadres législatifs, et où se trouvent les lacunes potentielles de ces cadres.

Les grands modèles de langage expliqués

Avant de plonger dans le domaine des grands modèles de langage, il est utile de les placer dans un contexte plus large. Le domaine de l'intelligence artificielle évolue lentement depuis 1967 et a connu récemment une accélération considérable de son développement. Les premiers développements de réseaux neuronaux remontent déjà à la fin des années 1950 et l'un des premiers systèmes d'apprentissage de l'intelligence artificielle a été publié en 1967 (c'est-à-dire le développement d'un algorithme du plus proche voisin). Depuis lors, de nombreuses avancées ont été réalisées, telles que la publication d'une architecture de réseau neuronal convolutif et la rétropropagation en 1980, ainsi que le développement de GPU (Graphic Processing Units) commercialement abordables au début des années 2000, qui ont considérablement augmenté la puissance de calcul. La disponibilité des GPU a rapidement accru l'utilisation des algorithmes d'apprentissage automatique et, par conséquent, des algorithmes d'apprentissage profond. Le développement a été lent car les algorithmes d'apprentissage en profondeur nécessitent parfois une puissance de calcul multipliée par 300 000, d'où la nécessité de disposer de GPU à un prix abordable.

L'aperçu ci-dessous présente les techniques d'intelligence artificielle disponibles aujourd'hui et leur place dans le domaine de l'IA.

Lorsque le ChatGPT a été lancé en 2022, il a de nouveau introduit des avancées significatives dans le domaine de l'intelligence artificielle. Les LLM sont une forme de systèmes d'IA à usage général, qui reposent sur les mêmes principes que l'apprentissage en profondeur. L'apprentissage en profondeur utilise des « réseaux neuronaux » qui comprennent un certain nombre de petites fonctions mathématiques, également appelées neurones. Chaque neurone est capable de calculer des sorties en fonction des entrées. Les neurones sont interconnectés et la force des connexions est déterminée par des poids numériques. Plus le nombre de neurones est élevé, plus le système est complexe. Les grands modèles linguistiques comprennent généralement des millions de neurones avec plusieurs centaines de milliards de connexions entre eux, chaque connexion ayant son propre poids.

Les LLM utilisent une architecture de réseau neuronal unique appelée « transformateur ». Cette architecture est optimisée pour le traitement et la génération de données séquentielles, telles que le texte. Contrairement aux réseaux neuronaux traditionnels, les transformateurs utilisent un mécanisme d'auto-attention qui leur permet de se concentrer sur différentes parties de la séquence d'entrée, ce qui permet une compréhension plus nuancée du contexte. Ce mécanisme d'attention renforce les connexions entre les parties pertinentes des données, ce qui facilite la compréhension et la génération du langage. Les LLM modernes peuvent avoir des centaines de milliards de paramètres, leurs poids nécessitant une capacité de stockage substantielle, souvent mesurée en centaines de gigaoctets.

Chaque poids et chaque neurone représentent une formule mathématique calculée pour chaque mot (ou, dans certains cas, une partie de mot) fourni au modèle en entrée et pour chaque mot (ou partie de mot) qu'il génère en sortie. Les petits mots ou parties de mots sont appelés « tokens ». Les grands modèles de langage décomposent les invites, c'est-à-dire le terme de recherche généré par l'utilisateur ou la demande adressée au LLM, en ces jetons. En moyenne, un jeton représente ⅘ d'un mot. Sur la base des jetons d'entrée, le LLM génère une réponse qui semble correcte en fonction de l'immense volume de texte qu'il a consommé au cours de sa formation. Il est important de noter qu'il ne recherche rien au sujet de la requête. Il n'a pas de mémoire dans laquelle il peut rechercher les mots de l'invite. Au lieu de cela, il génère nouvellement chaque mot du texte de sortie, après quoi il effectue à nouveau le calcul, en générant un mot qui a la plus grande probabilité de sonner juste.

Inquiétudes concernant le LLM

La technologie est prometteuse et le texte généré par ces modèles n'est pas nécessairement destiné à fournir des résultats factuellement exacts ; ces modèles et leurs forces consistent plutôt à générer un texte qui se lit comme un texte écrit par un humain et qui sonne juste. Ces textes sont souvent justes, mais pas toujours. La technologie, comme d'autres technologies d'apprentissage de l'IA, est sujette à des problèmes de partialité, de respect de la vie privée et de sécurité. Elle est également susceptible de générer des informations incorrectes (appelées « hallucinations » ou « fabrications »), les hallucinations pouvant faire référence à des informations invraisemblables sur le plan contextuel, incompatibles avec le monde réel et infidèles à l'information fournie. D'autres risques incluent la perte d'informations lorsque le texte est traité par des LLM, par exemple lorsqu'un LLM est utilisé pour résumer ou convertir des informations. Il existe d'autres défis liés à l'utilisation des LLM, dont une vue d'ensemble utile et détaillée est fournie ici.

LLM dans les soins de santé

Depuis la publication de ChatGPT en 2022, on observe une augmentation considérable du nombre d'articles scientifiques portant sur l'utilisation de grands modèles de langage dans le domaine de la santé. Une recherche rapide sur Pubmed montre qu'un seul article a été publié en 2022, jusqu'à 80 en 2023 et un total de 124 au cours des six premiers mois de 2024. Il n'est donc pas surprenant qu'il y ait des cas d'utilisation potentiels pour la LLM dans le domaine des soins de santé.

L'interprétation précise de la langue parlée est l'un des facteurs les plus importants qui influencent le succès de la communication. Dans le secteur des soins de santé, les textes écrits sont utilisés pour une grande partie de la communication entre les professionnels de la santé et les patients. Un manque de clarté dans les rapports des patients a été signalé comme étant corrélé à une qualité inférieure des soins aux patients et une communication inefficace entre les prestataires de soins de santé entraîne un fardeau économique substantiel pour les institutions cliniques et les systèmes de soins de santé. Les LLM peuvent jouer un rôle important dans l'amélioration de la communication et la réduction du fardeau qui pèse sur le système de santé. Aux Pays-Bas, l'un des plus grands hôpitaux universitaires (Amsterdam UMC) s'est récemment engagé avec deux autres hôpitaux dans l'utilisation de ChatGPT pour répondre aux questions posées par les patients dans le cadre d'une collaboration avec Epic. Dans le cadre de cet essai, les médecins reçoivent une réponse générée automatiquement qu'ils peuvent renvoyer au patient. Dans la réponse, le médecin doit revoir et, le cas échéant, modifier le texte avant de renvoyer l'information au patient. Le programme semble recevoir des réactions positives et il est suggéré de réduire la charge administrative.

Les possibilités offertes par les LLM sont très vastes, comme cela a été démontré pour les systèmes d'apprentissage profond au cours des dernières années. Dans un article récent publié par Meskó et Topol, les auteurs présentent (dans la figure 1) une évaluation approfondie des cas d'utilisation potentiels des LLM dans l'environnement des soins de santé.

Figure 1. Vue d'ensemble des cas d'utilisation médicale potentiels des LLM

Tout en soulignant les possibilités offertes par les LLM, les auteurs appellent également à une réglementation de ces systèmes, afin de s'assurer que des garde-fous réglementaires sont en place pour mettre ces systèmes sur le marché en toute sécurité, et suggèrent que cette réglementation s'applique également aux systèmes non générateurs de texte basés sur des interactions sonores et vidéo.

Réglementation des MLD et de l'IA générative

Le 2 août, la loi sur l'IA entrera en vigueur, après une longue attente. Elle vise à protéger les droits fondamentaux, la démocratie, l'État de droit et la durabilité environnementale contre l'IA à haut risque. La loi sur l'IA (2024/1689) repose sur les mêmes principes du nouveau cadre législatif que le règlement sur les dispositifs médicaux (2017/745) et le règlement sur les diagnostics in vitro (2017/746). Il est destiné à combler les lacunes pour :

  1. les systèmes d'IA qui ne font actuellement pas partie de l'espace réglementé (produit) (par exemple, les outils éducatifs), pour lesquels la loi sur l'IA sera la législation parentale sur les produits ; et

  2. les systèmes d'IA qui sont déjà réglementés par le NLF, mais dont la législation n'aborde pas les questions spécifiques à l'IA et pour lesquels la loi sur l'IA est une législation complémentaire à appliquer en plus de la législation sur le produit d'origine (par exemple, le MDR ou l'IVDR).

En d'autres termes, si un MLD est intégré dans un dispositif médical, il est principalement réglementé par le RIM ou le RIVD, les exigences supplémentaires énoncées dans la loi sur l'IA s'appliqueront. Si le MLD n'est pas intégré à un dispositif médical (ou à une autre législation sur les produits), la loi sur l'IA s'applique en tant que cadre législatif autonome.

Les LLM dans le contexte du MDR / IVDR

Bien que les personnes travaillant dans l'industrie des dispositifs médicaux le sachent, la première évaluation visant à déterminer si un produit incorporant un LLM est un dispositif médical consiste à déterminer s'il correspond à la définition d'un dispositif médical. Comme pour tout produit, la question centrale à laquelle il faut répondre est la suivante :

« Le produit remplit-il une fonction médicale prévue ?

Pour répondre à cette question, le fabricant doit évaluer, conformément à l'article 2 du règlement relatif aux dispositifs médicaux (2017/745), si le dispositif effectue une action qui pourrait être interprétée comme une action de diagnostic, de prévention, de surveillance, de maladie, etc. ou fournit des informations au moyen d'un examen in vitro des spécimens. Si la réponse est oui, le produit doit être réglementé en premier lieu comme un dispositif médical, sauf si le logiciel effectue une action ou un ensemble d'actions qui ne sont rien d'autre que le stockage, l'archivage, la communication, la recherche simple, la compression sans perte (comme expliqué dans le document MDCG 2019-11), auquel cas le RIM ou le RIVD ne s'appliquent pas.

Cette étape est cruciale dans l'évaluation des LLM et dans la réglementation ultérieure du LLM en vertu de la loi sur l'IA, car il existe une interaction entre le RIM et la loi sur l'IA, où la plupart des dispositifs médicaux qui utilisent l'IA sont automatiquement transférés dans la catégorie à haut risque de la loi sur l'IA.

À titre d'exemple pratique, un LLM destiné à résumer les notes prises par un médecin dans le cadre de l'anamnèse d'un patient, qui ne tire aucune conclusion pouvant être interprétée comme (une aide au) diagnostic, à la prévention, au suivi d'une maladie, etc. Même si un tel LLM est capable d'affecter négativement la santé d'un patient. C'est pour une bonne raison qu'Epic a décidé, dans son produit d'essai, de veiller à ce que le médecin examine et confirme toujours la réponse au patient avant de la lui renvoyer. Par exemple, des informations manquantes ou des informations erronées fabriquées de toutes pièces peuvent directement nuire au patient. Prenons l'exemple du LLM qui note une dose incorrecte de médicament à fournir dans une réponse au patient. Les fournisseurs de tels systèmes doivent en outre se méfier du risque de biais d'automatisation (« l'IA semble faire du bon travail pour répondre aux patients, je vais juste appuyer sur “répondre au patient” sans lire la réponse en détail »). À plus long terme, une dépendance excessive à l'égard des MLD peut entraîner une diminution des compétences des prestataires de soins de santé au fil du temps, lorsque, dans des domaines critiques, ils acquièrent moins d'expertise en raison d'une pratique réduite.

Si le MLD contenu dans le produit est considéré comme un dispositif médical, c'est-à-dire s'il effectue une action qui contribue au diagnostic, à la prévention ou au suivi d'une maladie, etc., il sera très probablement considéré comme un dispositif médical de classe IIa (ou supérieure) conformément à la règle 11 de l'annexe VIII, ou comme un dispositif à haut risque en vertu de l'IVDR (classe B, C ou D). Ces dispositifs doivent faire l'objet d'une évaluation de la conformité par l'intermédiaire d'un organisme notifié et, par conséquent, conformément à l'article 6, paragraphe 1, de la loi sur l'IA, seront considérés comme des dispositifs médicaux à haut risque si le système d'IA est un composant de sécurité d'un dispositif médical ou si le système d'IA est considéré comme le dispositif médical lui-même (c'est-à-dire qu'il contribue directement à la réalisation de la destination du dispositif ; la Commission européenne n'a pas encore donné d'indications supplémentaires à ce sujet). Cela signifie qu'il faut démontrer la conformité avec les exigences énoncées dans le RIM ou le RIVD et le chapitre III de la loi sur l'IA.

Le LLM en tant que logiciel de soins de santé

Si le LLM n'effectue pas une action telle que définie à l'article 2 (1) du RIM, à savoir contribuer au diagnostic, à la prévention, à la surveillance d'une maladie, etc., il n'est donc pas considéré comme un « dispositif médical » et le RIM et/ou la DIV ne s'appliquent pas. Par conséquent, le fournisseur du système d'IA doit déterminer si la loi sur l'IA s'applique.

Le fabricant doit évaluer si le système d'IA peut être un « dispositif médical » :

  1. un dispositif d'IA interdit, conformément au chapitre II et à l'article 5

  2. une IA à haut risque, conformément au chapitre III et à l'article 6

  3. une IA à usage général, conformément au chapitre V.

Et si aucune des dispositions ci-dessus ne s'applique, si les exigences de transparence prévues à l'article 50 s'appliquent. Dans le cadre de ce billet, nous n'aborderons pas les pratiques interdites en matière d'IA.

Le LLM en tant qu'IA à haut risque

L'IA à haut risque, conformément à l'article 6, est considérée comme à haut risque si elle est couverte par la législation de l'annexe I et doit, en vertu de cette législation, faire l'objet d'une évaluation de la conformité (par exemple, les dispositifs médicaux), OU si elle est couverte par l'annexe III.

La liste fournie par l'annexe III est longue, mais citons quelques exemples qui peuvent s'appliquer aux soins de santé :

  1. Biométrie - lorsque les systèmes d'IA sont destinés à reconnaître les émotions (1(c))

  2. Infrastructures critiques - lorsque les systèmes d'IA sont destinés à être utilisés comme composants de sécurité dans les infrastructures critiques (2)

  3. Services de santé publique essentiels - L'IA évalue et classifie l'envoi des services d'urgence ou le triage des patients en cas d'urgence (5(d)).

Sur la base de ce qui précède, nous pouvons conclure que la LLM de base pour résumer ou convertir des données sur les soins de santé n'entre pas dans le champ d'application de la liste de l'annexe III ci-dessus. Par conséquent, cette IA ne semble pas être considérée comme une IA à haut risque.

IA à usage général

Pour mieux comprendre l'IA à usage général et les systèmes d'IA à usage général, les définitions sont expliquées ci-dessous.

modèle d'IA à usage général » : un modèle d'IA, y compris lorsqu'il est entraîné à l'aide d'une grande quantité de données en utilisant l'autosupervision à grande échelle, qui fait preuve d'une grande généralité et est capable d'exécuter avec compétence un large éventail de tâches distinctes, quelle que soit la manière dont le modèle est mis sur le marché, et qui peut être intégré dans une variété de systèmes ou d'applications en aval, à l'exception des modèles d'IA utilisés pour des activités de recherche, de développement ou de prototypage avant d'être mis sur le marché ;

La plupart des LLM seront basés sur un modèle GPAI mis à la disposition du public, par exemple les modèles open-source. Ces systèmes peuvent générer du texte à partir de n'importe quelle donnée incorporée dans les données d'apprentissage de ces modèles. Les exigences applicables aux fournisseurs de modèles GPAI comprennent la mise en place d'une documentation technique et la mise à disposition de cette documentation aux parties qui mettent en œuvre les modèles GPAI dans leurs systèmes d'IA (systèmes GPAI), sauf s'ils sont distribués en tant que modèle GPAI à code source ouvert. Des exigences supplémentaires s'appliquent aux modèles GPAI qui introduisent un risque systémique.

Les modèles GPAI peuvent être intégrés dans des systèmes en aval, où le GPAI devient un système GPAI :

système d'IA à usage général » : un système d'IA basé sur un modèle d'IA à usage général et capable de répondre à divers besoins, tant pour une utilisation directe que pour une intégration dans d'autres systèmes d'IA ;

Dans l'exemple des LLM utilisés dans un environnement de soins de santé, ceux-ci sont généralement basés sur des modèles GPAI et adaptés à un objectif de soins de santé spécifique, par exemple, résumer des données de soins de santé pour les inclure dans un dossier médical électronique. À ce titre, comme pour les produits à faible risque, l'article 50 de la loi sur l'IA s'applique et les fournisseurs de ces systèmes doivent s'assurer que

  1. Le système d'IA générant un contenu synthétique audio, image, vidéo ou texte doit veiller à ce que les sorties du système d'IA soient marquées dans un format lisible par une machine et détectables comme étant générées ou manipulées artificiellement ; et

  2. Les fournisseurs veillent à ce que leurs solutions techniques soient efficaces, interopérables, robustes et fiables, dans la mesure où cela est techniquement possible.

Le LLM dans le cadre de la FDA

À ce jour, aucun dispositif utilisant le LLM (ou le GPAI) n'a été autorisé aux États-Unis en tant que dispositif médical. Nous devrons attendre et voir ce que la FDA attend une fois que la première autorisation de Novo ou PMA sera publiée, par exemple en termes de classification de ces dispositifs et d'exigences spécifiques. En tout état de cause, on peut supposer que des « contrôles spéciaux » seront mis en place si les systèmes d'IA soutenus par des LLM sont couverts par le régime 510(k).

Lorsqu'un LLM n'est pas réglementé en tant que dispositif médical et ne répond pas à la définition d'un dispositif médical, aucune exigence réglementaire spécifique ne s'applique à l'utilisation du LLM.

Conclusions

Les modèles linguistiques étendus offrent clairement des possibilités d'utilisation dans les systèmes de soins de santé, ils ont le potentiel d'accroître l'efficacité et de réduire les coûts administratifs. Dans le même temps, l'utilisation de ces modèles n'est pas sans risque : des informations incorrectes peuvent nuire au patient, comme l'a démontré la recherche scientifique.

Si ces modèles remplissent une fonction qui correspond à la définition d'un dispositif médical, ils sont susceptibles d'être réglementés en tant que dispositifs médicaux, lorsqu'ils sont classés comme systèmes d'IA à haut risque en vertu de la loi sur l'IA, et par conséquent, ils seront strictement réglementés.

Parallèlement, lorsque ces modèles ne remplissent pas une fonction correspondant à la définition d'un dispositif médical, ils n'entrent pas dans le champ d'application de la réglementation sur les dispositifs médicaux et, de la même manière, dans le champ d'application de la réglementation sur les systèmes d'IA à haut risque en vertu de la loi sur l'IA (à quelques exceptions près, précisées dans le texte). Au lieu de cela, ils seront réglementés en tant que systèmes GPAI au titre de la loi sur l'IA, où des exigences minimales s'appliquent à ces systèmes.

En ce qui concerne l'avenir, le règlement sur l'espace des données de santé électroniques est en passe d'être publié dans un avenir proche. Le règlement proposé réglementera les systèmes de dossiers médicaux électroniques (DME) et imposera le développement (tests de vérification et de validation), le respect des exigences essentielles en matière d'interopérabilité et de cybersécurité, ainsi que l'obligation d'apposer le marquage CE sur ces systèmes. La définition des systèmes de DSE inclura les systèmes qui convertissent ou modifient les dossiers médicaux électroniques, et pourrait facilement inclure les systèmes qui intègrent le LLM pour effectuer ces fonctions.

Jusqu'à ce que les cadres susmentionnés soient en place, il est recommandé à tout fabricant qui conçoit et développe des systèmes d'IA ne relevant pas du champ d'application de la réglementation sur les dispositifs médicaux de tenir compte des normes générales applicables aux logiciels de santé, notamment la norme CEI 82304-1 concernant la validation de ces systèmes, la norme CEI 81001-5-1 concernant la gestion de la cybersécurité et la norme ISO 14971 pour la gestion des risques, comme indiqué dans les normes CEI 82304-1 et CEI 81001-5-1.

About the Author
Leon Doorn
Independent Consultant