Les IA conversationnelles types « GPT » ne fournissent pas de meilleurs conseils de santé que les méthodes traditionnelles de recherche sur internet, conclut une étude publiée dans Nature Medicine le 9 février.
L’essai randomisé a porté sur 1 298 participants britanniques, confrontés à dix situations courantes, telles qu’ « un mal de tête après une soirée alcoolisée », « une jeune mère ressentant un épuisement persistant », « des vertiges inexpliqués », « une douleur thoracique brève mais inquiétante », ou encore « une douleur aiguë dans la partie supérieure droite de l’abdomen », évoquant la présence d’un calcul biliaire.
Pour leurs recherches, les participants étaient répartis entre trois chatbots (GPT‑4o, Llama 3 et Command R+) tandis qu’un groupe témoin utilisait un moteur de recherche classique, quel qu’il soit.
« Communication breakdown »
Les résultats montrent que les personnes aidées par l’IA ont identifié leur problème médical « dans moins d’un tiers des cas » et déterminé la bonne conduite à tenir « dans environ 45 % des cas », soit « pas mieux que le groupe témoin ».
Or, lorsque les chercheurs ont testé les IA en leur fournissant une description complète et parfaitement structurée des situations soumises aux participants, les modèles ont identifié les problèmes dans 94,9 % des cas et la conduite à tenir dans 56,3 % des cas. Il y a donc un écart majeur entre performances théoriques et utilité réelle.
Les chercheurs attribuent cet écart à une « communication breakdown », une « rupture de communication ». Le chatbot IA et l’utilisateur ne se comprennent pas correctement, soit parce que l’humain fournit des informations incomplètes ou imprécises, soit parce que l’IA répond de manière confuse ou difficile à interpréter.
L’étude rappelle qu’« un adulte américain sur six consulte un chatbot d’IA pour des informations de santé au moins une fois par mois ».
Commentaires