Précision sur les bancs d'essai par rapport à la précision en conditions réelles
Plusieurs études publiées montrent que les modèles d'IA égalent ou surpassent les dermatologues sur des ensembles de données de référence tels que l'archive ISIC. Ces chiffres décrivent le comportement du modèle sur des images dermoscopiques de haute qualité de classes de lésions bien définies, évaluées dans des conditions contrôlées.
L'utilisation en conditions réelles est différente. Un utilisateur à domicile prend une photo sous un seul angle avec l'éclairage dont il dispose. La lésion se trouve sur une peau poilue ou sur une surface corporelle incurvée. La tête du dermatoscope peut ne pas être appuyée uniformément. Le modèle voit une seule image, sans contexte clinique, sans antécédents du patient, et sans le reste de la peau pour une comparaison du « vilain petit canard ».
Même le meilleur modèle en tête des bancs d'essai perd plusieurs points de pourcentage de sensibilité lorsqu'il passe d'un ensemble de données de référence à une capture à domicile en conditions réelles. Ce n'est pas un défaut du modèle ; c'est un défaut du dépistage basé sur une image unique et sans contexte.
Où l'IA est la plus utile
Le dépistage par l'IA apporte le plus de valeur lorsqu'il effectue des tâches pour lesquelles les cliniciens humains sont moins performants ou n'ont pas le temps.
Documentation : les applications assistées par l'IA capturent un historique structuré de chaque grain de beauté avec des métadonnées cohérentes, de sorte qu'une évolution sur cinq ans est facile à récupérer lors de la prochaine visite dermatologique. Aucun clinicien ne peut faire cela à grande échelle sans l'aide d'un logiciel. Triage : un outil de dépistage par l'IA sur téléphone peut trier 30 lésions par score de risque et faire ressortir en premier les quelques-unes qui méritent une lecture humaine plus approfondie. Éducation : les retours assistés par l'IA sur la qualité de l'image (mise au point, éclairage, cadrage) forment les utilisateurs à domicile à prendre de meilleures photos dermoscopiques.
Ces utilisations concernent la documentation et la priorisation, et non le diagnostic.
- Historique structuré des grains de beauté sur plusieurs années
- Priorisation des lésions à plus haut risque pour un suivi clinique
- Retours sur la qualité de l'image pendant la capture
- Rythme de rappel pour la répétition des photos
- Rapport imprimable qu'un dermatologue peut lire en quelques secondes
Où l'IA échoue le plus
Les modes de défaillance se regroupent autour de quatre domaines.
Lésions non mélanocytaires : de nombreux systèmes de notation par l'IA (TDS, liste des 7 points) sont conçus pour les lésions mélanocytaires. Lorsqu'ils sont dirigés vers un carcinome basocellulaire (BCC), un fibrome ou une kératose séborrhéique, ils produisent des chiffres qui sont soit faussement rassurants, soit faussement alarmants.
Peaux pigmentées : la plupart des ensembles de données publiés surreprésentent les peaux claires. Les modèles d'IA sont souvent moins performants sur les tons de peau plus foncés, en particulier pour le mélanome acral — qui est le type le plus susceptible d'apparaître sur une peau plus foncée en premier lieu.
Qualité de l'image : une faible luminosité, un flou de mouvement, des traces de doigts sur l'objectif et un contact inégal du dermatoscope dégradent tous les données d'entrée. Les modèles ne disent pas toujours à l'utilisateur quand l'image est mauvaise ; ils peuvent produire un score d'apparence confiante sur des pixels bruités.
Stochasticité : les modèles de vision-langage ne sont pas déterministes. Analyser la même image deux fois peut donner des diagnostics différents, surtout lorsque la lésion est dermoscopiquement ambiguë.
Pourquoi la même photo donne des réponses différentes
Les systèmes modernes de dépistage par l'IA utilisent souvent des modèles de vision-langage avec une température d'échantillonnage non nulle. Cela signifie que le modèle choisit parmi des jetons plausibles à chaque étape, et deux analyses de la même entrée peuvent aboutir à des chemins différents. Pour un mélanome évident ou un nævus clairement bénin, les deux analyses concordent généralement. Pour une lésion ambiguë — par exemple, une hyperplasie sébacée précoce qui ressemble vaguement à un BCC précoce — les analyses divergent.
Une application de dépistage par l'IA bien conçue gère cela de deux manières. Elle abaisse la température pour le premier passage, de sorte qu'une lésion de routine évidente obtienne une réponse déterministe. Et sur les cas alarmants du premier passage, elle utilise une méthode d'ensemble — trois lectures indépendantes ou plus — et rapporte le consensus ainsi que le pourcentage de concordance. Si la concordance est élevée, l'utilisateur dispose d'un signal de dépistage confiant. Si la concordance est faible, le modèle vous indique que l'image est ambiguë et qu'une lecture humaine est primordiale.
DermaTrack utilise cette stratégie en deux étapes : une première lecture déterministe, et une nouvelle tentative par méthode d'ensemble chaque fois que la première lecture renvoie un risque ÉLEVÉ ou TRÈS ÉLEVÉ.
Aide au triage, pas au diagnostic
Un outil de dépistage par l'IA est mieux conçu comme une couche de triage qui précède la visite chez le dermatologue, et non comme un substitut à celle-ci. Il dit à l'utilisateur : « cette lésion mérite d'être examinée de plus près prochainement » ou « cette lésion semble stable, à répéter dans trois mois ». Il ne dit pas « c'est un mélanome » ou « ce n'est pas un mélanome ».
Considérer le score comme un diagnostic est l'erreur la plus courante des utilisateurs. Un score FAIBLE n'exclut pas un cancer ; de nouveaux symptômes (saignement, douleur, non-cicatrisation), une lésion de type « vilain petit canard » ou un changement rapide doivent toujours primer sur un score rassurant. Un score ÉLEVÉ ne confirme pas un cancer ; de nombreux scores ÉLEVÉS sont des lésions bénignes simulatrices, et seul un clinicien peut décider si une biopsie est justifiée.
Comment utiliser les deux ensemble
Le flux de travail le plus utile combine une documentation répétée à domicile assistée par l'IA avec des contrôles dermatologiques périodiques en personne.
À domicile : photographiez chaque grain de beauté à des intervalles réguliers, laissez l'application trier les lésions par score de risque et changement récent, et agissez sur les lésions signalées dans un délai d'une à deux semaines. À la clinique : apportez l'historique imprimé et les photos originales pour toute lésion que l'application a signalée comme ÉLEVÉE ou qui a visiblement changé. Demandez au dermatologue de réaliser une dermoscopie en direct sur ces lésions et de faire un examen cutané complet du corps au moins une fois par an si vous présentez des facteurs de risque (antécédents familiaux de mélanome, peau claire avec antécédents de coups de soleil, nombreux nævus atypiques, immunosuppression, antécédents de cancer de la peau).
Utilisée de cette manière, l'application d'IA effectue le travail de documentation et de priorisation pour lequel la clinique n'a pas le temps, et la clinique effectue le raisonnement clinique pour lequel le modèle n'a pas de contexte.
Questions fréquentes
Une analyse de grain de beauté par l'IA est-elle aussi précise que celle d'un dermatologue ?
Sur des bancs d'essai de référence, les meilleurs modèles peuvent approcher la sensibilité d'un dermatologue. Dans le cadre d'une utilisation réelle à domicile avec de simples photos de téléphone, les deux peuvent passer à côté de certaines choses — mais de manières différentes. La meilleure pratique consiste à les utiliser ensemble.
L'IA peut-elle remplacer un examen cutané annuel ?
Non. Les applications de dépistage par l'IA documentent et trient, mais un examen cutané complet, le jugement d'un dermatologue et la capacité de réaliser une biopsie sont irremplaçables.
Pourquoi l'application a-t-elle donné une réponse différente lors d'une deuxième analyse du même grain de beauté ?
Les modèles d'IA peuvent être stochastiques, en particulier sur les lésions ambiguës. Un bon outil de dépistage effectue plusieurs lectures sur les cas alarmants et signale le taux de concordance afin que vous puissiez voir quand le modèle est incertain.
À quelle fréquence dois-je vérifier mes grains de beauté avec une application ?
Répétez les photos de référence tous les 1 à 3 mois pour les lésions suivies. Augmentez la fréquence pour toute lésion qui a changé, saigné ou qui est douloureuse. Prenez toujours rendez-vous avec un clinicien en cas de changements soudains ou symptomatiques.
Sources
- Esteva A et al. — Dermatologist-level classification of skin cancer (Nature 2017)
- Tschandl P et al. — Comparison of human and machine in melanoma detection (Lancet Oncol 2019)
- Daneshjou R et al. — Disparities in dermatology AI performance on skin of color
- ISIC Archive — ensemble de données public sur les lésions cutanées