基准测试准确率与真实世界准确率对比
多项已发表的研究表明,在 ISIC Archive 等经过筛选的数据集上,AI 模型的表现达到或超过了皮肤科医生。这些数据描述的是模型在受控条件下,对分类明确的病变的高质量皮肤镜图像的评估表现。
真实世界的使用情况则有所不同。家庭用户在现有的光照条件下,从一个角度拍摄一张照片。病变可能位于有毛发的皮肤上或弯曲的身体表面。皮肤镜的镜头可能没有均匀按压。模型看到的只是一张单一的图像,没有临床背景,没有患者病史,也没有其他皮肤区域可供进行“丑小鸭”征 (ugly-duckling) 对比。
即使是基准测试中领先的最佳模型,当从经过筛选的数据集转移到真实世界的家庭拍摄场景时,其敏感度也会下降几个百分点。这不是模型的缺陷;这是单张图像、无背景信息筛查的固有缺陷。
AI 帮助最大的方面
当 AI 筛查完成人类医生不擅长或没有时间做的事情时,它能发挥最大的价值。
记录:AI 辅助应用程序通过一致的元数据捕捉每颗痣的结构化时间线,因此在下次皮肤科就诊时可以轻松检索其五年的演变过程。如果没有软件的帮助,任何临床医生都无法大规模实现这一点。分诊:基于手机的 AI 筛查器可以根据风险评分对 30 个病变进行排序,并优先显示少数需要人类医生仔细查看的病变。教育:AI 对图像质量(对焦、光照、构图)的辅助反馈可以训练家庭用户拍出更好的皮肤镜照片。
这些用途主要是关于记录和优先级排序,而不是诊断。
- 跨越数年的痣的结构化时间线
- 优先处理高风险病变以进行临床随访
- 拍摄过程中的图像质量反馈
- 重复拍照的节奏提醒
- 皮肤科医生可在几秒钟内阅读的可打印报告
AI 最容易失效的方面
失效模式主要集中在四个方面。
非黑素细胞病变:许多 AI 评分框架(如 TDS、7 点评分法)是为黑素细胞病变设计的。当用于基底细胞癌 (Basal Cell Carcinoma)、纤维瘤或脂溢性角化病时,它们产生的分数要么会产生虚假的安全感,要么会引起不必要的恐慌。
色素沉着皮肤:大多数已发布的数据集中,浅色皮肤的比例过高。AI 模型在深色皮肤上的表现通常较差,尤其是对于肢端黑色素瘤 (Acral Melanoma)——而这正是最容易出现在深色皮肤上的类型。
图像质量:亮度低、运动模糊、镜头指纹以及皮肤镜接触不均匀都会降低输入质量。模型并不总是会告诉用户图像质量很差;它们可能会基于噪点像素生成一个看似确信的评分。
随机性:视觉语言模型不是确定性的。对同一张图像运行两次可能会得出不同的诊断结果,特别是当病变在皮肤镜下表现模糊时。
为什么同一张照片会得出不同的结果
现代 AI 筛查系统通常使用采样温度非零的视觉语言模型。这意味着模型在每一步都会在合理的标记中进行选择,对同一输入的两次运行可能会走向不同的路径。对于明显的黑色素瘤或明显的良性痣,两次运行的结果通常是一致的。但对于模糊的病变——例如,看起来隐约像早期 BCC 的早期皮脂腺增生——运行结果就会出现分歧。
一款设计良好的 AI 筛查应用程序会通过两种方式处理这个问题。它会降低第一遍扫描的温度,以便常规的、清晰的病变能得到确定性的结果。对于第一遍扫描中出现的高风险病例,它会运行一个集成模型——进行三次或更多次独立读取——并报告共识结果以及一致性百分比。如果一致性高,用户就得到了一个确信的筛查信号。如果一致性低,模型则是在告诉你图像是模糊的,此时人类医生的判读更为重要。
DermaTrack 使用这种两阶段策略:确定性的首次读取,以及每当首次读取返回高 (HIGH) 或极高 (VERY HIGH) 风险时,进行集成重试。
是分诊辅助,而非诊断
AI 筛查工具最好被定位为皮肤科医生就诊前的分诊层,而不是其替代品。它会告诉用户:“这个病变需要尽快仔细检查”或“这个病变看起来很稳定,三个月后复查”。它不会说“这是黑色素瘤”或“这不是黑色素瘤”。
将评分视为诊断是最常见的用户错误。低 (LOW) 分并不能排除癌症;新出现的症状(出血、疼痛、不愈合)、“丑小鸭”病变或快速变化应始终凌驾于令人安心的评分之上。高 (HIGH) 分也不能证实癌症;许多高分结果是良性的类似物,只有临床医生才能决定是否需要进行活检。
如何将两者结合使用
最有用的工作流程是将 AI 辅助的家庭重复记录与定期的皮肤科医生面诊结合起来。
在家时:以固定的时间间隔拍摄每颗痣,让应用程序根据风险评分和近期变化对病变进行排序,并在两周内对被标记的病变采取行动。在诊所时:带上打印的时间线和应用程序标记为高 (HIGH) 或有明显变化的任何病变的原始照片。请皮肤科医生对这些病变进行现场皮肤镜检查,如果您有风险因素(黑色素瘤家族史、有晒伤史的浅色皮肤、大量非典型痣、免疫抑制、既往皮肤癌史),请至少每年进行一次全身皮肤检查。
通过这种方式使用,AI 应用程序完成了诊所没有时间做的记录和优先级排序工作,而诊所则完成了模型缺乏背景信息来进行的临床推理工作。
常见问题
AI 查痣和皮肤科医生一样准确吗?
在经过筛选的基准测试中,顶级模型可以接近皮肤科医生的敏感度。在真实的家庭使用场景中,仅凭单张手机照片,两者都会出现漏诊——但漏诊的方式不同。最佳实践是将两者结合使用。
AI 能取代每年的皮肤检查吗?
不能。AI 筛查应用程序用于记录和分诊,但全面的皮肤检查、皮肤科医生的判断以及活检能力是不可替代的。
为什么应用程序对同一颗痣的第二次扫描给出了不同的结果?
AI 模型可能具有随机性,尤其是在处理模糊的病变时。优秀的筛查工具会对高风险病例进行多次读取,并报告一致性,以便您能看出模型何时存在不确定性。
我应该多久用应用程序检查一次痣?
对于正在追踪的病变,每 1-3 个月重复拍摄一次基线照片。对于任何发生变化、出血或疼痛的病变,应增加检查频率。如果出现突然变化或症状,请务必预约医生就诊。