AI 痣检测准确率对比皮肤科医生

基准测试准确率与真实世界准确率对比

多项已发表的研究表明，在 ISIC Archive 等经过筛选的数据集上，AI 模型的表现达到或超过了皮肤科医生。这些数据描述的是模型在受控条件下，对分类明确的病变的高质量皮肤镜图像的评估表现。

真实世界的使用情况则有所不同。家庭用户在现有的光照条件下，从一个角度拍摄一张照片。病变可能位于有毛发的皮肤上或弯曲的身体表面。皮肤镜的镜头可能没有均匀按压。模型看到的只是一张单一的图像，没有临床背景，没有患者病史，也没有其他皮肤区域可供进行“丑小鸭”征 (ugly-duckling) 对比。

即使是基准测试中领先的最佳模型，当从经过筛选的数据集转移到真实世界的家庭拍摄场景时，其敏感度也会下降几个百分点。这不是模型的缺陷；这是单张图像、无背景信息筛查的固有缺陷。

AI 帮助最大的方面

当 AI 筛查完成人类医生不擅长或没有时间做的事情时，它能发挥最大的价值。

记录：AI 辅助应用程序通过一致的元数据捕捉每颗痣的结构化时间线，因此在下次皮肤科就诊时可以轻松检索其五年的演变过程。如果没有软件的帮助，任何临床医生都无法大规模实现这一点。分诊：基于手机的 AI 筛查器可以根据风险评分对 30 个病变进行排序，并优先显示少数需要人类医生仔细查看的病变。教育：AI 对图像质量（对焦、光照、构图）的辅助反馈可以训练家庭用户拍出更好的皮肤镜照片。

这些用途主要是关于记录和优先级排序，而不是诊断。

跨越数年的痣的结构化时间线
优先处理高风险病变以进行临床随访
拍摄过程中的图像质量反馈
重复拍照的节奏提醒
皮肤科医生可在几秒钟内阅读的可打印报告

AI 最容易失效的方面

失效模式主要集中在四个方面。

非黑素细胞病变：许多 AI 评分框架（如 TDS、7 点评分法）是为黑素细胞病变设计的。当用于基底细胞癌 (Basal Cell Carcinoma)、纤维瘤或脂溢性角化病时，它们产生的分数要么会产生虚假的安全感，要么会引起不必要的恐慌。

色素沉着皮肤：大多数已发布的数据集中，浅色皮肤的比例过高。AI 模型在深色皮肤上的表现通常较差，尤其是对于肢端黑色素瘤 (Acral Melanoma)——而这正是最容易出现在深色皮肤上的类型。

图像质量：亮度低、运动模糊、镜头指纹以及皮肤镜接触不均匀都会降低输入质量。模型并不总是会告诉用户图像质量很差；它们可能会基于噪点像素生成一个看似确信的评分。

随机性：视觉语言模型不是确定性的。对同一张图像运行两次可能会得出不同的诊断结果，特别是当病变在皮肤镜下表现模糊时。

为什么同一张照片会得出不同的结果

现代 AI 筛查系统通常使用采样温度非零的视觉语言模型。这意味着模型在每一步都会在合理的标记中进行选择，对同一输入的两次运行可能会走向不同的路径。对于明显的黑色素瘤或明显的良性痣，两次运行的结果通常是一致的。但对于模糊的病变——例如，看起来隐约像早期 BCC 的早期皮脂腺增生——运行结果就会出现分歧。

一款设计良好的 AI 筛查应用程序会通过两种方式处理这个问题。它会降低第一遍扫描的温度，以便常规的、清晰的病变能得到确定性的结果。对于第一遍扫描中出现的高风险病例，它会运行一个集成模型——进行三次或更多次独立读取——并报告共识结果以及一致性百分比。如果一致性高，用户就得到了一个确信的筛查信号。如果一致性低，模型则是在告诉你图像是模糊的，此时人类医生的判读更为重要。

DermaTrack 使用这种两阶段策略：确定性的首次读取，以及每当首次读取返回高 (HIGH) 或极高 (VERY HIGH) 风险时，进行集成重试。

是分诊辅助，而非诊断

AI 筛查工具最好被定位为皮肤科医生就诊前的分诊层，而不是其替代品。它会告诉用户：“这个病变需要尽快仔细检查”或“这个病变看起来很稳定，三个月后复查”。它不会说“这是黑色素瘤”或“这不是黑色素瘤”。

将评分视为诊断是最常见的用户错误。低 (LOW) 分并不能排除癌症；新出现的症状（出血、疼痛、不愈合）、“丑小鸭”病变或快速变化应始终凌驾于令人安心的评分之上。高 (HIGH) 分也不能证实癌症；许多高分结果是良性的类似物，只有临床医生才能决定是否需要进行活检。

如何将两者结合使用

最有用的工作流程是将 AI 辅助的家庭重复记录与定期的皮肤科医生面诊结合起来。

在家时：以固定的时间间隔拍摄每颗痣，让应用程序根据风险评分和近期变化对病变进行排序，并在两周内对被标记的病变采取行动。在诊所时：带上打印的时间线和应用程序标记为高 (HIGH) 或有明显变化的任何病变的原始照片。请皮肤科医生对这些病变进行现场皮肤镜检查，如果您有风险因素（黑色素瘤家族史、有晒伤史的浅色皮肤、大量非典型痣、免疫抑制、既往皮肤癌史），请至少每年进行一次全身皮肤检查。

通过这种方式使用，AI 应用程序完成了诊所没有时间做的记录和优先级排序工作，而诊所则完成了模型缺乏背景信息来进行的临床推理工作。

常见问题

AI 查痣和皮肤科医生一样准确吗？

在经过筛选的基准测试中，顶级模型可以接近皮肤科医生的敏感度。在真实的家庭使用场景中，仅凭单张手机照片，两者都会出现漏诊——但漏诊的方式不同。最佳实践是将两者结合使用。

AI 能取代每年的皮肤检查吗？

不能。AI 筛查应用程序用于记录和分诊，但全面的皮肤检查、皮肤科医生的判断以及活检能力是不可替代的。

为什么应用程序对同一颗痣的第二次扫描给出了不同的结果？

AI 模型可能具有随机性，尤其是在处理模糊的病变时。优秀的筛查工具会对高风险病例进行多次读取，并报告一致性，以便您能看出模型何时存在不确定性。

我应该多久用应用程序检查一次痣？

对于正在追踪的病变，每 1-3 个月重复拍摄一次基线照片。对于任何发生变化、出血或疼痛的病变，应增加检查频率。如果出现突然变化或症状，请务必预约医生就诊。

AI 痣检测准确率对比皮肤科医生：AI 能做什么和不能做什么