IA en dermatología · 2026-05-21 · 10 min de lectura · Por Equipo Clínico de DermaTrack

Precisión de la revisión de lunares con IA frente a un dermatólogo: lo que la IA puede y no puede hacer

La detección de lesiones cutáneas con IA ha mejorado rápidamente en los últimos cinco años, pero las afirmaciones sobre su precisión necesitan contexto. Un modelo que alcanza una sensibilidad a nivel de dermatólogo en pruebas de referencia seleccionadas no se comporta de la misma manera con una sola foto tomada en casa con el teléfono. Esto es lo que realmente dicen la literatura, el flujo de trabajo clínico y los modos de falla.

DermaTrack es una herramienta de screening y documentación. No es un dispositivo médico certificado y no provee un diagnóstico médico.

Abrir DermaTrack

Precisión de referencia frente a precisión en el mundo real

Varios estudios publicados muestran que los modelos de IA igualan o superan a los dermatólogos en conjuntos de datos seleccionados, como el archivo ISIC. Esas cifras describen el comportamiento del modelo en imágenes dermatoscópicas de alta calidad de clases de lesiones bien definidas, evaluadas bajo condiciones controladas.

El uso en el mundo real es diferente. Un usuario en casa toma una foto desde un ángulo con la iluminación que tenga disponible. La lesión se encuentra en piel con vello o en una superficie corporal curva. Es posible que el cabezal del dermatoscopio no se presione de manera uniforme. El modelo ve una sola imagen, no un contexto clínico, ni el historial del paciente, ni el resto de la piel para hacer una comparación del 'patito feo'.

Incluso el mejor modelo líder en pruebas de referencia pierde varios puntos porcentuales de sensibilidad cuando pasa de un conjunto de datos seleccionado a una captura en casa en un entorno real. Eso no es un defecto del modelo; es un defecto de la detección basada en una sola imagen y sin contexto.

Dónde ayuda más la IA

La detección con IA aporta el mayor valor cuando hace cosas en las que los médicos humanos no son buenos o para las que no tienen tiempo.

Documentación: las aplicaciones asistidas por IA capturan una línea de tiempo estructurada de cada lunar con metadatos consistentes, por lo que una evolución de cinco años es fácil de recuperar en la próxima visita al dermatólogo. Ningún médico puede escalar esto sin la ayuda de un software. Triaje: un detector de IA basado en el teléfono puede clasificar 30 lesiones por puntuación de riesgo y destacar primero las pocas que merecen una lectura humana más detallada. Educación: la retroalimentación asistida por IA sobre la calidad de la imagen (enfoque, iluminación, encuadre) capacita a los usuarios en casa para tomar mejores fotos con el dermatoscopio.

Estos usos se centran en la documentación y la priorización, no en el diagnóstico.

  • Línea de tiempo estructurada de los lunares a lo largo de los años
  • Priorización de lesiones de mayor riesgo para seguimiento clínico
  • Retroalimentación sobre la calidad de la imagen durante la captura
  • Cadencia de recordatorios para repetir fotos
  • Informe imprimible que un dermatólogo puede leer en segundos

Dónde falla más la IA

Los modos de falla se agrupan en cuatro áreas.

Lesiones no melanocíticas: muchos marcos de puntuación de IA (TDS, lista de 7 puntos) están diseñados para lesiones melanocíticas. Cuando se dirigen a un carcinoma de células basales (BCC), un fibroma o una queratosis seborreica, producen números que son falsamente tranquilizadores o falsamente alarmantes.

Piel pigmentada: la mayoría de los conjuntos de datos publicados sobrerrepresentan la piel clara. Los modelos de IA a menudo tienen un rendimiento inferior en tonos de piel más oscuros, particularmente para el melanoma acral, que es el tipo con mayor probabilidad de aparecer en pieles más oscuras en primer lugar.

Calidad de la imagen: el bajo brillo, el desenfoque por movimiento, las huellas dactilares en la lente y el contacto desigual del dermatoscopio degradan la entrada. Los modelos no siempre le dicen al usuario cuándo la imagen es mala; pueden producir una puntuación que parece confiable basada en píxeles con ruido.

Estocasticidad: los modelos de lenguaje-visión no son deterministas. Analizar la misma imagen dos veces puede arrojar diagnósticos diferentes, especialmente cuando la lesión es dermatoscópicamente ambigua.

Por qué la misma foto da respuestas diferentes

Los sistemas modernos de detección con IA a menudo utilizan modelos de visión-lenguaje con una temperatura de muestreo distinta de cero. Eso significa que el modelo elige entre tokens plausibles en cada paso, y dos ejecuciones de la misma entrada pueden tomar caminos diferentes. Para un melanoma claro o un nevo claramente benigno, ambas ejecuciones generalmente concuerdan. Para una lesión ambigua (por ejemplo, una hiperplasia sebácea temprana que se parece vagamente a un BCC temprano), las ejecuciones divergen.

Una aplicación de detección con IA bien diseñada maneja esto de dos maneras. Reduce la temperatura para la primera pasada, de modo que una lesión clara de rutina obtenga una respuesta determinista. Y en los casos alarmantes de la primera pasada, ejecuta un ensamble (tres o más lecturas independientes) e informa el consenso más el porcentaje de concordancia. Si la concordancia es alta, el usuario tiene una señal de detección confiable. Si la concordancia es baja, el modelo le está diciendo que la imagen es ambigua y que una lectura humana es la que tiene el peso.

DermaTrack utiliza esta estrategia de dos etapas: una primera lectura determinista y un reintento en ensamble siempre que la primera lectura devuelva un riesgo ALTO (HIGH) o MUY ALTO (VERY HIGH).

Apoyo de triaje, no diagnóstico

Una herramienta de detección con IA se concibe mejor como una capa de triaje que se sitúa antes de la visita al dermatólogo, no como un sustituto de la misma. Le dice a un usuario: 'esta lesión merece una mirada más cercana pronto' o 'esta lesión parece estable, repita en tres meses'. No dice 'esto es melanoma' o 'esto no es melanoma'.

Tratar la puntuación como un diagnóstico es el error más común del usuario. Una puntuación BAJA (LOW) no descarta el cáncer; nuevos síntomas (sangrado, dolor, falta de cicatrización), una lesión del 'patito feo' o un cambio rápido siempre deben anular una puntuación tranquilizadora. Una puntuación ALTA (HIGH) no confirma el cáncer; muchas puntuaciones ALTAS son imitadores benignos, y solo un médico puede decidir si se justifica una biopsia.

Cómo usar ambos en conjunto

El flujo de trabajo más útil combina la documentación repetida en casa asistida por IA con revisiones dermatológicas periódicas en persona.

En casa: fotografíe cada lunar a intervalos regulares, deje que la aplicación clasifique las lesiones por puntuación de riesgo y cambios recientes, y actúe sobre las lesiones marcadas en un plazo de una a dos semanas. En la clínica: lleve la línea de tiempo impresa y las fotos originales de cualquier lesión que la aplicación haya marcado como ALTA (HIGH) o que haya cambiado visiblemente. Pídale al dermatólogo que realice una dermatoscopia en vivo de esas lesiones y que haga un examen completo de la piel del cuerpo al menos una vez al año si tiene factores de riesgo (antecedentes familiares de melanoma, piel clara con antecedentes de quemaduras solares, muchos nevos atípicos, inmunosupresión, cáncer de piel previo).

Usada de esta manera, la aplicación de IA hace el trabajo de documentación y priorización para el que la clínica no tiene tiempo, y la clínica hace el razonamiento clínico para el que el modelo no tiene contexto.

Preguntas frecuentes

¿Es la revisión de lunares con IA tan precisa como un dermatólogo?

En pruebas de referencia seleccionadas, los mejores modelos pueden acercarse a la sensibilidad de un dermatólogo. En el uso real en casa con fotos individuales de teléfonos, a ambos se les escapan cosas, pero de diferentes maneras. La mejor práctica es usarlos en conjunto.

¿Puede la IA reemplazar una revisión anual de la piel?

No. Las aplicaciones de detección con IA documentan y realizan un triaje, pero un examen completo de la piel, el criterio del dermatólogo y la capacidad de realizar biopsias son irremplazables.

¿Por qué la aplicación dio una respuesta diferente en un segundo escaneo del mismo lunar?

Los modelos de IA pueden ser estocásticos, especialmente en lesiones ambiguas. Una buena herramienta de detección realiza múltiples lecturas en casos alarmantes e informa la concordancia para que pueda ver cuándo el modelo tiene incertidumbre.

¿Con qué frecuencia debo revisar mis lunares con una aplicación?

Repita las fotos de referencia cada 1 a 3 meses para las lesiones en seguimiento. Aumente la frecuencia para cualquier lesión que haya cambiado, sangrado o dolido. Siempre programe una cita con un médico ante cambios repentinos o sintomáticos.

Fuentes

  1. Esteva A et al. — Clasificación del cáncer de piel a nivel de dermatólogo (Nature 2017)
  2. Tschandl P et al. — Comparación entre humanos y máquinas en la detección del melanoma (Lancet Oncol 2019)
  3. Daneshjou R et al. — Disparidades en el rendimiento de la IA en dermatología en pieles de color
  4. Archivo ISIC — conjunto de datos público de lesiones cutáneas