Precisão de benchmark vs. precisão no mundo real
Vários estudos publicados mostram modelos de IA igualando ou superando dermatologistas em conjuntos de dados selecionados, como o arquivo ISIC. Esses números descrevem o comportamento do modelo em imagens dermatoscópicas de alta qualidade de classes de lesões bem definidas, avaliadas sob condições controladas.
O uso no mundo real é diferente. Um usuário doméstico tira uma foto de um ângulo com a iluminação que tiver disponível. A lesão fica em uma pele com pelos ou em uma superfície curva do corpo. A ponteira do dermatoscópio pode não ser pressionada uniformemente. O modelo vê uma única imagem, não um contexto clínico, não o histórico do paciente e nem o restante da pele para a comparação do sinal do patinho feio (ugly duckling).
Mesmo o melhor modelo líder de benchmark perde vários pontos percentuais de sensibilidade quando movido de um conjunto de dados selecionado para a captura doméstica em ambiente real. Isso não é uma falha do modelo; é uma falha da triagem de imagem única e sem contexto.
Onde a IA mais ajuda
A triagem por IA agrega mais valor quando faz coisas nas quais os médicos humanos não são bons ou para as quais não têm tempo.
Documentação: aplicativos assistidos por IA capturam uma linha do tempo estruturada de cada pinta com metadados consistentes, de modo que uma evolução de cinco anos seja fácil de recuperar na próxima consulta dermatológica. Nenhum médico consegue escalar isso sem a ajuda de um software. Triagem: um rastreador de IA baseado em celular pode classificar 30 lesões por pontuação de risco e destacar primeiro as poucas que merecem uma leitura humana mais atenta. Educação: o feedback assistido por IA sobre a qualidade da imagem (foco, iluminação, enquadramento) treina os usuários domésticos a tirar fotos melhores com o dermatoscópio.
Esses usos são sobre documentação e priorização, não diagnóstico.
- Linha do tempo estruturada de pintas ao longo dos anos
- Priorização de lesões de maior risco para acompanhamento clínico
- Feedback de qualidade da imagem durante a captura
- Cadência de lembretes para repetição de fotos
- Relatório imprimível que um dermatologista pode ler em segundos
Onde a IA mais falha
Os modos de falha se agrupam em torno de quatro áreas.
Lesões não melanocíticas: muitas estruturas de pontuação de IA (TDS, 7 pontos) são projetadas para lesões melanocíticas. Quando apontadas para um carcinoma basocelular (Basal Cell Carcinoma - BCC), um fibroma ou uma ceratose seborreica, elas produzem números que são falsamente tranquilizadores ou falsamente alarmantes.
Pele pigmentada: a maioria dos conjuntos de dados publicados super-representa a pele clara. Os modelos de IA frequentemente apresentam desempenho inferior em tons de pele mais escuros, particularmente para o melanoma acral — que é o tipo com maior probabilidade de aparecer na pele mais escura em primeiro lugar.
Qualidade da imagem: baixo brilho, desfoque de movimento, marcas de dedos na lente e contato irregular do dermatoscópio degradam a entrada de dados. Os modelos nem sempre informam ao usuário quando a imagem está ruim; eles podem produzir uma pontuação aparentemente confiante em pixels com ruído.
Estocasticidade: modelos de visão-linguagem não são determinísticos. Executar a mesma imagem duas vezes pode render diagnósticos diferentes, especialmente quando a lesão é dermatoscopicamente ambígua.
Por que a mesma foto dá respostas diferentes
Sistemas modernos de triagem por IA frequentemente usam modelos de visão-linguagem com temperatura de amostragem diferente de zero. Isso significa que o modelo escolhe entre tokens plausíveis a cada etapa, e duas execuções da mesma entrada podem seguir caminhos diferentes. Para um melanoma claro ou um nevo claramente benigno, ambas as execuções geralmente concordam. Para uma lesão ambígua — por exemplo, uma hiperplasia sebácea inicial que se parece vagamente com um BCC inicial — as execuções divergem.
Um aplicativo de triagem por IA bem projetado lida com isso de duas maneiras. Ele reduz a temperatura para a primeira passagem, de modo que uma lesão rotineira e evidente obtenha uma resposta determinística. E, nos casos alarmantes da primeira passagem, ele executa um ensemble — três ou mais leituras independentes — e relata o consenso mais a porcentagem de concordância. Se a concordância for alta, o usuário tem um sinal de triagem confiante. Se a concordância for baixa, o modelo está dizendo que a imagem é ambígua e que uma leitura humana é o que tem peso.
O DermaTrack usa essa estratégia de dois estágios: uma primeira leitura determinística e uma nova tentativa em ensemble sempre que a primeira leitura retornar risco ALTO (HIGH) ou MUITO ALTO (VERY HIGH).
Apoio à triagem, não diagnóstico
Uma ferramenta de triagem por IA é melhor enquadrada como uma camada de triagem que antecede a consulta com o dermatologista, não como um substituto para ela. Ela diz ao usuário: 'esta lesão merece uma análise mais detalhada em breve' ou 'esta lesão parece estável, repita em três meses'. Ela não diz 'isto é melanoma' ou 'isto não é melanoma'.
Tratar a pontuação como um diagnóstico é o erro mais comum do usuário. Uma pontuação BAIXA (LOW) não descarta o câncer; novos sintomas (sangramento, dor, não cicatrização), uma lesão do tipo patinho feio (ugly duckling) ou uma mudança rápida devem sempre anular uma pontuação tranquilizadora. Uma pontuação ALTA (HIGH) não confirma o câncer; muitas pontuações ALTAS são simuladores benignos, e apenas um médico pode decidir se a biópsia é justificada.
Como usar ambos em conjunto
O fluxo de trabalho mais útil combina a documentação doméstica repetida assistida por IA com exames dermatológicos presenciais periódicos.
Em casa: fotografe cada pinta em intervalos consistentes, deixe o aplicativo classificar as lesões por pontuação de risco e mudança recente, e aja sobre as lesões sinalizadas dentro de uma a duas semanas. Na clínica: leve a linha do tempo impressa e as fotos originais de qualquer lesão que o aplicativo tenha sinalizado como ALTA (HIGH) ou que tenha mudado visivelmente. Peça ao dermatologista para realizar uma dermatoscopia ao vivo nessas lesões e fazer um exame de pele de corpo inteiro pelo menos anualmente se você tiver fatores de risco (histórico familiar de melanoma, pele clara com histórico de queimaduras solares, muitos nevos atípicos, imunossupressão, câncer de pele anterior).
Usado dessa forma, o aplicativo de IA faz o trabalho de documentação e priorização para o qual a clínica não tem tempo, e a clínica faz o raciocínio clínico para o qual o modelo não tem contexto.
Perguntas frequentes
Uma verificação de pintas por IA é tão precisa quanto um dermatologista?
Em benchmarks selecionados, os melhores modelos podem se aproximar da sensibilidade de um dermatologista. No uso doméstico no mundo real com fotos únicas de celular, ambos deixam passar algumas coisas — mas de maneiras diferentes. A melhor prática é usá-los em conjunto.
A IA pode substituir um exame de pele anual?
Não. Os aplicativos de triagem por IA documentam e fazem a triagem, mas um exame de pele completo, o julgamento do dermatologista e a capacidade de biópsia são insubstituíveis.
Por que o aplicativo deu uma resposta diferente em uma segunda varredura da mesma pinta?
Os modelos de IA podem ser estocásticos, especialmente em lesões ambíguas. Uma boa ferramenta de triagem executa múltiplas leituras em casos alarmantes e relata a concordância para que você possa ver quando o modelo está incerto.
Com que frequência devo verificar minhas pintas com um aplicativo?
Repita as fotos de base a cada 1 a 3 meses para lesões rastreadas. Aumente a frequência para qualquer lesão que tenha mudado, sangrado ou doído. Sempre marque uma consulta com um médico para alterações repentinas ou sintomáticas.
Fontes
- Esteva A et al. — Dermatologist-level classification of skin cancer (Nature 2017)
- Tschandl P et al. — Comparison of human and machine in melanoma detection (Lancet Oncol 2019)
- Daneshjou R et al. — Disparities in dermatology AI performance on skin of color
- Arquivo ISIC — conjunto de dados público de lesões de pele