Escolar Documentos
Profissional Documentos
Cultura Documentos
Ciência Direta
Pesquisa original
a b
Tito J. Brinker a,b, *, Achim Hekler , Alexandre H. Enk ,
c e d f
Joachim Klode , Axel Hauschild , Carola Berking , Bastian Schilling ,
g c h
,
Sebastian Haferkamp Dirk Schadendorf Jochen S. , Tim Holland-Letz ,
Utikal i,j,1 , Christof von Kalle a,1 , Colaboradores2
a
Centro Nacional de Doenças Tumorais (NCT), Centro Alemão de Pesquisa do Câncer (DKFZ), Im Neuenheimer Feld 460, 69120
Heidelberg, Alemanha
b
Departamento de Dermatologia, Hospital Universitário Heidelberg, Heidelberg, Alemanha
c
Departamento de Dermatologia, Hospital Universitário Essen, Essen, Alemanha
d
Departamento de Dermatologia, Hospital Universitário Kiel, Kiel, Alemanha
e
Departamento de Dermatologia, Hospital Universitário de Munique (LMU), Munique, Alemanha
f
Departamento de Dermatologia, Hospital Universitário Wu¨rzburg, Wu¨rzburg, Alemanha
g Departamento de Dermatologia, Hospital Universitário Regensburg, Regensburg, Alemanha
h
Departamento de Bioestatística, Centro Alemão de Pesquisa do Câncer, Heidelberg, Alemanha
Departamento de Dermatologia, Universidade de Heidelberg, Mannheim, Alemanha
eu
j Unidade de Câncer de Pele, Centro Alemão de Pesquisa do Câncer (DKFZ), Heidelberg, Alemanha
Recebido em 15 de fevereiro de 2019; recebido em formato revisado em 19 de março de 2019; aceito em 2 de abril de 2019
Disponível on-line em 10 de abril de 2019
PALAVRAS-CHAVE Resumo Fundamento: Estudos recentes demonstraram com sucesso o uso de aprendizagem profunda
Melanoma; algoritmos para classificação de lesões suspeitas em nível de dermatologista, pelo uso de bancos de dados de imagens
Câncer de pele; proprietários excessivos e número limitado de dermatologistas. Pela primeira vez, o desempenho de um algoritmo de
Inteligência artificial aprendizagem profunda treinado exclusivamente por imagens de código aberto é comparado a um
grande número de dermatologistas cobrindo todos os níveis da hierarquia clínica.
Métodos: Usamos métodos de aprendizado profundo aprimorado para treinar uma rede neural convolucional
(CNN) com 12.378 imagens dermatoscópicas de código aberto. Utilizamos 100 imagens para comparar o desempenho
da CNN com o dos 157 dermatologistas de 12 hospitais universitários da Alemanha.
*
Autor correspondente: Dr. Titus J. Brinker, Centro Nacional de Doenças Tumorais (NCT), Centro Alemão de Pesquisa do Câncer (DKFZ), Im
Neuenheimer Feld 460, 69120 Heidelberg, Alemanha. Tel.: +496221 3219304; fax: +496221 566967.
Endereço de e-mail: titus.brinker@dkfz.de (TJ Brinker).
1 2
Estes autores contribuíram igualmente para este trabalho. Esses colaboradores estão listados na seção de agradecimentos.
https://doi.org/10.1016/j.ejca.2019.04.001
0959-8049/ª 2019 O(s) Autor(es). Publicado pela Elsevier Ltd. Este é um artigo de acesso aberto sob a licença CC BY-NC-ND (http://
creativecommons.org/licenses/by-nc-nd/4.0/).
Machine Translated by Google
O desempenho superior dos dermatologistas pela rede neural profunda foi medido em termos de sensibilidade,
especificidade e características operacionais do receptor.
Achados: A sensibilidade e a especificidade médias alcançadas pelos dermatologistas com imagens
dermatoscópicas foram de 74,1% (variação 40,0%e100%) e 60% (variação 21,3%e91,3%), respectivamente.
Com uma sensibilidade média de 74,1%, a CNN exibiu uma especificidade média de 86,5% (variação de 70,8%
a 91,3%). Com uma especificidade média de 60%, uma sensibilidade média de 87,5% (variação de 80% a
95%) foi alcançada pelo nosso algoritmo. Entre os dermatologistas, os médicos chefes apresentaram a maior
especificidade média de 69,2% e uma sensibilidade média de 73,3%. Com a mesma especificidade elevada de
69,2%, a CNN teve sensibilidade média de 84,5%.
Interpretação: Uma CNN treinada por imagens de código aberto superou exclusivamente 136 dos 157
dermatologistas e todos os diferentes níveis de experiência (de médicos juniores a médicos-chefes) em termos de
especificidade e sensibilidade médias. ª
2019 O(s) Autor(es). Publicado pela Elsevier Ltd. Este é um artigo de acesso aberto sob a licença CC BY-NC-ND
(http://creativecommons.org/licenses/by-nc-nd/4.0/).
Neste trabalho, treinamos uma CNN com técnicas aprimoradas para As imagens de treinamento e validação também foram selecionadas
classificar imagens de lesões suspeitas como melanoma ou nevos por meio de um gerador aleatório do conjunto de imagens disponíveis
atípicos, utilizando exclusivamente imagens de código aberto. Os no arquivo ISIC, excluindo as imagens de teste já selecionadas. A
resultados da classificação da CNN foram comparados com os esforços proporção dos dados de treinamento e validação foi definida como 1:10,
de 157 dermatologistas de 12 hospitais universitários alemães de todos e a proporção das duas classes foi mantida em 1:4. Isso levou a um
os níveis de formação, incluindo uma pequena subamostra de médicos conjunto de treinamento composto por 1.888 melanomas e 10.490
residentes. nevos atípicos, um conjunto de validação incluindo 210 melanomas e
1.049 nevos atípicos e um conjunto de teste contendo 20 melanomas e
80 nevos atípicos.
2. Métodos
Os conjuntos de teste, treinamento e validação eram separados.
Devido ao grande número de parâmetros livres, o treinamento dessas hospitais na Alemanha [10]. Participaram deste estudo apenas médicos
funções requer um grande número de imagens pelas quais a classe já com prática clínica em dermatologia.
é conhecida. Para cada imagem, a saída da função é calculada, A validação anônima do conjunto de testes foi realizada por meio de
comparada com o rótulo da classe fornecida e então os pesos são um questionário eletrônico. A primeira parte registrou a idade do
ligeiramente modificados para reduzir o erro. Este processo é repetido profissional, sexo, anos de prática/experiência dermatológica, número
muitas vezes para cada imagem no conjunto de treinamento, e a estimado de exames cutâneos realizados e posição na hierarquia
função 'aprende' como prever com precisão os rótulos das classes, médica.
dadas apenas as intensidades de pixel de cada imagem. Ao utilizar Seguiram-se as 100 imagens dermatoscópicas, sendo 80 delas nevos
dados de treinamento que representam adequadamente o possível benignos e 20 melanomas verificados por biópsia. Para cada imagem,
espaço de entrada, o resultado é uma função que apresenta grande os participantes foram solicitados a tomar uma decisão de manejo,
generalidade ao prever os rótulos de classe para imagens para recomendar biópsia/tratamento adicional ou simplesmente
desconhecidas. Neste trabalho foram utilizadas CNNs que se tranquilizar o paciente.
caracterizam por uma arquitetura específica. Em redes neurais
regulares, todo peso, exceto o da primeira camada, é afetado pelas 3.2. Detecção de valores discrepantes
dependências de todos os pixels. Em contraste, as CNNs primeiro
agregam pixels adjacentes locais para reconhecer características
A qualidade dos dados é uma questão importante na utilização de
locais e depois os combinam em características globais.
questionários anónimos, especialmente em condições de participação
obrigatória. Respostas descuidadas e sem sentido devem ser
Essa restrição nas conexões locais resulta em um treinamento mais
identificadas e removidas do conjunto de dados. Neste trabalho,
rápido e em menor complexidade do modelo.
realizamos um processo de limpeza de dados em duas etapas. Para
Neste trabalho, foi utilizado um modelo ResNet50 CNN para a
evitar viés na seleção das entradas de dados, métodos estatísticos
classificação de melanomas e nevos atípicos. Os parâmetros de rede
foram aplicados primeiro. Na segunda etapa de validação, procuramos
foram inicializados usando os pesos da mesma arquitetura de rede
contradições nos metadados dos respondentes. Por exemplo, nenhum
treinada para classificar imagens no conjunto de dados ImageNet [9].
médico estabelecido poderia ter zero anos de experiência profissional.
Detalhes sobre os procedimentos de treinamento aprimorado podem
ser encontrados no Apêndice 1.
Para detecção estatística de outliers, usamos o método do fator
outlier local (LOF) [11]. A decisão de gerenciamento para cada
2.3. Avaliação da CNN imagem distinta pode ser modelada como uma variável binária
categórica. Portanto, o espaço de todas as decisões gerenciais
A CNN treinada gera um número contínuo entre 0 e 1 para cada possíveis consistia em 100 dimensões, uma para cada imagem de
imagem de entrada, que pode ser interpretado como a probabilidade teste, e cada dimensão era uma variável de valor discreto com dois
de um melanoma estar presente na imagem de entrada. Para uma valores possíveis.
tarefa de decisão binária, é necessário especificar um valor operacional, O algoritmo LOF é um método não supervisionado que determina o
que se excedido, faz com que a imagem de entrada seja classificada desvio da densidade local de um ponto distinto em relação aos seus
como melanoma. Esta seleção de parâmetro permite ajustar a vizinhos. O fator é próximo de 1,0 se um ponto estiver localizado em
compensação entre sensibilidade e especificidade. Foram selecionados um subespaço onde muitos outros pontos podem ser encontrados. No
dois valores operacionais para o algoritmo; o primeiro valor operacional nosso caso, isso significou que houve respostas muito semelhantes
aproximou-se da especificidade média de 69,2% alcançada pelos de dermatologistas, que diferiram apenas ligeiramente entre si. Para
médicos-chefes do conjunto de testes, enquanto o segundo valor os entrevistados que apresentaram grandes desvios nas respostas, o
operacional correspondeu a uma sensibilidade de 76,7% para valor foi significativamente maior, indicando os outliers. Neste trabalho,
detecção de melanomas, pré-requisito necessário para a aplicação do consideramos os 30 vizinhos mais próximos de cada resposta, mas os
algoritmo como uma ferramenta de triagem. outliers detectados não dependeram da seleção exata do parâmetro.
Dos 175 conjuntos de dados criados por dermatologistas, 18 valores discrepantes foram A curva média da característica operacional do receptor (ROC)
detectado pelo método LOF, que representou 10,3% ao longo de todas as 10 execuções é mostrado na Fig. 2 (linha azul) em
de todas as entradas. Este valor está de acordo, em ordem de comparação com os 157 dermatologistas (pontos vermelhos).
grandeza, com estudos anteriores da literatura. Maníaco A média de sensibilidade e especificidade dos dermatologistas foi
e outros. descobriram que cerca de 3e9% dos entrevistados em um de 74,1% (variação 40,0%e100%) e 60% (variação
questionário não respondeu às perguntas cuidadosamente em 21,3%e91,3%), respectivamente (YI Z 0,34). Em uma média
todos [12]. Para validação da detecção de outlier escolhida sensibilidade de 74,1%, a CNN teve uma especificidade média de
método, verificamos os metadados fornecidos em busca de 86,5% (variação 70,8%e91,3%, YI Z 0,61). Comparado
contradições. Para cinco entradas, as informações fornecidas foram com os dermatologistas esta é uma diferença relevante, mas não
considerado muito duvidoso. Todas essas entradas suspeitas significativa (p Z 0,31). Para uma especificidade média de
foram detectados pelo método LOF como outliers, então 60%, uma sensibilidade média de 87,5% (faixa 80%e95%,
considerou a detecção de outlier adequada. Finalmente, YI Z 0,48) foi alcançado pelo nosso algoritmo.
todos os 18 outliers foram removidos do conjunto de dados, e o O desempenho médio dos médicos de todos
permaneceram respostas válidas de 157 dermatologistas. Nisso diferentes níveis de hierarquia dentro da dermatologia (de
total, 56 (35,7%) eram do sexo masculino e 101 (64,3%) do feminino. médicos juniores a médicos chefes) é mostrado na Fig .
A mediana de anos de experiência é de 4 anos, e o Um desempenho superior de todos esses subgrupos em termos de
a distribuição para os participantes é mostrada na Figura 1. resultados médios foram alcançados pelo nosso algoritmo.
Dos participantes, 56,1% eram médicos juniores Os dois valores operacionais do algoritmo, o
(residentes de dermatologia) e 43,9% eram certificados pelo conselho. sensibilidade e especificidade, foram calculadas em relação a
Além dos 151 (96,2%) médicos atuantes no os rótulos de classe documentados no arquivo ISIC. Usando
hospitais, havia também seis (3,8%) médicos residentes o primeiro valor operacional em alta especificidade, aproximando-se
dermatológicos trabalhando em consultório particular. A atuação dos da alta especificidade média dos médicos-chefes para
dermatologistas, expressa em diversas No conjunto de teste, a sensibilidade média do algoritmo foi de 84,5%.
recursos, estão resumidos na Tabela 1. Esse valor superou a sensibilidade média correspondente dos
médicos chefes de 73,3%.
Figura 1. Distribuição dos anos de experiência de participação Figura 2. Curva média da característica operacional do receptor (ROC)
dermatologistas. em todas as 10 execuções. CNN, rede neural convolucional.
Machine Translated by Google
Foi avaliado um segundo valor operacional para o algoritmo, Ao analisar os resultados dos dermatologistas com base em
baseado na alta sensibilidade dos médicos residentes. suas posições na hierarquia clínica, percebe-se que os médicos
Utilizando esse valor operacional, o algoritmo apresentou juniores apresentaram alta sensibilidade, mas baixa
sensibilidade de 76% e especificidade de 81,7%, em média. especificidade. Eles tendem a superdiagnosticar as lesões para
Em comparação com os resultados dos médicos residentes, não detectar o menor número possível de melanomas. Com
que alcançaram uma sensibilidade média de 67,7% e uma entrevistados hospitalares de alto escalão e com mais anos de
especificidade média de 65,8% no conjunto de testes, a experiência profissional, a especificidade aumentou
especificidade média da CNN foi melhor em 15,9 pontos substancialmente, enquanto a sensibilidade permaneceu
percentuais, aproximadamente com a mesma sensibilidade. aproximadamente a mesma.
A Figura 4 mostra todas as lesões nas quais a maioria dos Em contraste com publicações anteriores [3e5] que
avaliadores humanos e a maioria dos testes da CNN compararam o desempenho de uma CNN com o de
discordaram: dermatologistas, nosso estudo relata a natureza estocástica do
resultado. Acreditamos que é obrigatório descrever o
5. Discussão desempenho geral de um algoritmo, porque o procedimento de
treinamento e avaliação de uma CNN inclui componentes
Uma CNN treinada exclusivamente com imagens de código estocásticos, como a divisão aleatória de imagens de
aberto foi capaz de superar dermatologistas de todas as treinamento e validação, descida gradiente estocástica e
categorias hierárquicas de experiência (de médicos juniores a inicialização aleatória do algoritmo. parâmetros.
médicos-chefes) na classificação de imagens dermoscópicas
de melanoma. Apenas sete dos 157 dermatologistas tiveram Ao comparar os resultados de diferentes treinos, é notável
melhores valores correspondentes de especificidade e que a qualidade da classificação diferiu apenas ligeiramente.
sensibilidade do que a CNN. Publicações anteriores que Em contrapartida, o desempenho dos dermatologistas
compararam o desempenho de uma CNN com dermatologistas apresentou grande variação.
envolveram 8, 21 ou 58 dermatologistas [3e5]. Este estudo Existem algumas limitações neste sistema. Permanece uma
excede significativamente esses números ao incluir 157 questão em aberto se o desenho do questionário teve alguma
dermatologistas de 12 hospitais universitários alemães. Isso influência no desempenho dos dermatologistas em comparação
permite uma comparação mais refinada com maior validade com os ambientes clínicos.
externa, que abrange todas as posições hierárquicas no cenário Além disso, os encontros clínicos com pacientes reais fornecem
da experiência e especialização dermatológica. Além disso, mais informações do que aquelas que podem ser fornecidas
todas as publicações citadas utilizaram imagens proprietárias apenas pelas imagens. Ha¨nßle et al. mostraram que dados
de grandes arquivos de departamentos dermatológicos [3e5] clínicos adicionais melhoram ligeiramente a sensibilidade e a
e, portanto, não puderam ser reproduzidas publicamente especificidade dos dermatologistas [5]. Técnicas de
porque as imagens de treinamento e do conjunto de testes não aprendizado de máquina também podem incluir essas
foram disponibilizadas publicamente. Porque usamos apenas informações em suas decisões. Porém, mesmo com essa
ligeira
imagens de código aberto e fornecemos nosso conjunto de testes como ummelhora,
apêndicea CNN
do ainda superaria os dermatologistas.
Machine Translated by Google
Figura 4. Lesões sobre as quais a maioria dos avaliadores humanos e a maioria dos testes da CNN discordaram. CNN, rede neural convolucional.
Financiamento Sebastian Mastnik, Suzan Nasifoglu, Cristel Ruini, Elke Sattler, Max
Schlaak, Hans Wolff; Regensburg: Birgit Achatz, Astrid Bergbreiter,
Nenhum financiamento externo foi obtido. Konstantin Drexler, Mon-ika Ettinger, Sebastian Haferkamp, Anna
Halupczok, Marie Hegemann, Verena Dinauer, Maria Maagk, Marion
Declaração de conflito de interesse Mickler, Biance Philipp, Anna Wilm, Constanze Wittmann e Wu¨rzburg:
Anja Gesierich, Valerie Glutsch, Katrin Kahlert, Andreas Kerstan, Bastian
Schilling e Philipp Schrüfer.
Os autores declaram não haver interesses concorrentes relevantes
para este estudo.
método de recozimento de cosseno, que diminui a taxa de [3] Esteva A, Kuprel B, Novoa RA, Ko J, Swetter SM, Blau HM, et al. Classificação
aprendizagem com base em uma função cosseno. do câncer de pele em nível de dermatologista com redes neurais profundas.
Natureza 2017;542(7639):115.
A terceira técnica de treinamento aprimorada abordou o problema
[4] Marchetti MA, Codella NC, Dusza SW, Gutman DA, Helba B, Kalloo A, et al.
de que o processo de otimização pode ficar preso em um mínimo local, Resultados do simpósio internacional de colaboração internacional em
em vez de global. Para superar este problema, a taxa de aprendizagem imagens da pele de 2016 sobre o desafio da imagem biomédica : comparação
foi repentinamente aumentada em alguns intervalos de tempo da precisão dos algoritmos de computador com dermatologistas para o
diagnóstico de melanoma a partir de imagens dermatoscópicas. J Am Acad
específicos e, assim, o processo de otimização pode ser capaz de
Dermatol 2018;78(2):270e7. e271.
escapar de um mínimo local e atingir o mínimo global. Essa técnica é
[5] Haenssle H, Fink C, Schneiderbauer R, Toberer F, Buhl T, Blum A, et al.
chamada de descida gradiente estocástica com reinicialização (SGDR), Homem contra máquina: desempenho diagnóstico de uma rede neural
uma ideia que Loshchilov et al. [1]. convolucional de aprendizagem profunda para reconhecimento
dermatoscópico de melanoma em comparação com 58 dermatologistas.
Ann Oncol 2018;29(8):1836e42.
Para documentar o desempenho do algoritmo e das técnicas de
[6] Brinker Titus J, Hekler Achim, Enk Alexander H, Klode Joachim, Hauschild
treinamento aprimoradas com a maior precisão possível, treinamos
Axel, Berking Carola, et al. Uma rede neural convolucional treinada com
novamente a CNN um total de 10 vezes, e cada execução de imagens dermatoscópicas teve um desempenho equivalente ao de 145
treinamento consistiu em 13 épocas. dermatologistas em uma tarefa de classificação de imagens de melanoma
1. Loshchilov I, Hutter F. Descida gradiente estocástica com reinicializações clínico. Eur J Câncer 2019;111:148e54.
[7] Brinker TJ, Hekler A, Utikal JS, Grabe N, Schadendorf D, Klode J, et al.
quentes. 2016:2e8; https://arxiv.org/abs/1608.03983 .
Classificação do câncer de pele utilizando redes neurais convolucionais:
revisão sistemática. J Med Internet Res 2018; 20(10):e11936.
Apêndice A. Dados suplementares [8] Gutman D, Codella NC, Celebi E, Helba B, Marchetti M, Mishra N, et al.
Análise de lesões cutâneas para detecção de melanoma: um desafio no
simpósio internacional de imagens biomédicas (ISBI) 2016, organizado pela
Conjunto de teste de 100 imagens dermatoscópicas (a utilização do conjunto de
colaboração internacional de imagens de pele (ISIC). 2016. pré-impressão
teste requer a citação deste artigo). Dados complementares a este artigo podem arXiv arXiv:160501397.
ser encontrados online em https://doi.org/10.1016/j.ejca.2019.04.001 . [9] Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, et al.
Desafio de reconhecimento visual em grande escala da Imagenet. Int J
Comput Vis 2015;115(3):211e52.
[10] Brinker Titus J, Hekler Achim, Hauschild Axel, Berking Carola, Schilling
Bastian, Enk Alexander H, et al. Comparando algoritmos de inteligência
Referências artificial com 157 dermatologistas alemães: o benchmark de classificação
do melanoma. Eur J Câncer 2019;111:30e7.
[1] Schadendorf D, van Akkooi AC, Berking C, Griewank KG, Gutzmer R, Hauschild A, et [11] Breunig MM, Kriegel HP, Ng RT, Sander JLOF. Identificação de valores
al. Melanoma. Lancet 2018;392(10151): 971e84. discrepantes locais com base na densidade. In: Registro sigmod ACM: 2000.
ACM; 2000. pág. 93e104.
[2] Carli P, Quercioli E, Sestini S, Stante M, Ricci L, Brunasso G, et al. A análise [12] Maniaci MR, Rogge R. Cuidando do descuido: desatenção dos participantes e seus
de padrões, e não algoritmos simplificados, é o método mais confiável para efeitos na pesquisa. J Res Pessoal 2014;48: 61e83.
ensinar dermatoscopia para diagnóstico de melanoma a residentes em
dermatologia. Br J Dermatol 2003;148(5):981e4.