Brinker, 2019

Machine Translated by Google
Jornal Europeu do Câncer 113 (2019) 47e54
Disponível on-line em www.sciencedirect.com
Ciência Direta
página inicial da revista: www.ejcancer.com
Pesquisa original
O aprendizado profundo superou 136 dos 157 dermatologistas em

uma imagem dermatoscópica de melanoma frente a frente
tarefa de classificação
a b
Tito J. Brinker a,b, *, Achim Hekler , Alexandre H. Enk ,
c e d f
Joachim Klode , Axel Hauschild , Carola Berking , Bastian Schilling ,
g c h
,
Sebastian Haferkamp Dirk Schadendorf Jochen S. , Tim Holland-Letz ,
Utikal i,j,1 , Christof von Kalle a,1 , Colaboradores2
a
Centro Nacional de Doenças Tumorais (NCT), Centro Alemão de Pesquisa do Câncer (DKFZ), Im Neuenheimer Feld 460, 69120
Heidelberg, Alemanha
b
Departamento de Dermatologia, Hospital Universitário Heidelberg, Heidelberg, Alemanha
c
Departamento de Dermatologia, Hospital Universitário Essen, Essen, Alemanha
d
Departamento de Dermatologia, Hospital Universitário Kiel, Kiel, Alemanha
e
Departamento de Dermatologia, Hospital Universitário de Munique (LMU), Munique, Alemanha
f
Departamento de Dermatologia, Hospital Universitário Wu¨rzburg, Wu¨rzburg, Alemanha
g Departamento de Dermatologia, Hospital Universitário Regensburg, Regensburg, Alemanha
h
Departamento de Bioestatística, Centro Alemão de Pesquisa do Câncer, Heidelberg, Alemanha
Departamento de Dermatologia, Universidade de Heidelberg, Mannheim, Alemanha
eu
j Unidade de Câncer de Pele, Centro Alemão de Pesquisa do Câncer (DKFZ), Heidelberg, Alemanha
Recebido em 15 de fevereiro de 2019; recebido em formato revisado em 19 de março de 2019; aceito em 2 de abril de 2019
Disponível on-line em 10 de abril de 2019
PALAVRAS-CHAVE Resumo Fundamento: Estudos recentes demonstraram com sucesso o uso de aprendizagem profunda
Melanoma; algoritmos para classificação de lesões suspeitas em nível de dermatologista, pelo uso de bancos de dados de imagens
Câncer de pele; proprietários excessivos e número limitado de dermatologistas. Pela primeira vez, o desempenho de um algoritmo de
Inteligência artificial aprendizagem profunda treinado exclusivamente por imagens de código aberto é comparado a um
grande número de dermatologistas cobrindo todos os níveis da hierarquia clínica.
Métodos: Usamos métodos de aprendizado profundo aprimorado para treinar uma rede neural convolucional
(CNN) com 12.378 imagens dermatoscópicas de código aberto. Utilizamos 100 imagens para comparar o desempenho
da CNN com o dos 157 dermatologistas de 12 hospitais universitários da Alemanha.
*
Autor correspondente: Dr. Titus J. Brinker, Centro Nacional de Doenças Tumorais (NCT), Centro Alemão de Pesquisa do Câncer (DKFZ), Im
Neuenheimer Feld 460, 69120 Heidelberg, Alemanha. Tel.: +496221 3219304; fax: +496221 566967.
Endereço de e-mail: titus.brinker@dkfz.de (TJ Brinker).
1 2
Estes autores contribuíram igualmente para este trabalho. Esses colaboradores estão listados na seção de agradecimentos.
https://doi.org/10.1016/j.ejca.2019.04.001
0959-8049/ª 2019 O(s) Autor(es). Publicado pela Elsevier Ltd. Este é um artigo de acesso aberto sob a licença CC BY-NC-ND (http://
creativecommons.org/licenses/by-nc-nd/4.0/).
48 TJ Brinker et al. / Jornal Europeu do Câncer 113 (2019) 47e54
O desempenho superior dos dermatologistas pela rede neural profunda foi medido em termos de sensibilidade,
especificidade e características operacionais do receptor.
Achados: A sensibilidade e a especificidade médias alcançadas pelos dermatologistas com imagens
dermatoscópicas foram de 74,1% (variação 40,0%e100%) e 60% (variação 21,3%e91,3%), respectivamente.
Com uma sensibilidade média de 74,1%, a CNN exibiu uma especificidade média de 86,5% (variação de 70,8%
a 91,3%). Com uma especificidade média de 60%, uma sensibilidade média de 87,5% (variação de 80% a
95%) foi alcançada pelo nosso algoritmo. Entre os dermatologistas, os médicos chefes apresentaram a maior
especificidade média de 69,2% e uma sensibilidade média de 73,3%. Com a mesma especificidade elevada de
69,2%, a CNN teve sensibilidade média de 84,5%.
Interpretação: Uma CNN treinada por imagens de código aberto superou exclusivamente 136 dos 157
dermatologistas e todos os diferentes níveis de experiência (de médicos juniores a médicos-chefes) em termos de
especificidade e sensibilidade médias. ª
2019 O(s) Autor(es). Publicado pela Elsevier Ltd. Este é um artigo de acesso aberto sob a licença CC BY-NC-ND
(http://creativecommons.org/licenses/by-nc-nd/4.0/).
1. Introdução O diagnóstico de nevos foi feito por exame histopatológico (w24%),

consenso de especialistas (w54%) ou por outro método de diagnóstico,
O câncer de pele é a doença maligna mais comum em populações de como uma série de imagens que não mostraram alterações temporais
pele clara, e o melanoma é responsável pela maioria das mortes (w22%). Todas as imagens eram anônimas e de código aberto.
relacionadas ao câncer de pele em todo o mundo [1].
Apesar do treinamento especial e do uso de dermatoscópios, os Para comparar o desempenho do método de diagnóstico digital
dermatologistas raramente alcançam sensibilidades nos testes clínicos automatizado com o dos dermatologistas, foi criado um conjunto de
superiores a 80% [2]. Em 2017, Esteva et al. [3] foram os primeiros a testes com um total de 100 imagens de melanomas e nevos atípicos. A
relatar um classificador de imagens de rede neural convolucional (CNN) utilização de apenas 100 imagens permitiu a participação de um grande
de aprendizagem profunda que teve um desempenho tão bom quanto número de dermatologistas no teste, dado o tempo necessário para
21 dermatologistas certificados ao identificar imagens com lesões revisão de todas as imagens.
malignas. A CNN desconstruiu imagens digitais de lesões de pele e Para evitar vieses na criação do conjunto de testes, implementamos
gerou critérios próprios de diagnóstico para detecção de melanoma um gerador aleatório, que selecionou 80 imagens de teste de todos os
durante o treinamento. Várias publicações de acompanhamento de nevos atípicos e 20 imagens de teste de todos os melanomas
outros autores demonstraram a classificação do câncer de pele em disponíveis no arquivo ISIC. A proporção escolhida das aulas foi
nível de dermatologista usando redes neurais profundas (CNN) [4e7]. baseada no conjunto de testes e treinamento para o desafio do
No entanto, essas publicações envolveram um número limitado de Simpósio Internacional de Imagens Biomédicas 2016 [8]. Embora esta
dermatologistas e bancos de dados de imagens proprietários e, proporção não reflita a frequência do diagnóstico na prática clínica, a
portanto, não foram totalmente reproduzíveis nem permitiram uma qualidade estatística do teste é melhorada quando um número suficiente
comparação refinada. de melanomas está no conjunto de testes.
Neste trabalho, treinamos uma CNN com técnicas aprimoradas para As imagens de treinamento e validação também foram selecionadas
classificar imagens de lesões suspeitas como melanoma ou nevos por meio de um gerador aleatório do conjunto de imagens disponíveis
atípicos, utilizando exclusivamente imagens de código aberto. Os no arquivo ISIC, excluindo as imagens de teste já selecionadas. A
resultados da classificação da CNN foram comparados com os esforços proporção dos dados de treinamento e validação foi definida como 1:10,
de 157 dermatologistas de 12 hospitais universitários alemães de todos e a proporção das duas classes foi mantida em 1:4. Isso levou a um
os níveis de formação, incluindo uma pequena subamostra de médicos conjunto de treinamento composto por 1.888 melanomas e 10.490
residentes. nevos atípicos, um conjunto de validação incluindo 210 melanomas e
1.049 nevos atípicos e um conjunto de teste contendo 20 melanomas e
80 nevos atípicos.
2. Métodos
Os conjuntos de teste, treinamento e validação eram separados.
2.1. Conjuntos de dados
2.2. Desenvolvimento do algoritmo

Para desenvolver o algoritmo, imagens dermatoscópicas de melanomas
e nevos atípicos foram obtidas do arquivo de imagens da International Do ponto de vista matemático, as redes neurais profundas podem ser
Skin Imaging Collaboration (ISIC) [8]. Este arquivo de imagens continha interpretadas como funções com milhões de parâmetros livremente
um total de 2.169 melanomas e 18.566 nevos atípicos em 17 de outubro configuráveis, chamados pesos. Esses pesos são ajustados para uma
de 2018. Os diagnósticos de todos os melanomas foram verificados por determinada tarefa de classificação de imagens de tal forma que as
meio de avaliação histopatológica de biópsias. O diagnóstico intensidades dos pixels em uma imagem de entrada sejam mapeadas
para uma probabilidade de rótulo de classe. Por causa de
TJ Brinker et al. / Jornal Europeu do Câncer 113 (2019) 47e54 49
Devido ao grande número de parâmetros livres, o treinamento dessas hospitais na Alemanha [10]. Participaram deste estudo apenas médicos
funções requer um grande número de imagens pelas quais a classe já com prática clínica em dermatologia.
é conhecida. Para cada imagem, a saída da função é calculada, A validação anônima do conjunto de testes foi realizada por meio de
comparada com o rótulo da classe fornecida e então os pesos são um questionário eletrônico. A primeira parte registrou a idade do
ligeiramente modificados para reduzir o erro. Este processo é repetido profissional, sexo, anos de prática/experiência dermatológica, número
muitas vezes para cada imagem no conjunto de treinamento, e a estimado de exames cutâneos realizados e posição na hierarquia
função 'aprende' como prever com precisão os rótulos das classes, médica.
dadas apenas as intensidades de pixel de cada imagem. Ao utilizar Seguiram-se as 100 imagens dermatoscópicas, sendo 80 delas nevos
dados de treinamento que representam adequadamente o possível benignos e 20 melanomas verificados por biópsia. Para cada imagem,
espaço de entrada, o resultado é uma função que apresenta grande os participantes foram solicitados a tomar uma decisão de manejo,
generalidade ao prever os rótulos de classe para imagens para recomendar biópsia/tratamento adicional ou simplesmente
desconhecidas. Neste trabalho foram utilizadas CNNs que se tranquilizar o paciente.
caracterizam por uma arquitetura específica. Em redes neurais
regulares, todo peso, exceto o da primeira camada, é afetado pelas 3.2. Detecção de valores discrepantes
dependências de todos os pixels. Em contraste, as CNNs primeiro
agregam pixels adjacentes locais para reconhecer características
A qualidade dos dados é uma questão importante na utilização de
locais e depois os combinam em características globais.
questionários anónimos, especialmente em condições de participação
obrigatória. Respostas descuidadas e sem sentido devem ser
Essa restrição nas conexões locais resulta em um treinamento mais
identificadas e removidas do conjunto de dados. Neste trabalho,
rápido e em menor complexidade do modelo.
realizamos um processo de limpeza de dados em duas etapas. Para
Neste trabalho, foi utilizado um modelo ResNet50 CNN para a
evitar viés na seleção das entradas de dados, métodos estatísticos
classificação de melanomas e nevos atípicos. Os parâmetros de rede
foram aplicados primeiro. Na segunda etapa de validação, procuramos
foram inicializados usando os pesos da mesma arquitetura de rede
contradições nos metadados dos respondentes. Por exemplo, nenhum
treinada para classificar imagens no conjunto de dados ImageNet [9].
médico estabelecido poderia ter zero anos de experiência profissional.
Detalhes sobre os procedimentos de treinamento aprimorado podem
ser encontrados no Apêndice 1.
Para detecção estatística de outliers, usamos o método do fator
outlier local (LOF) [11]. A decisão de gerenciamento para cada
2.3. Avaliação da CNN imagem distinta pode ser modelada como uma variável binária
categórica. Portanto, o espaço de todas as decisões gerenciais
A CNN treinada gera um número contínuo entre 0 e 1 para cada possíveis consistia em 100 dimensões, uma para cada imagem de
imagem de entrada, que pode ser interpretado como a probabilidade teste, e cada dimensão era uma variável de valor discreto com dois
de um melanoma estar presente na imagem de entrada. Para uma valores possíveis.
tarefa de decisão binária, é necessário especificar um valor operacional, O algoritmo LOF é um método não supervisionado que determina o
que se excedido, faz com que a imagem de entrada seja classificada desvio da densidade local de um ponto distinto em relação aos seus
como melanoma. Esta seleção de parâmetro permite ajustar a vizinhos. O fator é próximo de 1,0 se um ponto estiver localizado em
compensação entre sensibilidade e especificidade. Foram selecionados um subespaço onde muitos outros pontos podem ser encontrados. No
dois valores operacionais para o algoritmo; o primeiro valor operacional nosso caso, isso significou que houve respostas muito semelhantes
aproximou-se da especificidade média de 69,2% alcançada pelos de dermatologistas, que diferiram apenas ligeiramente entre si. Para
médicos-chefes do conjunto de testes, enquanto o segundo valor os entrevistados que apresentaram grandes desvios nas respostas, o
operacional correspondeu a uma sensibilidade de 76,7% para valor foi significativamente maior, indicando os outliers. Neste trabalho,
detecção de melanomas, pré-requisito necessário para a aplicação do consideramos os 30 vizinhos mais próximos de cada resposta, mas os
algoritmo como uma ferramenta de triagem. outliers detectados não dependeram da seleção exata do parâmetro.
Essa alta sensibilidade foi alcançada, em média, pelos médicos

residentes no conjunto de teste de 100 imagens dermatoscópicas.
Para avaliar o algoritmo, foi traçada a curva operacional do receptor
3.3. Análise estatística
(ROC), variando o valor operacional entre 0 e 1 e calculando a
sensibilidade e especificidade correspondentes.
Como a sensibilidade e a especificidade da CNN dependem do ponto
de corte escolhido, esses valores não puderam ser comparados
individualmente entre os métodos. Em vez disso, foi comparado o
3. Medição de desempenho de dermatologistas 'índice de Youden' (sensibilidade YI Z + especificidade-1), avaliado
principalmente no ponto de corte de sensibilidade de 74,1%.
3.1. Questionário eletrônico As diferenças foram testadas quanto à significância com um teste
binomial bilateral de duas amostras usando a aproximação da distribuição
O conjunto de testes, composto por 100 imagens dermatoscópicas, foi normal. O nível de significância foi definido como Z 0,05.
examinado por 175 dermatologistas de 12 universidades
3.4. Aprovação ética tabela 1

Desempenho diagnóstico dos dermatologistas para o conjunto de testes de 100
imagens dermatoscópicas.
O comitê de ética da Universidade de Heidelberg
Amostra Sensibilidade Especificidade ROC
dispensou a necessidade de aprovação ética porque todos os
Todos os participantes (nZ157) 74,1% 60,0% 0,671
dermatologistas participando voluntariamente do leitor
Hospital universitário (n Z 151) 74,0% 59,8% 0,669
estudo foram anônimos e o treinamento de um artificial
Médicos residentes (n Z 6) 76,7% 65,8% 0,713
algoritmo de inteligência foi conduzido com código aberto
Posição na hierarquia hospitalar
imagens. Médicos juniores (n Z 88) 74,8% 58,2% 0,665
Atendimentos (n Z 15) 72,7% 60,0% 0,664
Médicos seniores (n Z 45) 73,0% 62,3% 0,677
Médicos-chefes (n Z 3) 73,3% 69,2% 0,713
4. Resultados
4.1. Atuação dos dermatologistas 4.2. Análise estatística e comparação de desempenho
Dos 175 conjuntos de dados criados por dermatologistas, 18 valores discrepantes foram A curva média da característica operacional do receptor (ROC)
detectado pelo método LOF, que representou 10,3% ao longo de todas as 10 execuções é mostrado na Fig. 2 (linha azul) em
de todas as entradas. Este valor está de acordo, em ordem de comparação com os 157 dermatologistas (pontos vermelhos).
grandeza, com estudos anteriores da literatura. Maníaco A média de sensibilidade e especificidade dos dermatologistas foi
e outros. descobriram que cerca de 3e9% dos entrevistados em um de 74,1% (variação 40,0%e100%) e 60% (variação
questionário não respondeu às perguntas cuidadosamente em 21,3%e91,3%), respectivamente (YI Z 0,34). Em uma média
todos [12]. Para validação da detecção de outlier escolhida sensibilidade de 74,1%, a CNN teve uma especificidade média de
método, verificamos os metadados fornecidos em busca de 86,5% (variação 70,8%e91,3%, YI Z 0,61). Comparado
contradições. Para cinco entradas, as informações fornecidas foram com os dermatologistas esta é uma diferença relevante, mas não
considerado muito duvidoso. Todas essas entradas suspeitas significativa (p Z 0,31). Para uma especificidade média de
foram detectados pelo método LOF como outliers, então 60%, uma sensibilidade média de 87,5% (faixa 80%e95%,
considerou a detecção de outlier adequada. Finalmente, YI Z 0,48) foi alcançado pelo nosso algoritmo.
todos os 18 outliers foram removidos do conjunto de dados, e o O desempenho médio dos médicos de todos
permaneceram respostas válidas de 157 dermatologistas. Nisso diferentes níveis de hierarquia dentro da dermatologia (de
total, 56 (35,7%) eram do sexo masculino e 101 (64,3%) do feminino. médicos juniores a médicos chefes) é mostrado na Fig .
A mediana de anos de experiência é de 4 anos, e o Um desempenho superior de todos esses subgrupos em termos de
a distribuição para os participantes é mostrada na Figura 1. resultados médios foram alcançados pelo nosso algoritmo.
Dos participantes, 56,1% eram médicos juniores Os dois valores operacionais do algoritmo, o
(residentes de dermatologia) e 43,9% eram certificados pelo conselho. sensibilidade e especificidade, foram calculadas em relação a
Além dos 151 (96,2%) médicos atuantes no os rótulos de classe documentados no arquivo ISIC. Usando
hospitais, havia também seis (3,8%) médicos residentes o primeiro valor operacional em alta especificidade, aproximando-se
dermatológicos trabalhando em consultório particular. A atuação dos da alta especificidade média dos médicos-chefes para
dermatologistas, expressa em diversas No conjunto de teste, a sensibilidade média do algoritmo foi de 84,5%.
recursos, estão resumidos na Tabela 1. Esse valor superou a sensibilidade média correspondente dos
médicos chefes de 73,3%.
Figura 1. Distribuição dos anos de experiência de participação Figura 2. Curva média da característica operacional do receptor (ROC)
dermatologistas. em todas as 10 execuções. CNN, rede neural convolucional.
Embora esta publicação divulgue o procedimento completo de

treinamento de nosso algoritmo, nosso experimento é
totalmente reproduzível (Apêndice 2).
Uma CNN para o diagnóstico de lesões melanocíticas
oferece muitas vantagens, incluindo uma interpretação
consistente, porque a CNN atribui uma classe distinta a cada
imagem específica a cada momento e diagnósticos mais
precisos do que especialistas humanos de todos os níveis de treinamento.
Além disso, ao definir o valor operacional, o equilíbrio entre
sensibilidade e especificidade pode ser adaptado aos requisitos
do ambiente clínico específico. Por exemplo, em uma
configuração de triagem, é desejada alta sensibilidade, de
modo que o valor operacional possa ser diminuído de acordo.
A Figura 4 ilustra as lesões sobre as quais a maioria dos
Figura 3. Desempenho médio dos médicos de todos os diferentes níveis de
dermatologistas e a maioria dos testes da CNN discordaram:
hierarquia dentro da dermatologia (de médicos juniores a médicos chefes). CNN,
rede neural convolucional.
CNNs e humanos aplicam diferentes técnicas para identificar
melanoma que poderiam se complementar para diagnósticos
mais precisos na forma de sistemas assistentes .
Foi avaliado um segundo valor operacional para o algoritmo, Ao analisar os resultados dos dermatologistas com base em
baseado na alta sensibilidade dos médicos residentes. suas posições na hierarquia clínica, percebe-se que os médicos
Utilizando esse valor operacional, o algoritmo apresentou juniores apresentaram alta sensibilidade, mas baixa
sensibilidade de 76% e especificidade de 81,7%, em média. especificidade. Eles tendem a superdiagnosticar as lesões para
Em comparação com os resultados dos médicos residentes, não detectar o menor número possível de melanomas. Com
que alcançaram uma sensibilidade média de 67,7% e uma entrevistados hospitalares de alto escalão e com mais anos de
especificidade média de 65,8% no conjunto de testes, a experiência profissional, a especificidade aumentou
especificidade média da CNN foi melhor em 15,9 pontos substancialmente, enquanto a sensibilidade permaneceu
percentuais, aproximadamente com a mesma sensibilidade. aproximadamente a mesma.
A Figura 4 mostra todas as lesões nas quais a maioria dos Em contraste com publicações anteriores [3e5] que
avaliadores humanos e a maioria dos testes da CNN compararam o desempenho de uma CNN com o de
discordaram: dermatologistas, nosso estudo relata a natureza estocástica do
resultado. Acreditamos que é obrigatório descrever o
5. Discussão desempenho geral de um algoritmo, porque o procedimento de
treinamento e avaliação de uma CNN inclui componentes
Uma CNN treinada exclusivamente com imagens de código estocásticos, como a divisão aleatória de imagens de
aberto foi capaz de superar dermatologistas de todas as treinamento e validação, descida gradiente estocástica e
categorias hierárquicas de experiência (de médicos juniores a inicialização aleatória do algoritmo. parâmetros.
médicos-chefes) na classificação de imagens dermoscópicas
de melanoma. Apenas sete dos 157 dermatologistas tiveram Ao comparar os resultados de diferentes treinos, é notável
melhores valores correspondentes de especificidade e que a qualidade da classificação diferiu apenas ligeiramente.
sensibilidade do que a CNN. Publicações anteriores que Em contrapartida, o desempenho dos dermatologistas
compararam o desempenho de uma CNN com dermatologistas apresentou grande variação.
envolveram 8, 21 ou 58 dermatologistas [3e5]. Este estudo Existem algumas limitações neste sistema. Permanece uma
excede significativamente esses números ao incluir 157 questão em aberto se o desenho do questionário teve alguma
dermatologistas de 12 hospitais universitários alemães. Isso influência no desempenho dos dermatologistas em comparação
permite uma comparação mais refinada com maior validade com os ambientes clínicos.
externa, que abrange todas as posições hierárquicas no cenário Além disso, os encontros clínicos com pacientes reais fornecem
da experiência e especialização dermatológica. Além disso, mais informações do que aquelas que podem ser fornecidas
todas as publicações citadas utilizaram imagens proprietárias apenas pelas imagens. Ha¨nßle et al. mostraram que dados
de grandes arquivos de departamentos dermatológicos [3e5] clínicos adicionais melhoram ligeiramente a sensibilidade e a
e, portanto, não puderam ser reproduzidas publicamente especificidade dos dermatologistas [5]. Técnicas de
porque as imagens de treinamento e do conjunto de testes não aprendizado de máquina também podem incluir essas
foram disponibilizadas publicamente. Porque usamos apenas informações em suas decisões. Porém, mesmo com essa
ligeira
imagens de código aberto e fornecemos nosso conjunto de testes como ummelhora,
apêndicea CNN
do ainda superaria os dermatologistas.
Figura 4. Lesões sobre as quais a maioria dos avaliadores humanos e a maioria dos testes da CNN discordaram. CNN, rede neural convolucional.
6. Conclusão médicos-chefes) na classificação de imagens de melanoma

dermatoscópico. Nossas descobertas sugerem que algoritmos
Uma CNN treinada exclusivamente com imagens de código de inteligência artificial podem ajudar com sucesso os
aberto foi capaz de superar dermatologistas de todas as dermatologistas na detecção de melanoma na prática clínica, o
categorias hierárquicas de experiência (do júnior ao que precisa ser cuidadosamente avaliado em ensaios prospectivos.
Financiamento Sebastian Mastnik, Suzan Nasifoglu, Cristel Ruini, Elke Sattler, Max
Schlaak, Hans Wolff; Regensburg: Birgit Achatz, Astrid Bergbreiter,
Nenhum financiamento externo foi obtido. Konstantin Drexler, Mon-ika Ettinger, Sebastian Haferkamp, Anna
Halupczok, Marie Hegemann, Verena Dinauer, Maria Maagk, Marion
Declaração de conflito de interesse Mickler, Biance Philipp, Anna Wilm, Constanze Wittmann e Wu¨rzburg:
Anja Gesierich, Valerie Glutsch, Katrin Kahlert, Andreas Kerstan, Bastian
Schilling e Philipp Schrüfer.
Os autores declaram não haver interesses concorrentes relevantes
para este estudo.
Titus J. Brinker, Jochen Sven Utikal e Achim Hekler tiveram acesso

Reconhecimentos total a todos os dados do estudo e assumem a responsabilidade pela
integridade dos dados e pela precisão da análise dos dados.
Este trabalho faz parte do Projeto de Classificação da Pele,
financiado pelo Ministério Federal da Saúde da Alemanha. A bolsa é
detida pelo Dr. Titus J. Brinker (investigador principal). Os autores
gostariam de agradecer e reconhecer os dermatologistas que Apêndice 1
despendem ativa e voluntariamente muito tempo para participar do
estudo do leitor (Z alegou ter preenchido o questionário anônimo com Conforme descrito no resumo da nossa publicação, os pesos foram
100 imagens dermatoscópicas); alguns participantes não pediram para ligeiramente modificados durante o treino para reduzir a perda. A perda
serem mencionados apesar da sua participação declarada e os autores é descrita matematicamente por uma função que modela a diferença
também agradecem a estes colegas pelo seu empenho. Berlim (Charité): entre os rótulos de classe previstos pela função para uma determinada
Wiebke Ludwig-Peitsch; Bona: Judith Sirokay; Geração de Erlan: Lucie configuração de parâmetro e os rótulos de classe reais. A taxa de
Heinzerling; Essen: Magarete Albrecht, Katharina Baratella, Lena aprendizagem é um hiperparâmetro que controla o quanto esses ajustes
Bischof, Eleftheria Chorti, Anna Dith, Christina Drusio, Nina Giese, são feitos em relação ao gradiente da função de perda. Em contraste
Emmanouil Gratsias, Klaus Griewank, Sandra Hallasch, Zdenka Hanhart, com as abordagens existentes que aplicam a mesma taxa de
Saskia Herz, Katja Hohaus, Philipp Jansen, Finja Jockenhöfer, Theodora aprendizado a todas as camadas da rede neural convolucional (CNN),
Kanaki, Sarah Knispel, Katja Leonhard, Anna Martaki, Liliana Matei, usamos diferentes taxas de aprendizado para cada camada. Em
Johanna Matull, Alexandra Olischewski, Maximilian Petri, Jan-Malte particular, taxas de aprendizagem mais lentas foram usadas para
Placke, Simon Raub, Katrin Salva, Swantje Schlott, Elsa Sody, Nadine camadas mais próximas da entrada, enquanto taxas de aprendizagem
Steingrube, Ingo Stoffels, Selma Ugurel, Anne Zaremba. Hamburgo: mais rápidas foram usadas para camadas mais próximas da saída. A
Christoffer Gebhardt, Nina Booken, Maria Christolouka; Heidelberg: intuição por trás dessa técnica aprimorada, chamada de taxas de
Kristina Buder-Bakhaya, Therezia Bokor-Billmann, Alexander Enk, aprendizagem diferenciais, é que as camadas anteriores contêm
Patrick Gholam, Holger Ha¨nßle, Martin Salzmann, Sarah Schäfer, Knut características mais gerais, como bordas ou gradientes. Portanto, seus
Schä-kel, Timo Schank; Kiel: Ann-Sophie Bohne, Sophia Deffaa, pesos não precisam ser alterados significativamente para a nova tarefa
Katharina Drerup, Friederike Egberts, Anna-Sophie Erkens, Benjamin de classificação. Assim, as taxas de aprendizagem para as camadas
Ewald, Sandra Falkvoll, Sascha Gerdes, Viola Harde, Axel Hauschild, anteriores são definidas para valores baixos, resultando num ajuste
Marion Jost, Katja Kosova, Laetitia Messinger, Malte Metzner, Kirsten moderado dos pesos correspondentes. Em contraste, as camadas
Morrison , Rogina Motamedi, Anja Pinczker, Anne Rosenthal, Natalie posteriores contêm recursos específicos do aplicativo. Conseqüentemente,
Scheller, Thomas Schwarz, Dora Stölzl, Federieke Thielking, Elena essas camadas recebem taxas de aprendizado mais altas, o que faz
Tomaschewski, Ulrike Wehkamp, Michael Weichenthal, Oliver Wiedow; com que os pesos correspondentes sejam modificados mais em relação
Magdeburg: Claudia Maria Ba¨r, Sophia Bender-Sa¨belkampf, Marc uns aos outros em comparação com os pesos das camadas iniciais.
Horbru¨gger, Ante Karoglan, Luise Kraas Mannheim: J¨rg Faulhaber, Para concretizar esse conceito, dividimos as camadas em três grupos e
Cyrill Geraud, Ze Guo, Philipp Koch, Miriam Linke, Nolwenn Mau-rier, aplicamos uma taxa de aprendizado diferente para cada grupo. As
Verena Müller, Benjamin Thomas, Jochen Sven Utikal; Munique: Ali primeiras seis unidades residuais tiveram uma taxa de aprendizagem
Saeed M. Alamri, Andrea Baczako, Carola Berking, Matthias Betke, de 0,009, os oito blocos residuais subsequentes tiveram um valor de
Carolin Haas, Daniela Hartmann, Markus V. Heppt, Katharina Kilian, 0,003 e as camadas totalmente conectadas usaram 0,01.
Sebastian Krammer, Natalie Lidia Lapczynski,
A seleção das taxas de aprendizagem específicas foi baseada na

experiência prática com outras tarefas de classificação de imagens.
Para cada ajuste durante o treinamento, os parâmetros normalmente

se aproximam de um mínimo na função de perda. À medida que o
modelo se aproxima do mínimo, é prática comum diminuir a taxa de
aprendizagem gradativamente para que a otimização fique o mais
próximo possível do mínimo, em vez de ultrapassá-lo. Neste artigo,
usamos um
método de recozimento de cosseno, que diminui a taxa de [3] Esteva A, Kuprel B, Novoa RA, Ko J, Swetter SM, Blau HM, et al. Classificação
aprendizagem com base em uma função cosseno. do câncer de pele em nível de dermatologista com redes neurais profundas.
Natureza 2017;542(7639):115.
A terceira técnica de treinamento aprimorada abordou o problema
[4] Marchetti MA, Codella NC, Dusza SW, Gutman DA, Helba B, Kalloo A, et al.
de que o processo de otimização pode ficar preso em um mínimo local, Resultados do simpósio internacional de colaboração internacional em
em vez de global. Para superar este problema, a taxa de aprendizagem imagens da pele de 2016 sobre o desafio da imagem biomédica : comparação
foi repentinamente aumentada em alguns intervalos de tempo da precisão dos algoritmos de computador com dermatologistas para o
diagnóstico de melanoma a partir de imagens dermatoscópicas. J Am Acad
específicos e, assim, o processo de otimização pode ser capaz de
Dermatol 2018;78(2):270e7. e271.
escapar de um mínimo local e atingir o mínimo global. Essa técnica é
[5] Haenssle H, Fink C, Schneiderbauer R, Toberer F, Buhl T, Blum A, et al.
chamada de descida gradiente estocástica com reinicialização (SGDR), Homem contra máquina: desempenho diagnóstico de uma rede neural
uma ideia que Loshchilov et al. [1]. convolucional de aprendizagem profunda para reconhecimento
dermatoscópico de melanoma em comparação com 58 dermatologistas.
Ann Oncol 2018;29(8):1836e42.
Para documentar o desempenho do algoritmo e das técnicas de
[6] Brinker Titus J, Hekler Achim, Enk Alexander H, Klode Joachim, Hauschild
treinamento aprimoradas com a maior precisão possível, treinamos
Axel, Berking Carola, et al. Uma rede neural convolucional treinada com
novamente a CNN um total de 10 vezes, e cada execução de imagens dermatoscópicas teve um desempenho equivalente ao de 145
treinamento consistiu em 13 épocas. dermatologistas em uma tarefa de classificação de imagens de melanoma
1. Loshchilov I, Hutter F. Descida gradiente estocástica com reinicializações clínico. Eur J Câncer 2019;111:148e54.
[7] Brinker TJ, Hekler A, Utikal JS, Grabe N, Schadendorf D, Klode J, et al.
quentes. 2016:2e8; https://arxiv.org/abs/1608.03983 .
Classificação do câncer de pele utilizando redes neurais convolucionais:
revisão sistemática. J Med Internet Res 2018; 20(10):e11936.
Apêndice A. Dados suplementares [8] Gutman D, Codella NC, Celebi E, Helba B, Marchetti M, Mishra N, et al.
Análise de lesões cutâneas para detecção de melanoma: um desafio no
simpósio internacional de imagens biomédicas (ISBI) 2016, organizado pela
Conjunto de teste de 100 imagens dermatoscópicas (a utilização do conjunto de
colaboração internacional de imagens de pele (ISIC). 2016. pré-impressão
teste requer a citação deste artigo). Dados complementares a este artigo podem arXiv arXiv:160501397.
ser encontrados online em https://doi.org/10.1016/j.ejca.2019.04.001 . [9] Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, et al.
Desafio de reconhecimento visual em grande escala da Imagenet. Int J
Comput Vis 2015;115(3):211e52.
[10] Brinker Titus J, Hekler Achim, Hauschild Axel, Berking Carola, Schilling
Bastian, Enk Alexander H, et al. Comparando algoritmos de inteligência
Referências artificial com 157 dermatologistas alemães: o benchmark de classificação
do melanoma. Eur J Câncer 2019;111:30e7.
[1] Schadendorf D, van Akkooi AC, Berking C, Griewank KG, Gutzmer R, Hauschild A, et [11] Breunig MM, Kriegel HP, Ng RT, Sander JLOF. Identificação de valores
al. Melanoma. Lancet 2018;392(10151): 971e84. discrepantes locais com base na densidade. In: Registro sigmod ACM: 2000.
ACM; 2000. pág. 93e104.
[2] Carli P, Quercioli E, Sestini S, Stante M, Ricci L, Brunasso G, et al. A análise [12] Maniaci MR, Rogge R. Cuidando do descuido: desatenção dos participantes e seus
de padrões, e não algoritmos simplificados, é o método mais confiável para efeitos na pesquisa. J Res Pessoal 2014;48: 61e83.
ensinar dermatoscopia para diagnóstico de melanoma a residentes em
dermatologia. Br J Dermatol 2003;148(5):981e4.

Brinker, 2019

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Brinker, 2019

Enviado por

Direitos autorais:

Formatos disponíveis

Machine Translated by Google

Jornal Europeu do Câncer 113 (2019) 47e54

Disponível on-line em www.sciencedirect.com

página inicial da revista: www.ejcancer.com

O aprendizado profundo superou 136 dos 157 dermatologistas em

48 TJ Brinker et al. / Jornal Europeu do Câncer 113 (2019) 47e54

1. Introdução O diagnóstico de nevos foi feito por exame histopatológico (w24%),

2.1. Conjuntos de dados

2.2. Desenvolvimento do algoritmo

TJ Brinker et al. / Jornal Europeu do Câncer 113 (2019) 47e54 49

Essa alta sensibilidade foi alcançada, em média, pelos médicos

50 TJ Brinker et al. / Jornal Europeu do Câncer 113 (2019) 47e54

3.4. Aprovação ética tabela 1

4.1. Atuação dos dermatologistas 4.2. Análise estatística e comparação de desempenho

TJ Brinker et al. / Jornal Europeu do Câncer 113 (2019) 47e54 51

Embora esta publicação divulgue o procedimento completo de

52 TJ Brinker et al. / Jornal Europeu do Câncer 113 (2019) 47e54

6. Conclusão médicos-chefes) na classificação de imagens de melanoma

TJ Brinker et al. / Jornal Europeu do Câncer 113 (2019) 47e54 53

Titus J. Brinker, Jochen Sven Utikal e Achim Hekler tiveram acesso

A seleção das taxas de aprendizagem específicas foi baseada na

Para cada ajuste durante o treinamento, os parâmetros normalmente

54 TJ Brinker et al. / Jornal Europeu do Câncer 113 (2019) 47e54

Você também pode gostar