Escolar Documentos
Profissional Documentos
Cultura Documentos
Matheus Frota, Samuel Hericles, Gerônimo Aguiar, Pedro Renoir, Rayon Nunes,
Manoel Vilela, Denilson Gomes, Iális Cavalcante
Universidade Federal do Ceará - Campus de Sobral
Engenharia da Computação, Sobral-CE, Brasil
matheusfrota@hotmail.com.br, samuel.herilces@alu.ufc.br, geron@alu.ufc.br, renoir@alu.ufc.br,
rayonnunes@hotmail.com, manoel_vilela@engineer.com, denilsongomes@alu.ufc.br, ialis@sobral.ufc.br
ABSTRACT 1. INTRODUÇÃO
Machine learning algorithms are being successfully applied Desde maio de 2013 os psicólogos e psiquiatras estão uti-
in many areas of knowledge. In digital health, these ones lizando os critérios de avaliação do Manual de Diagnóstico e
permit for professionals to be helped to diagnose diseases Estatı́stico de Transtorno Mentais (conhecido como DSM-5),
and disorders in advance and more accurately, contributing elaborado pela American Psychiatric Association [21]. Os
to the effective treatment of their patients. In this context, casos anteriormente analisados, utilizando o DSM-IV, que
the proposed methodology makes use of a public database recebiam o diagnóstico de transtorno autista, transtorno de
on Autistic Spectrum Disorder and the most relevant cha- Aspeger ou transtorno de desenvolvimento penetrante, que
racteristics presented by a patient. So, it analyzes with the não seja especificado de outra forma, passam a ser nomeados
Decision Tree, Support Vector Machine, Multi-Layer Per- de transtorno do espectro autista, podendo ainda ser carac-
ceptron and K-nearest neighbor algorithms to the construc- terizado em 3 (três) diferentes nı́veis de gravidade. Os sin-
tion of a model capable of simplifying a decision strategy to tomas desses transtornos representam um contı́nuo único de
help the diagnosis of this disorder type. prejuı́zos às pessoas portadoras, com intensidades variáveis,
keywords:Autism, Machine learning, Feature importance. que vão de leve a grave, nos domı́nios de comunicação social
e de comportamentos restritivos e repetitivos. Este estudo
Resumo. Algoritmos de aprendizado de máquina estão destaca que o transtorno do espectro do autismo (TEA),
sendo aplicados com sucesso em diversas áreas do conheci- refere-se a uma ampla gama de condições caracterizadas por
mento. No campo da saúde, estes mesmos abrem espaço desafios com habilidades sociais, comportamentos repetiti-
para que profissionais possam ser auxiliados a diagnosticar vos, fala e comunicação não-verbal [4].
doenças e transtornos antecipadamente e com maior pre- O autismo afeta cerca de 1 em 59 crianças hoje nos Es-
cisão, contribuindo no tratamento eficaz de seus pacientes. tados Unidos. Dessa forma, estima-se que o Brasil, com
Neste contexto, a metodologia proposta faz uso de uma base seus 200 milhões de habitantes, possua cerca de 3 milhões
de dados pública sobre o Transtorno do Espectro Autista e de autistas. O autista possui um conjunto distinto de tra-
as caracterı́sticas mais relevantes apresentada por um pa- ços comportamentais. As maneiras pelas quais as pessoas
ciente. Para isso, analisa com os algoritmos de Árvore de com autismo aprendem, pensam e resolvem problemas po-
Decisão, Support Vector Machine, Perceptron de Múltiplas dem variar de muito qualificadas a severamente desafiadas
Camadas e K-vizinhos mais próximos a construção de um pela situação [6].
modelo capaz de simplificar uma estratégia de decisão no Tendo em vista a problemática de alcançar o diagnóstico
auxı́lio ao diagnóstico deste tipo de transtorno. do autismo, o presente trabalho propõe um método para au-
palavras-chaves:Autismo, Aprendizagem de máquina, Im- xiliar especialistas na busca por um diagnóstico deste trans-
portância de caracterı́sticas. torno. Com base em dados público sobre um grupo crian-
ças autistas, pretende-se analisar caracterı́sticas descritas na
base de dados junto as informações necessárias cedidas pe-
los responsáveis, acelerando o procedimento. Para colaborar
com a análise de muitos dados, adota-se alguns algoritmos
relevante na literatura sobre aprendizagem de máquina para
buscar uma análise automática de auxı́lio aos especialistas
[22, 24, 27]. Foram utilizados quatro tipos de algoritmos,
visando a classificação das caracterı́sticas comportamentais
em crianças, com um determinado grau de autismo ou não.
É importante destacar a ideia principal, que visa apenas
fornecer um auxı́lio com a previsão ao diagnóstico. Caso o
resultado seja positivo significa que a criança pode apresen-
tar algum grau de autismo e, portanto, o especialista pode
fazer uso dos resultados desta aplicação como base para o
laudo final. partir de uma base de dados. Foi utilizado o método de Di-
O artigo está organizado como segue. Na seção 2 descreve- ferença de Informação Mútua (MID) junto ao maior ganho
se os trabalhos relacionados à classificação e TEA. Na se- de informação (HIG) para selecionar os sintomas adicionais,
ção 3 é descrita toda estrutura da base de dados utilizada, através de casos anteriores, e que podem estar vinculados
apontando os atributos utilizados. A seção 4 aborda toda a aos sintomas principais [7]. O método de diagnóstico recebe
fundamentação teórica do trabalho. Na seção 5 são apresen- informações de vários sensores e smartphones. Os dados
tados os resultados obtidos, mostrando o gráfico de impor- do sensor são buscados através de um aplicativo por um
tância das variáveis utilizadas no modelo. Por fim, a seção aparelho mobile. Executando o aplicativo, os sintomas pre-
6 conclui o trabalho e sugere aplicações futuras. liminares tentam puxar os sintomas associados em várias
iterações do banco de dados através da Internet. O banco
2. TRABALHO RELACIONADOS de dados utilizado contém registros de pacientes anteriores
com sintomas padrão. O tal sistema proposto precisa de um
Teixeira et al. (2010) realiza uma revisão sistemática, nos
ou dois sintomas primários como entradas para seu funcio-
anos de 2002 a 2009, a cerca da produção cientı́fica de auto-
namento, os sintomas são ainda testados e confirmados. O
res brasileiros relacionados ao TEA. A pesquisa foi realizada
procedimento foi feito em um conjunto de 200 crianças por-
partir das bases de dados públicas em 4 (quatro) diferentes
tadoras de transtornos variados, com 10 tipos de autismos
repositórios, incluindo diversos descritores, tais como au-
e 50 sintomas distintos. Os resultados obtidos na aplicação
tismo e transtorno invasivo do desenvolvimento. Houve a
de tal método para todos os casos envolveram taxas entre
análise de 93 artigos, em que aproximadamente um terço
70 a 86% de precisão. No geral, os experimentos demons-
dos mesmo foi publicado em periódicos, mas a maioria dos
traram funcionamento bem melhor para casos especı́ficos,
artigos se baseava em amostras pequenas. Notou-se que o
mais voltados ao desenvolvimento intelectual das crianças,
principal tema de pesquisa abordado estava ligado a progra-
onde pode ainda se ter uma melhor recuperação no desen-
mas de intervenção para TEA. Ao final, a referida revisão
volvimento cognitivo. Ao mesmo tempo, não se mostra tão
dispôs sobre o interesse de pesquisadores brasileiros na te-
eficiente para casos que demonstram uma maior dificuldade
mática dos TEA, entretanto, a maior parte dessa produção
na socialização da criança, por exemplo. Por fim, o artigo
cientı́fica se concentra em dissertações/teses em detrimento
faz ressalvas sobre os exames de sintomas preliminares que
de poucas publicações em revistas relevantes. Esta revisão
geralmente não são suficientes para uma boa previsão do
sistemática mostrava que há muito tempo faz-se necessá-
inı́cio do autismo em crianças, e que sintomas preliminares
rio a abertura de novos estudos com amostras maiores que
acabam indicando diferentes diagnósticos [7].
levariam a um maior impacto e visibilidade da produção ci-
Este transtorno também foi avaliado em algoritmos de
entı́fica brasileira relativa aos TEA [23].
aprendizagem de máquina não supervisionados. Em Elbat-
Em Brito & Fernandes (2019) foi proposto o uso de re-
tah et al. (2019), a idéia principal é aprender agrupamentos
des neurais para classificar crianças com presença ou não de
de dados com base na representação visual de percursos de
TEA. Utilizaram uma base de dados com 259 amostras e
rastreamento ocular. Levando em consideração que o TEA
com as estratégias de cross validation e k-fold para auxı́lio
é uma condição ao longo da vida caracterizada por prejuı́-
no treinamento. Os dois modelos comportaram-se bem mas
zos sociais e de comunicação, analisou o rastreamento ocu-
os autores deram como inconclusivo os seus resultados [6].
lar de 59 crianças organizadas em dois grupos: autistas e
Processamento de imagens e algoritmos de aprendizado
não-autistas. Aplicou-se a tecnologia de eye-tracking para
de máquina foram empregados por Liu et al. (2016) para
rastreamento das variações de direcionamento das visões dos
classificar crianças com autismo. Os dados foram de rosto
pacientes que se deparavam com imagens de formas e gera-
de crianças junto com um conjunto de dados do movimento
vam caminhos de visadas entre os mesmos. Avaliou-se três
ocular dessas, por fim obtiveram um acurácia de 88,51% nos
hipóteses principais: Os padrões visuais dos caminhos de ras-
resultados [15].
treamento de rastreamento ocular indicariam uma estrutura
A proposta de Halibas et al. (2018) analisa cinco mode-
subjacente de grupos? Se sim, os aglomerados descober-
los de aprendizado de máquina para estudar o problema da
tos poderiam revelar possı́veis conexões relacionadas à dinâ-
desordem do espectro autista em uma base especı́fica. Os
mica do comportamento do olhar (por exemplo, velocidade,
autores fazem um comparativo entre os modelos com as mé-
aceleração)? Além disso, como os agrupamentos variariam
tricas de acurácia, precisão e revocação. A base de dados
em relação às caracterı́sticas dos participantes (por exemplo,
utilizada foi definida a partir de 1100 amostras com 10 atri-
idade)? O modelo de agrupamento foi treinado usando re-
butos comportamentais, sendo crianças, adolescentes e adul-
presentações compactadas aprendidas por um autoencoder
tos. As amostras já possuem a classe conhecida: ”Perten-
profundo [3]. Seus resultados atingiram uma tendência pro-
cente”ou ”Não Pertencente”ao espectro autista. Este estudo
missora da estrutura de agrupamento. Além disso, os grupos
apontou o classificador baseado em Deep Learning como o
são explorados para fornecer informações interessantes sobre
modelo que alcança melhor desempenho em quase todas as
as caracterı́sticas do comportamento do olhar envolvido no
métricas, com acurácia de 96,38% [11].
autismo. Confirmou-se empiricamente que os caminhos de
O trabalho de Dutta et al. (2017) mostra um modelo
rastreamento ocular podiam ser agrupados em grupos co-
de aprendizagem de máquina como método para auxiliar
erentes, que se assemelhavam amplamente ao agrupamento
o diagnóstico do autismo em crianças, mas também mostra
original de amostras (ou seja, autistas ou não-autistas). Isso
sua aplicação na previsão de outras sı́ndromes e transtornos,
traz um significado nas visualizações do caminho de digi-
mas tendo seu melhor funcionamento para a previsão do au-
talização que podem efetivamente discriminar as amostras
tismo. Sua proposta envolve uma Regra de Associação (AR)
diagnosticadas com autistas e outros grupos [8].
baseado em um método de valor mı́nimo de Redundância e
No artigo de Sartipi, Shayesteh & Kalbkhani (2018) faz-
Máxima Relevância (mRMR), usados para extrair os sinto-
se uso de algoritmos de aprendizado de máquina em apli-
mas que precisam ser testados para o processo de previsão, a
cações médicas a fim de permitir um diagnóstico rápido e comparáveis, nas quais medidas de desempenho mais direci-
preciso de doenças, em especı́fico para o caso de TEA. Seu onadas podem ser usadas diretamente como função objetivo.
objetivo é classificar entre autistas e não-autistas usando Consequentemente, essa estratégia de amostragem unida à
as informações de dados de ressonância magnética funcio- reponderação pode propositalmente ajustar o AdaBoost em
nal incluindo os de em estado de repouso (do inglês Resting direção a uma determinada medida de desempenho de inte-
State functional Magnetic Resonance Imaging, rs-fMRI). Em resse. Resultados experimentais em dez conjuntos de dados
sua proposta, cada região de interesse (do inglês Region de benchmark mostram que essa estratégia pode aumentar o
of Interest, ROI) de dados de cada sujeito é decomposta desempenho do AdaBoost de maneira confiável e tem supe-
usando a transformada wavelet discreta double-density dual- rioridade consistente sobre outros métodos associados e que
tree (D3TDWT) dem sub-bandas de frequência de tempo. são apresentados na literatura [27].
Num momento seguinte, o modelo de heteroscedasticidade O trabalho de Gok (2019) também destaca que o diag-
condicional auto-regressiva generalizada (do inglês generali- nóstico de TEA nos estágios iniciais é muito desejável para
zed autoregressive conditional heteroskedasticity, GARCH) é estabelecer o tratamento rapidamente. Do ponto de vista
usado para a extração de recursos dessas sub-bandas. Poste- do aprendizado de máquina, a tarefa de previsão de risco
riormente, as caracterı́sticas mais discriminantes são seleci- de autismo é uma classificação binária dos genes de risco de
onadas pelo teste-t de duas amostras e, finalmente, os dados autismo, ou seja, se um RNA longo não codificado (do inglês
são classificados por Support Vector Machine. Este foi tes- long non-coding RNA, lncRNA) causa o transtorno ou não.
tado em vários conjuntos de dados e os resultados atingiram Buscou-se desenvolver um modelo de aprendizado de má-
uma precisão de classificação de 71,6% para indivı́duos do quina, treinado a partir de dados de expressão gênica no de-
sexo masculino e, para o sexo feminino, 93,7%. Conside- senvolvimento cerebral, para a classificação binária dos genes
rando os ROIs significativos, há uma redução nas conexões de risco de autismo. O modelo foi composto de duas partes
ântero-posteriores entre os autistas, e que pode ser conside- principais: extração de recursos com transformada de wave-
rado em abordagens clı́nicas [20]. let de Haar, métodos de discretização e classificação com o
A metodologia apresentada em Akter et al. (2019) des- algoritmo de aprendizado de rede bayesiana. Apresentou-se
taca que (TEA) é um grupo de deficiências no desenvolvi- uma comparação o modelo proposto em outros algoritmos
mento neurológico que não são curáveis, mas que podem de classificação independentes que abordaram dados sobre o
ser amenizado por intervenções precoces. O referido traba- gene lncRNA. Os resultados experimentais obtiveram uma
lho abordou um conjuntos de dados de autistas detectados importante eficiência do modelo, principalmente com a sen-
precocemente em grupos de bebês, crianças, adolescentes e sibilidade, área sob curva ROC e pontuações da medida F1-
adultos e aplicou vários métodos de transformação de recur- Score de 90,2%, 83,9%,e 80,6%, respectivamente [9].
sos. Várias técnicas de classificação foram implementadas O estudo de Usta et al. (2019) segue uma linha de pes-
com esses conjuntos de dados, que foram transformados e quisa junto a outros trabalhos que mostram melhorias par-
avaliados em seu desempenho. Notou-se que o SVM mos- ciais em alguns sintomas principais dos TEA com o decorrer
trou o melhor desempenho para o conjunto de dados da cri- do tempo. No entanto, os fatores preditivos (por exemplo,
ança, enquanto que o GLMboost para os adolescentes, e o pré-tratamento, distúrbios psiquiátricos comórbidos, habili-
Adaboost apresentou os melhores resultados para o conjunto dades adaptativas e de linguagem etc.) para melhorar o re-
de dados da criança e de adultos. As transformações de re- sultado não foram estudados com métodos de aprendizado
cursos que resultam na melhores classificações foram função de máquina. O objetivo dos autores envolveu examinar os
seno para a criança e z-score para conjuntos de dados de cálculos preditores de resultados com métodos de aprendi-
crianças e adolescentes. Após estas análises, várias técnicas zado de máquina, incluindo estimativa estatı́stica, teorias
de seleção de recursos foram usadas com esses conjuntos de da informação e aprendizado matemático, descobrindo au-
dados transformados em z-score para identificar os fatores tomaticamente padrões úteis em grandes quantidades de da-
de risco significativos de TEA nos grupos de diferentes fai- dos. Adotou-se um grupo de amostras que compreendeu
xas etárias. Os resultados destas abordagens analı́ticas indi- 433 crianças (na faixa de 3 a 6 anos de idade) com diagnós-
cam que, quando adequadamente otimizados, os métodos de tico de TEA. Os sintomas das mesmas foram avaliados pela
aprendizado de máquina podem fornecer boas previsões de Lista de Verificação do Comportamento do Autismo, Lista
estado de autismo. Isso sugere que pode ser possı́vel aplicar de Verificação do Comportamento Aberrante e escalas de
esses modelos para a detecção de autismo em seus estágios Impressão Clı́nica Global (do inglês Clinical Global Impres-
iniciais [2]. sion, CGI)[26]. Foi avaliado o desempenho de algoritmos
Algumas estratégias de uso de algoritmos de aprendiza- de aprendizado de máquina (Naive Bayes, Modelo Linear
gem de máquina foram centradas em comitê de classificado- Generalizado, Regressão Logı́stica, Árvore de Decisão) nos
res. O mesmo pode-se tratas do trabalhar de Yuan & Ma referidos dados, incluindo os 254 itens nos formulários de
(2012), que já destacava que as tentativas existentes de me- linha de base. Pacientes com menos de 2 pontos de CGI
lhorar o desempenho do AdaBoost em conjuntos de dados nos sintomas de TEA em 36 meses foram aceitos como o
desequilibrados têm se concentrado amplamente na modifi- grupo que apresentou de melhor resultado para a classe de
cação de sua regra de atualização de peso ou na incorporação previsão. Uma proporção significativa dos casos apresen-
de amostras ou técnicas de aprendizado sensı́veis a custos. tou melhora significativa nos sintomas de TEA. No modelo
Os autores buscaram modelar um comitê de classificadores de aprendizado de máquina assumido em uma escala CGI
com uma nova perspectiva. Inicialmente, o conjunto de da- mostrou-se que o grupo de diagnóstico afetou o prognóstico.
dos passa por uma superamostragem e o AdaBoost padrão No grupo de autismo, pai e mãe mais velhos, menor peso ao
é aplicado para criar uma série de classificadores básicos. nascer e maior idade no diagnóstico apresentam pior resul-
Em seguida, os pesos dos classificadores são novamente trei- tado. Na idade do transtorno de Asperger no diagnóstico, a
nados por algoritmos genéticos ou técnicas de otimização idade da primeira avaliação e os pilares do desenvolvimento
afetaram o prognóstico. Acompanhando outros trabalhos texto combinado com uma pergunta selecionada automatica-
na literatura, identificou-se diagnóstico precoce, reabilitação mente do que apenas no texto. As perguntas da lista de ve-
precoce e severidade dos sintomas de TEA na avaliação ini- rificação frequentemente selecionadas automaticamente que
cial do resultado previsto. Além disso, observou-se que diag- previam risco eram: seguir um ponto, brincadeira de faz de
nósticos psiquiátricos comórbidos estão afetando o resultado conta e preocupação com surdez. Observou-se que a internet
dos sintomas de TEA na observação clı́nica. Os modelos de pode ser usada para pré-rastrear distúrbios do espectro do
aprendizado de máquina revelam que vários outros são mais autismo, usando as preocupações dos pais, administrando
significativos (por exemplo, idade dos pais, peso ao nascer, algumas perguntas de triagem padronizadas para aumentar
variáveis sociodemográficas, etc.) em termos de informações esse processo [5].
prognósticas e também no planejamento do tratamento de Com essa revisão dos trabalhos relacionados foi possı́vel
crianças com TEA [26]. entender a problemática de análise de crianças e outros gru-
A pesquisa de Abbas et al. (2018) engloba dois algoritmos pos etários com caracterı́sticas de TAE, além da comple-
treinados para identificar o autismo. Um destes é baseado xidade de se aplicar técnicas de aprendizagem de máquina
em questionários estruturados e curtos, relatados pelos pais. nesse âmbito das bases de dados disponı́veis. Este trabalho
E o outro algoritmo usa a identificação de comportamentos- assume uma análise das caracterı́sticas que mais caracteri-
chave a partir de vı́deos caseiros semiestruturados de crian- zam o TAE em um paciente sobre o resultado de um algo-
ças. Um algoritmo de combinação é então usado para combi- ritmo de classificação de dados.
nar os resultados em uma única avaliação de maior precisão.
Para superar a escassez e desequilı́brio dos dados de trei- 3. BASE DE DADOS
namento, aplicou-se técnicas de seleção de caracterı́sticas,
feature engineering e técnicas de codificação de caracterı́s- A base de dados utilizada neste trabalho, disponı́vel em
ticas. Permitiu-se uma determinação inconclusiva, quando [25], conta com um total de 292 observações e 21 atributos.
apropriado, a fim de aumentar a precisão da triagem quando Dentre esses atributos, tem 10 variáveis comportamentais
conclusiva. O desempenho é então validado em um estudo que são descritas na Tabela 1.
clı́nico controlado, que se seguiu com 162 crianças para ve-
rificar o desempenho desses algoritmos e sua combinação. Variável Descrição
Atingiu-se uma melhoria significativa da precisão em relação A1 Score Alta percepção em baixos ruı́dos que
às ferramentas de triagem padrão nas medições de acurácia, geralmente outros não percebem
sensibilidade e especificidade. O estudo assegura que um A2 Score Maior concentração na visão do todo em
processo de aprendizado de máquina é um método confiá- comparação a pequenos detalhes
vel para a detecção de autismo fora dos ambientes clı́nicos. A3 Score Facilidade de comunicação com várias pessoas
Uma variedade de fatores de confusão na análise clı́nica é diferentes ao mesmo tempo
discutida juntamente com as soluções projetadas nos algo- A4 Score Facilidade de fazer múltiplas tarefas
ritmos. Os resultados finais são estatisticamente limitados e simultaneamente
demandam futuros estudos clı́nicos para ampliar o tamanho A5 Score Dificuldade de manter uma conversa com
da amostra [1]. seus colegas
A abordagem de Ben-Sasson, Robins & Yom-Tov (2018) A6 Score Facilidade em manter conversas informais
possui o objetivo de testar a viabilidade da avaliação do risco A7 Score Dificuldade de percepção de intenções e
de desordem do espectro do autismo nas preocupações dos sentimentos em histórias
pais a partir de fontes baseadas na Web, usando ferramen- A8 Score Dificuldade de brincar com a imaginação
tas de análise de texto automatizadas e questionamento de fugindo da realidade
padrão mı́nimo. Os participantes desta pesquisa eram 115 A9 Score Facilidade de reconhecer sentimentos
pais, preocupados com o desenvolvimento da comunicação a partir de expressões faciais alheias
social de seus filhos. As crianças tinham entre 16 e 30 me- A10 Score Dificuldade de fazer novas amizades
ses de idade e 66 das mesmas tinham histórico familiar de result Soma das caracterı́sticas comportamentais
transtorno do espectro do autismo. Os pais relataram suas avaliadas relacionados ao TEA.
preocupações na internet e completaram um questionário Class/ASD Decisão do algoritmo sobre a criança
para um rastreador especı́fico em TEA, a Lista de Verifica- pertencer ou não ao espectro autista
ção Modificada e Revisada para Autismo em Crianças (do
inglês Modified Checklist for Autism in Toddlers-Revised ). Table 1: Variáveis comportamentais
Fizeram uso também de um amplo rastreador de desenvol-
vimento, denominado Questionário de Idades e Estágios (do
inglês Ages and Stages Questionnaire, ASQ). Um algoritmo
previa o risco de distúrbio do espectro do autismo usando 4. FUNDAMENTAÇÃO TEÓRICA
uma combinação do texto dos pais e uma única pergunta de Nesta seção são destacados os principais métodos que fo-
triagem, selecionada pelo algoritmo para aprimorar a preci- ram utilizados para a caracterização das variáveis em es-
são da previsão. As medidas de triagem identificaram 58 a tudo. Destacam-se aqui o método de classificação de Árvore
88% das crianças em risco de desordem do espectro autista. de Decisão, K-Vizinhos Mais Próximos (do inglês K-Nearest
Crianças com histórico familiar de TEA apresentaram três Neighbors - KNN), Perceptron de Múltiplas Camadas, Sup-
vezes mais chances de apresentar risco de transtorno do es- port Vector Machine (SVM) e a função de avaliação (Feature
pectro do autismo nas medidas de triagem. A previsão do Importance).
risco de uma criança no ASQ ou na lista de verificação foi
significativamente mais precisa quando prevista a partir do 4.1 Árvore de Decisão
O algoritmo de Árvore de Decisão se mostrou uma técnica para extração de caracterı́sticas; e a camada de saı́da onde
bem adequada para o trabalho por apresentar na base de da- o resultado final é concluı́do e apresentado [28].
dos variáveis assumidamente binárias. Esta técnica pode ser
definida como uma estrutura de dados que determina uma 4.4 Support Vector Machine
classe como um nó folha, um nó decisão que contém algum Outro algoritmo de treinamento para aprendizado de má-
teste sobre um atributo e, a cada resultado, uma aresta para quina abordado é o Support Vector Machine (SVM). Este é
uma subárvore [17]. utilizado para reconhecimento de padrões baseado na Teo-
Este algoritmo tem algumas vantagens, como reduzir a ria de Aprendizagem Estatı́stica [19], utilizado comumente
complexidade do problema em regiões de decisão. É possı́vel para classificação, mas também é possı́vel utilizá-lo para re-
aproximar espaços de alta-dimensionalidade em vários nı́veis gressão. Objetos de entradas são vistos como pontos per-
da árvore e conjunto de dados com muitas caracterı́sticas. tencentes ao hiperplano Rl , em que l é a quantidade de atri-
Permite-se ainda estimar um agrupamento menor desses em butos. O SVM traça um plano separador entre esses pontos
cada nó da árvore para testar com outros subconjuntos para dividindo-os em duas classes. Um problema é dito linear-
melhorar a performance do algoritmo. Porém, com grandes mente separável se for possı́vel separar as classes usando um
bases de dados,os erros podem se acumular ao longo dos plano de dimensão l − 1. Isso pode ser facilmente estendido
nı́veis da árvore de decisão e não podendo otimizar precisão à classificação de k classes construindo k classificadores de
e eficiência ao mesmo tempo [18]. duas classes cada. A interpretação geométrica do SVM traz
uma busca da separação ideal de uma superfı́cie. Ou seja,
4.2 K-Vizinhos Mais Próximos formar o hiperplano que seja equidistante das duas classes
O algoritmo dos vizinhos mais próximos é um dos modelos em questão [22].
preditivos mais simples e com diversas aplicações [7, 10, 11].
Cada amostra de uma base de dados D é considerada a partir 4.5 Feature Importance
de um vetor X com l dimensões, onde X = [x1 , x2 , ..., xl ] ∈ A medida Feature Importance trata-se do processo de busca
Rl . A saı́da é determinada de acordo com o parâmetro K, das melhores variáveis que descrevem um determinado mo-
ou seja, o rótulo de maior incidência nos k vizinhos mais pró- delo. A Equação 1 destaca o comportamento dessa medida,
ximos. Em caso de empate existem várias técnicas, mas as com base nas técnicas de impureza de Gini, ou redução mé-
mais usadas são escolhas aleatórias do vencedor, ou reduzir dia das impurezas, que calcula a importância de cada ca-
o valor de K até achar um vencedor absoluto. racterı́stica de entrada no resultado do modelo [18]. Desse
modo, seu valor é calculado pela soma das frequências das
4.3 Perceptron de Múltiplas Camadas classes sobre o número total delas.
Um modelo de rede neural bastante aplicado na literatura
é o Perceptron de Múltiplas Camadas, do inglês Multi-Layer J
X
Perceptron (MLP) [13, 24, 28]. Resume-se esse algoritmo de G= Pj (1 − Pj ) (1)
redes neurais como uma das várias técnicas inspiradas em j=1
um neurônio biológico, sendo este representado matemati-
Destaca-se na Equação 1 que G varia de (0,1] e repre-
camente por uma unidade que recebe dados de entrada xi
senta o grau de importância da variável j no modelo, J é
e somadas junto com pesos wi que dão mais importância a
a quantidade de classes e P representa a frequência de uma
certos valores de entradas do que outros. Após este efeito,
categoria.
realiza-se a soma de todos esses valores e subtrai-se do to-
Para o cado especı́fico da Árvore de Decisão, deve-se aten-
tal um valor que filtra o contingente comum a todos, que é
tar ao cálculo de Γ̂(t). As classes são divididas em nós que
denominado bias Θ. Segue-se com o cálculo do resultado u
são caracterı́sticas para classificar as amostras do conjunto
que é passado por uma função de ativação g(u) que, depen-
de dados. Assim, seja φˆj (t) a frequência de uma classe j em
dendo do resultado, ativa ou não a saı́da do neurônio [12],
um nó t, a impureza de Gini [14] aplicada ao nó t é defi-
conforme pode-se visualizar na Figura 1.
nida na Equação 2. Logo, cada nó é avaliado a partir dessa
métrica.
J
X
Γ̂(t) = φˆj (t)(1 − φˆj (t)) (2)
j=1
Figure 3: Importância das variáveis no modelo KNN Figure 5: Importância das variáveis no modelo SVM
Conference of the IEEE Engineering in Medicine and [16] O. M. Maciel. Algoritmos quase-newton para otimiza-
Biology Society (EMBC), pages 1417–1420, July 2019. ção multiobjetivo. Master’s thesis, Universidade Fede-
ral do Amazonas, Manaus-AM, 2016.
[9] M. Gök. A novel machine learning model to predict
autism spectrum disorders risk gene. Neural Computing [17] S. O. Rezende, M. C. Monard, and A. C. P. d. L. Car-
and Applications, 31(10):6711–6717, October 2019. valho. Sistemas inteligentes para engenharia: pesquisa
e desenvolvimento. Anais III Workshop de Sistemas
[10] J. Grus. Data Science do Zero. Alta Books, 1th edition, Inteligentes para Engenharia, 1999.
2016.
[18] S. R. Safavian and D. Landgrebe. A survey of deci-
[11] A. S. Halibas, L. B. Reazol, E. G. T. Delvo, and J. C. sion tree classifier methodology. IEEE transactions on
Tibudan. Performance analysis of machine learning systems, man, and cybernetics, 21(3):660–674, 1991.
classifiers for asd screening. In 2018 International Con-
ference on Innovation and Intelligence for Informatics, [19] R. Samsudin, P. Saad, and A. Shabri. A hybrid least
Computing, and Technologies (3ICT), pages 1–6, No- squares support vector machines and gmdh approach
vember 2018. for river flow forecasting. Hydrology and Earth System
Sciences Discussions, 7(3):3691–3731, 2010.
[12] S. Haykin. Redes Neurais: Princı́pios e prática. Book-
[20] S. Sartipi, M. G. Shayesteh, and H. Kalbkhani. Di-
man, Porto Alegre, 2 edition, 2001.
agnosing of autism spectrum disorder based on garch
variance series for rs-fmri data. In 9th International
[13] K. K. Hyde, M. N. Novack, N. LaHaye, C. Parlett-
Symposium on Telecommunications (IST), pages 86–90,
Pelleriti, R. Anden, D. R. Dixon, and E. Linstead.
December 2018.
Applications of supervised machine learning in autism
spectrum disorder research: a review. Review Journal [21] A. Speaks. Autism speaks. https://www.
of Autism and Developmental Disorders, 6(2):128–146, autismspeaks.org/, 2019. Acesso em: 05/04/2019.
June 2019.
[22] H. Talabani and E. Avci. Performance comparison
[14] H. Ishwaran. The effect of splitting on random forests. of svm kernel types on child autism disease database.
Machine Learning, 99(1):75–118, 2015. International Conference on Artificial Intelligence and
Data Processing (IDAP 2018), pages 1–5, 2018.
[15] W. Liu, M. Li, and L. Yi. Identifying children with
autism spectrum disorder based on their face processing [23] M. C. T. V. Teixeira, T. P. Mecca, R. d. L. Velloso,
abnormality: A machine learning framework. Autism R. B. Bravo, S. H. B. Ribeiro, M. T. Mercadante, and
Research, 9(8):888–898, 2016. C. S. d. Paula. Literatura cientı́fica brasileira sobre