Disserta o Rochelly 2021 Final

UNIVERSIDADE FEDERAL DOS VALES DO JEQUITINHONHA E MUCURI
Programa de PósGraduação em Educação em Ciências, Matemática e Tecnologia

PPGECMaT
Rochelly Fernandes Andrade
CIÊNCIA DE DADOS APLICADA AO PISA 2018
Diamantina
2022
Rochelly Fernandes Andrade
CIÊNCIA DE DADOS APLICADA AO PISA 2018
Dissertação de Mestrado apresentada ao Pro

grama de PósGraduação em Educação em Ci
ências, Matemática e Tecnologia PPGECMaT,
como requisito parcial para obtenção do título
de Mestre em Educação em Ciências, Matemá
tica e Tecnologia.
Orientador: Prof. Dr. Alessandro Vivas An

drade
Diamantina
2022
RESUMO
A educação está presente e ligada a várias áreas de interesse público. Sabendose dessa impor
tância, Avaliações em Larga Escala são aplicadas em diversos países, objetivando servirem de
indicadores desses quadros educacionais, bem como, monitorar as habilidades cognitivas rela
cionadas à literacia e à numeracia. O presente estudo aplicou técnicas de Ciência de Dados,
uma área multidisciplinar, que envolve, principalmente aprendizado de máquina e estatística,
sobre dados coletados pelo questionário aplicado aos professores durante a Avaliação em Larga
Escala do Programa Internacional de Avaliação de Estudantes, edição 2018. O trabalho buscou
identificar quais características, coletadas pelo questionário aplicado aos professores, têm mais
impacto sobre o desempenho dos alunos nas avaliações de matemática e ciências. O trabalho
aplicou dois modelos de aprendizado supervisionado, o Decision Tree e o Random Forest, nos
quais a variável dependente foi elaborada com base nas notas médias dos países participantes
e nos níveis de proficiência. Os modelos foram aplicados implementando o algoritmo CART
com critério de classificação Gini, na qual os dados foram divididos através da técnica Holdout
com 70% dos dados para treinamento e 30%. A seleção de atributos foi realizada aplicando o
método Recursive Feature Elimination, que reduziu a quantidade de atributos de 167 para 83.
As instâncias com dados faltantes não foram utilizadas nesta pesquisa. O Matthews Correlation
CoefficientMCC avaliou a qualidade geral dos modelos sendo utilizado como principal meio
de comparação de desempenho de classificação, tendo em vista a constatação de desbalancea
mento das classes. Com o MCC observouse que, de maneira geral o Random Forest obteve
os melhores desempenhos com 0,76 para o teste de matemática e 0,71 para ciências. Com o
modelo gerado pelo algoritmo Random Forest, identificaramse as principais características in
fluenciadoras de desempenho, em que se destacaram características relacionadas à tecnologia
e, principalmente ao incentivo dado aos alunos pelos professores relacionados à motivação e
valorização do aprendizado e capacitação dos professores.
Palavraschave: Avaliações em Larga Escala. Aprendizado de Máquina. Ciência de Dados.

Educação. PISA.
ABSTRACT
Education is present and linked to several areas of public interest. Knowing this importance,
LargeScale Assessments are applied in several countries, aiming to serve as indicators of these
educational frameworks, as well as monitoring cognitive skills related to literacy and numeracy.
The present study applied Data Science techniques, a multidisciplinary area, which mainly invol
ves machine learning and statistics, on data collected by the questionnaire applied to teachers
during the LargeScale Assessment of the Programme for International Student Assessment,
2018 edition. This work sought to identify which characteristics, collected by the questionnaire
applied to teachers, have the greatest impact on student performance in mathematics and science
assessments. The work applied two supervised learning models, the Decision Tree and the Ran
dom Forest, in which the dependent variable was elaborated based on the average scores of the
participating countries and on the proficiency levels. The models were applied implementing
the CART algorithm with Gini classification criterion, in which the data were divided using the
Holdout technique with 70% of the data for training and 30%. Attribute selection was performed
using the Recursive Feature Elimination method, which reduced the number of attributes from
167 to 83. Instances with missing data were not used in this research. The Matthews Correlation
CoefficientMCC evaluated the general quality of the models being used as the main means of
comparing the classification performance, in view of the verification of class imbalance. with
the MCC it was observed that, in general, Random Forest obtained the best performances with
0.76 for the math test and 0.71 for science. With the model generated by the algorithm Random
Forest, the main characteristics influencing performance were identified, in which characteris
tics related to technology and, mainly, to the incentive given to students by teachers related to
the motivation and appreciation of learning and training of teachers.
Keywords: Largescale Assessment. Machine Learning. Data Science. Education. PISA.

LISTA DE ILUSTRAÇÕES
Figura 1 – Processo de um Projeto de Ciência de Dados . . . . . . . . . . . . . . . . . 22
Figura 2 – Gráfico de Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . 26
Figura 3 – Gráfico de Regressão Logística x Regressão Linear . . . . . . . . . . . . . 28
Figura 4 – Exemplo de Vetores de Suporte . . . . . . . . . . . . . . . . . . . . . . . . 29
Figura 5 – Exemplo de conjunto de dados não separáveis linearmente . . . . . . . . . 29
Figura 6 – Transformação de dados para terceira dimensão . . . . . . . . . . . . . . . 30
Figura 7 – Divisão dos dados em terceira dimensão . . . . . . . . . . . . . . . . . . . 30
Figura 8 – Esboço de uma Árvore de Decisão . . . . . . . . . . . . . . . . . . . . . . 31
Figura 9 – Esboço de uma Floresta Aleatória . . . . . . . . . . . . . . . . . . . . . . . 33
Figura 10 – Esboço de um Neurônio Artificial . . . . . . . . . . . . . . . . . . . . . . 34
Figura 11 – Esboço de uma RNA com propagação feedforward . . . . . . . . . . . . . 34
Figura 12 – Exemplo de Holdout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Figura 13 – Distribuição e relação das notas médias de matemática e ciências PISA 2018 49
Figura 14 – Boxplot: Notas médias de ciências e matemática PISA 2018 . . . . . . . . 49
Figura 15 – Notas médias de ciências por país . . . . . . . . . . . . . . . . . . . . . . . 50
Figura 16 – Notas médias de matemática por país . . . . . . . . . . . . . . . . . . . . . 50
Figura 17 – Boxplot: Idades de professores . . . . . . . . . . . . . . . . . . . . . . . . 51
Figura 18 – Boxplot: Idades de professores por país . . . . . . . . . . . . . . . . . . . 51
Figura 19 – Boxplot: Idades de professores por sexo . . . . . . . . . . . . . . . . . . . 51
Figura 20 – Tempo de licenciatura ou programa de capacitação de professores . . . . . . 52
Figura 21 – Estudo em país estrangeiro . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Figura 22 – Atividades de desenvolvimento profissional . . . . . . . . . . . . . . . . . 53
Figura 23 – Capacidade da escola em fornecer uma boa educação em relação a qualifica
ção dos professores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Figura 24 – Uso de Jogos digitais como ferramentas de ensino . . . . . . . . . . . . . . 54
Figura 25 – Uso de ferramentas de produção multimídia como ferramentas de ensino . . 54
Figura 26 – Uso de recursos de computadores como ferramentas de ensino . . . . . . . 55
Figura 27 – Uso de redes sociais como ferramentas de ensino . . . . . . . . . . . . . . 55
Figura 28 – Uso de softwares de simulações como ferramentas de ensino . . . . . . . . 56
Figura 29 – Uso de softwares de instrução como ferramentas de ensino . . . . . . . . . 56
Figura 30 – Politica de uso de dispositivos eletronicos nas escolas . . . . . . . . . . . . 57
Figura 31 – Quantidade de Exemplos por Classe Teste de Matemática . . . . . . . . . 60
Figura 32 – Quantidade de Exemplos por Classe Teste de Ciências . . . . . . . . . . . 60
LISTA DE TABELAS
Tabela 1 – Questionários aplicados no Brasil em cada edição do PISA . . . . . . . . . 15
Tabela 2 – Países membros da OCDE . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Tabela 3 – Países parceiros da OCDE . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Tabela 4 – Testes cognitivos aplicados no Brasil em cada edição do PISA . . . . . . . 18
Tabela 5 – Resultados médios do Brasil x resultados médios dos países membros da
OCDE PISA 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Tabela 6 – Resultados médios do Brasil em todas as edições do PISA até 2018 . . . . . 19
Tabela 7 – Percentual de estudantes por nível de proficiência em matemática PISA 2018 20
Tabela 8 – Percentual de estudantes por nível de proficiência em ciência PISA 2018 . 20
Tabela 9 – Percentual de estudantes por nível de proficiência em leitura PISA 2018 . 21
Tabela 10 – Matriz de Confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Tabela 11 – Média dos resultados por país/economia . . . . . . . . . . . . . . . . . . . 58
Tabela 12 – Classes para resultados médios em matemática PISA 2018 . . . . . . . . . 59
Tabela 13 – Classes para resultados médios em ciências PISA 2018 . . . . . . . . . . 59
Tabela 14 – Rotulagem para resultados médios . . . . . . . . . . . . . . . . . . . . . . 59
Tabela 15 – Métricas Decision Tree para Matemática Holdout . . . . . . . . . . . . . 62
Tabela 16 – Métricas Random Forest para Matemática Holdout . . . . . . . . . . . . 62
Tabela 17 – Métricas Decision Tree para Ciências Holdout . . . . . . . . . . . . . . . 62
Tabela 18 – Métricas Random Forest para Ciências Holdout . . . . . . . . . . . . . . 62
Tabela 19 – Comparação de Desempenho pela Acurácia Holdout . . . . . . . . . . . 63
Tabela 20 – Comparação de Desempenho pelo MCC Holdout . . . . . . . . . . . . . . 63
Tabela 21 – 10 Maiores Feature Importance . . . . . . . . . . . . . . . . . . . . . . . . 63
LISTA DE ABREVIATURAS E SIGLAS
ANEB Avaliação Nacional da Educação Básica
Anresc Avaliação Nacional do Rendimento Escolar
CEDRE Cycle des Évaluations Disciplinaires Réalisées sur Échantillon
CHAID Chisquared Automatic Interaction Detection
Daeb Diretoria de Avaliação Básica
DBSCAN Densitybased Spatial Clustering ofApplications With Noise
DDF Directional Distance Function
EDA Exploratory Data Analysis
EDM Educational Data Mining
ENCCEJA Exame Nacional de Certificação de Competências de Jovens e Adultos
ENEM Exame Nacional de Ensino Médio
FN Falso Negativo
FP Falso Positivo
GPL General Public License
IA Inteligência Artificial
ICC Intraclass Correlation Coefficient
INEP Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira
LSAs LargeScale Assessments
MAE Mean Absolute Error
MAPE Mean Absolute Percentage Error
MCC Matthews Correlation Coefficient
MEC Ministério da Educação
ML Machine Learning
MLP Multilayer Perceptro
NAEP National Assessement ofEducation Progress

OCDE Organização para a Cooperação e Desenvolvimento Econômico
OECD Organisation for Economic Cooperation and Development
PISA Programme for International Student Assessment
PNE Plano Nacional de Educação
PNE Plano Nacional de Educação
PSO Particle Swarm Optimization
RF Random Forest
RFE Selection Recursive Feature Elimination
RNA Redes Neurais Artificiais
ROC Receiver Operating Characteristic)
RRSE Root Relative Squared Error
SAEB Sistema de Avaliação da Educação Básica
SAEB Sistema de Avaliação da Educação Básica
SVM Support Vector Machine
TFP Taxa de Falsos Positivos
TIMSS Trends in International Mathematics and Science Study
TP True Positive (TP)
TVP Taxa de Verdadeiros Positivos
UFVJM Universidade Federal dos Vales do Jequitinhonha e Mucuri
VN Verdadeiro Negativo
VP Verdadeiro Positivo
SUMÁRIO
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3 REFERENCIAL TEÓRICO . . . . . . . . . . . . . . . . . . . . . . . . 12
3.1 A Educação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Programme for International Student Assessment PISA . . . . . . . . 14
3.2.1 OCDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.2 PISA edição 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.3 Brasil no PISA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.3.1 Resultados Brasileiros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.3.2 Níveis de Desempenhos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Ciência de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.1 Préprocessamento de Dados . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.2 Análise exploratória de dados . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.3 Feature engineering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.4 Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3.5 Modelos de Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . 25
3.3.5.1 Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3.5.2 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.5.3 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.5.4 Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.5.5 Decision Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.5.6 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.5.7 Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.6 Conjunto de Treinamento, Validação e Teste . . . . . . . . . . . . . . . . 35
3.3.7 Métodos de avaliação de modelos . . . . . . . . . . . . . . . . . . . . . . 35
3.3.7.1 Matriz de Confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . . 39
4.1 Descrição dos Trabalhos . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1.1 Classification of PISA 2012 mathematical literacy scores using decision
tree method: Turkey sampling . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.2 On the use of conventional and statisticallearning techniques for the
analysis of PISA results in Spain . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.3 Predicting math performance from raw largescale educational assess
ments data: a machine learning approach . . . . . . . . . . . . . . . . . . 41
9
4.1.4 Mineração de Dados Educacionais nos Resultados do ENEM de 2015 . . 41

4.1.5 Prevendo desempenho dos candidatos do ENEM através de dados socioe
conômicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.1.6 Comparing the performance of data mining methods in classifying succes
sful students with scientific literacy in PISA 2015 . . . . . . . . . . . . . . 42
4.1.7 Predição do desempenho de Matemática e Suas Tecnologias do ENEM
utilizando técnicas de mineração de dados . . . . . . . . . . . . . . . . . . 42
4.1.8 Student and school performance across countries: A machine learning
approach. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.1.9 Eucational Data Mining: Identification of factors associated with school
effectiveness in PISA assessment . . . . . . . . . . . . . . . . . . . . . . . 43
4.1.10 A graphically based machine learning approach to predict secondary scho
ols performance in Tunisia . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.1.11 When didactics meet data science: process data analysis in largescale
mathematics assessment in France . . . . . . . . . . . . . . . . . . . . . . 45
4.1.12 Using data mining to predict secondary school student performance . . . . 46
5 MATERIAIS E MÉTODOS . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.1 Ferramentas para Ciência de Dados . . . . . . . . . . . . . . . . . . . . 47
5.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.2.1 Aquisição dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2.2 Compreensão dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2.3 Análise Exploratória de Dados . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2.4 Tratamento de dados faltantes . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.5 A Variável Dependente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.6 Feature Engineering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2.7 Modelagem de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2.8 Avaliação dos Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.1 Avaliação dos Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.2 Feature Importances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
7 CONCLUSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
7.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
10
1 INTRODUÇÃO
A educação está presente e ligada a várias áreas de interesse coletivo.Sabendose
dessa importância, Avaliações em Larga Escala ou LargeScale Assessments LSAs são apli
cadas em diversos países, objetivandose identificar tais cenários educacionais, bem como mo
nitorar as habilidades cognitivas relacionadas à literacia e à numeracia (HOYOS; ESTRADA;
VARGAS, 2021).
Para o Brasil, assim como outros países, é de suma importância compreender a real
situação de seus sistemas educacionais para promover mudanças que possam visar a melhoria da
educação. O Programa Internacional de Avaliação de Alunos ou Programme for International
Student Assessment PISA promovido pela Organização para a Cooperação e Desenvolvimento
Econômico OCDE (Organisation for Economic Cooperation and Development OECD) que
é aplicado em diversos países, possui exatamente o objetivo de produzir indicadores de quadros
educacionais dos países participantes (INEP, 2015).
Além das avaliações em ciências, leitura e matemática, o PISA realiza coletas de
dados relacionados aos alunos, escolas e professores, bem como, variáveis demográficas e soci
oeconômicas através de questionários (INEP, 2016). Os dados coletados sãos disponibilizados
pela OCDE para a realização de estudos, em que técnicas e tecnologias possam ser utilizadas
sobre tais dados para extração de informações relevantes sobre fatores determinantes de desem
penho, bem como outros insigts relacionados à educação.
Segundo INEP (2019) os resultados do Brasil no PISA 2018 são preocupantes, pois,
nas três áreas de conhecimento avaliadas, apresentouse uma baixa proficiência, comparando
se aos 78 países participantes do PISA. O ano avaliado identificou que 68,1% dos estudantes
em matemática, 55% em ciências e 50% em leitura não possuem o nível básico necessário para
exercício pleno da cidadania.
Tais resultados, indicam o grave cenário educacional que o Brasil enfrenta nas três
áreas de conhecimento. Nesse sentido, pesquisas para a melhoria desses resultados são impres
cindíveis. Tendo em vista tal necessidade, este trabalho se propõe à utilização de técnicas da
Ciência de Dados, para a extração de conhecimento dos dados oriundos do PISA 2018, com o
intuito de identificar características do questionário contextual, aplicado aos professores, que
tem relevância sobre os resultados dos alunos nas avaliações de matemática e ciências.
11
2 OBJETIVOS
Este trabalho tem como objetivo descobrir quais características coletadas pelo questi
onário, aplicado aos professores no PISA edição 2018, têm mais influência sobre o desempenho
dos alunos nas avaliações de matemática e ciências através da aplicação de técnicas da Ciência
de Dados.
Os resultados dessa pesquisa têm o intuito de servir de base para elaboração e/ou
otimização de políticas educacionais do Brasil, em uma tentativa de contribuição para a melhoria
do quadro atual da educação brasileira.
Dessa maneira, este estudo busca responder à seguinte questão:
• Quais variáveis dos dados coletados pelo questionário dos professores mais impactam no
desempenho em matemática e ciência dos alunos que foram avaliados pelo PISA 2018?
2.1 Objetivos Específicos
Para que o objetivo geral seja alcançado este trabalho visa contemplar os seguintes
objetivos específicos:
• Apresentar definições relacionadas ao teste do PISA e à Ciência de Dados.
• Relatar a situação dos resultados do Brasil mediante ao PISA 2018.
• Apresentar alguns trabalhos relacionados à temática dessa pesquisa.
• Aplicar técnicas da Ciência de Dados aos dados obtidos pelo questionário respondido
pelos professores no PISA edição 2018.
• Analisar e interpretar os resultados obtidos com as técnicas da Ciência de Dados.
• Identificar as características que mais influenciam no desempenho dos alunos no PISA
nos testes de matemática e ciências.
12
3 REFERENCIAL TEÓRICO
Para melhor compreensão da metodologia adotada neste trabalho, este capítulo
busca apresentar uma base teórica acerca dos conceitos relacionados ao contexto da Educação,
PISA e Ciência de dados.
3.1 A Educação
A educação é uma prática social que se mantém presente em vários cenários e cir
cunstâncias, da vida do ser humano (DOURADO; OLIVEIRA; SANTOS, 2007). A palavra
educação é derivada do verbo educar que em latim é educare, palavra essa, que é formada pelos
termos e ou ex equivalendo a “de dentro de, para fora” e o ducere que significa “tira”, “levar”
(SAUPE; BUDÓ, 2006), “conduzir” ou “guiar”, em que o uso da palavra educare em latim de
signava o sentido de “criar”, “nutrir” e “fazer crescer” (MARTINS, 2005 apud ROMANELLI,
1964).
Sob uma perspectiva etimológica, educação pode ser entendida como processo de
retirar da pessoa algo que está presente nela, sendo o processo de desenvolvimento de um indi
víduo com aquilo já presente nele, porém, este significado do terno evoluiu através do tempo
(SAUPE; BUDÓ, 2006). De modo geral, a educação tem o propósito de preparar o ser humano
para se desenvolver ao longo da vida em diversos aspectos e contextos (CASCAIS; TERÁN,
2014).
O conceito de educação não se restringe ao contexto escolar, Gohn (2006, p.28) cita
a existência de três tipos de educação sendo, a educação formal, informal e não formal. A autora
faz a seguinte diferenciação, entre elas:
a educação formal é aquela desenvolvida nas escolas, com conteúdos previa

mente demarcados; a informal como aquela que os indivíduos aprendem du
rante seu processo de socialização na família, bairro, clube, amigos etc., car
regada de valores e culturas próprias, de pertencimento e sentimentos herdados:
e a educação nãoformal é aquela que se aprende “no mundo da vida”, via os
processos de compartilhamento de experiências, principalmente em espaços e
ações coletivas cotidianas.
Por muito tempo a educação, informal e nãoformal não tiveram sua devida impor
tância e valorização reconhecida, fato esse que vem mudando e, desde a última metade do século
XX, vem ganhando a visibilidade visto que são parte crucial na vida e no desenvolvimento do
ser humano (ALVES, 2014).
Um termo comumente vinculado à Educação é o termo alfabetização que, segundo
Brasil (2019) muitas vezes é usado erroneamente causando confusões, visto que deriva do al
fabeto, porém, costuma ser interpretado como aprendizagem inicial. A Política Nacional de
Alfabetização PNA define Alfabetização como “o ensino das habilidades de leitura e de es
crita em um sistema alfabético”(BRASIL, 2019, p.18).
Devido ao fato de que a alfabetização está ligada a sistemas de linguagem que têm
por base somente o alfabeto, o termo se torna pouco abrangente, então, para se referir a outros
sistemas de escrita mesmo que não seja o alfabético, como por exemplo o ideográfico, cujo
termo Literacia é mais adequado (BRASIL, 2019, p.18). .
13
A Literacia pode ser interpretada como uma série de fatores como habilidades e
conhecimentos que envolvem a leitura e escrita, sendo fundamental para o exercício pleno da
cidadania. A Literacia é dividida em 3 níveis (BRASIL, 2019):
• Literacia Básica também chamada de literacia emergente, envolve a aquisição de conhe
cimento para desenvolvimento de habilidade fundamentais para a alfabetização.
• Literacia intermediária habilidades mais avançadas como ortografia, compreensão de
texto e leitura oral.
• Literacia disciplinar habilidade direcionada a conteúdos educacionais específicos.
A partir da Literacia surgiu a “Literacia matemática” visto que no processo de es
colarização também era necessário o desenvolvimento de habilidades em matemática, que em
inglês numerical literacy foi popularizado como “numeracy” (BRASIL, 2019). Em português
o termo foi traduzido como numeralização, numeramento e numeracia (CAMPETTI; DORNE
LES, 2022).
Segundo Brasil (2019, p.24), a numeracia “não se limita à habilidade de usar nú
meros para contar, mas, se refere antes à habilidade de usar a compreensão e as habilidades
matemáticas para solucionar problemas e encontrar respostas para as demandas da vida cotidi
ana”.
Borgonovi, Choi e Paccagnella (2021) citam que numeracia e literacia são habili
dades fundamentais que influenciam diretamente em questões salariais do mercado de trabalho
moderno, reforçando, assim, a importância de se estar atento a tais questões cognitivas.
Ainda, a partir da palavra em inglês literacy surgiu o termo Letramento (ROSA;
MARTINS, 2007). O conceito de letramento vai além das habilidades de ler e escrever, visto
que engloba a sua aplicação em práticas sociais.
Para avaliação a consolidação do letramento em diversos cenários por muitas vezes
são utilizadas as chamadas Avaliações em Larga Escala. Podese definir como Avaliações em
Larga Escala ou Largescale Assessments LSAs testes e/ou questionários aplicados a um grande
número de estudantes simultaneamente (THURLOW, 2010). No Brasil, há várias modalidades
de Avaliações em Larga Escala focadas em diferentes contextos, dentre essas estão (WERLE,
2010):
• Avaliação Nacional da Educação Básica ANEB;
• Avaliação Nacional do Rendimento Escolar Anresc;
• Exame Nacional de Certificação de Competências de Jovens e Adultos ENCCEJA;
• Prova Brasil;
• Exame Nacional de Ensino Médio ENEM;
• Provinha Brasil.
Fora do contexto brasileiro, outros países utilizam das LSAs como indicadores de
progresso de quadros educacionais como por exemplo o National Assessement of Education
Progress – NAEP nos Estados Unidos (MAIA; JUSTI, 2008) e o Cycle des Évaluations Disci
plinaires Réalisées sur Échantillon CEDRE na França (ROCHER; BUREAU, 2014).
14
Além de LSAs focadas em um determinado país, existem as que extrapolam seus

contextos nacionais, como é o caso do Trends in International Mathematics and Science Study
TIMSS que tem como objetivo avaliar, principalmente, conteúdos de matemática e ciências
(MULLIS; MARTIN, 2017) e do Programme for International Student Assessment PISA
que avalia habilidades dos alunos relacionadas ao letramento em leitura, matemática e ciências
(INEP, 2019a).
3.2 Programme for International Student Assessment PISA
O Programa Internacional de Avaliação de Estudantes ou Programme for Internati
onal Student Assessment PISA é uma avaliação em larga escala aplicada aos alunos do ensino
fundamental com 15 anos de idade que estão finalizando a educação obrigatória. Este teste é
aplicado a cada três anos e busca avaliar, sobretudo, três áreas do conhecimento: leitura, mate
mática e ciências (INEP, 2020b).
O PISA é coordenado pela Organização para Cooperação e Desenvolvimento Econô
mico ou Organisation for Economic Cooperation and Development OECD juntamente com
as coordenações dos países participantes, no caso do Brasil a coordenação é realizada pelo Insti
tuto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira Inep (INEP, 2015). Vários
são os participantes do PISA, dentre eles, centros de pesquisas, públicos e privados, criadores
de políticas nacionais e internacionais, diferentes profissionais da OCDE e vários burocratas e
técnicos (PETTERSSON; MOLSTAD, 2016).
Até o final da década de 90, os comparativos dos resultados educacionais da OCDE
não levavam em contam o que realmente os alunos poderiam fazer com os conhecimentos adqui
ridos. Aplicado pela primeira vez no ano 2000, o PISA mudou isso, visto que, mensura através
de uma métrica acordada internacionalmente se os conhecimentos adquiridos são suficientes
para o estudante enfrentar os desafios fora do contexto escolar.
A ideia do PISA é ser uma avaliação diferente das tradicionais, pois avalia questões
além de uma mera reprodução do conteúdo aprendido na escola, extrapolando os assuntos e
temas abordados em sala de aula, aplicando o conhecimento de maneira criativa em situações
diferentes e novas. Esse fato levou algumas pessoas a argumentarem que o PISA seria um teste
injusto, já que confronta os alunos com problemas não aprendidos em sala de aula. Mas, a
ideia por trás do PISA é justamente esta, pois, o teste da vida real não é se o aluno lembra dos
conteúdos aprendidos na escola, mas se o aluno é capaz de solucionar problemas não aprendidos
antecipadamente (SCHLEICHER, 2019).
Pettersson e Molstad (2016) consideram que o PISA não seja um mero teste, visto
que vai muito além da atividade da avaliação, pois envolve processos, reuniões e discussões. Os
dados produzidos pelo PISA não são somente os resultados das avaliações, mas, um conjunto
de dados do aluno, escola, professores, assim como variáveis demográficas, socioeconômicas
e educacionais que são indispensáveis para a criação de uma interpretação contextual. Esses
dados são obtidos através de questionários aplicados aos estudantes, diretores de escolas, pro
fessores e pais, abordando histórico familiar dos alunos, suas oportunidades e seus ambientes
15
de aprendizagem. Os questionários contextuais e um número de itens das áreas avaliadas são

disponibilizados pela OCDE (INEP, 2016).
A partir de análises desses dados contextuais relacionados ao desempenho dos alu
nos é possível produzir indicadores de quais contextos em que os alunos estão inseridos são
determinantes para a elevação do desempenho do aluno. Os questionários aplicados no Brasil
desde a primeira edição do PISA podem ser observados na Tabela 1.
Tabela 1 – Questionários aplicados no Brasil em cada edição do PISA

2000 2003 2006 2009 2012 2015 2018
Estudante Estudante Estudante Estudante Estudante Estudante Estudante
Geral Geral Geral Geral Geral Geral Geral
Escola Escola Escola Escola Escola Escola Escola
Estudante – Estudante –
Familiaridade Familiaridade
com com
tecnologia da tecnologia da
informação e informação e
comunicação (TIC) comunicação (TIC)
Professor Professor
Pais
Fonte: INEP, 2020b. Adaptado.
Segundo INEP (2020b), as seguintes informações foram coletadas pelos questioná

rios:
• Estudante Geral: Informações referentes à aspectos da vida particular do estudantes
como histórico e ambiente familiar, hábitos dentro e fora da escola e questões relacionadas
a fatores financeiro, sociais e culturais.
• Escola: Informações relacionadas à gestão da escola, recursos, atividades extracurricula
res oferecidas, metodologia de tomada de decisão e curriculum escolar.
• Estudante – Familiaridade com Tecnologia da Informação e Comunicação (TIC): Foco em
coletar informações sobre disponibilidade e utilização de TIC bem como a capacidade e
atitude dos alunos relacionados ao mesmo.
• Professor: Informações relacionadas à atividades de desenvolvimento profissional, cren
ças, atitudes, práticas de ensino e formação inicial.
• Pais: Dados sobre o relacionamento entre pais e escola como percepções, envolvimento e
questões relacionadas ao ambiente doméstico, como por exemplo o apoio ao aprendizado,
escolha da escola e a expectativa em relação ao futuro dos filhos.
O PISA visa produzir conhecimento para auxiliar na elaboração de políticas e forne
cer aos decisores políticos, ferramentas para sua própria orientação (CARVALHO, 2016). Dessa
forma o PISA contribui com informações sobre os fatores que levam à construção da aprendiza
gem do aluno, tanto no contexto escolar, quanto fora de sala de aula (INEP, 2019b).
Segundo Aguiar (2008), o PISA é elaborado com uma abordagem dinâmica, na qual
os conhecimentos devem ser continuamente adquiridos para uma adaptação bem sucedida ao
16
mundo que está em constante transformação, avaliando, então, a capacidade para a participação
efetiva do aluno na sociedade.
Cada vez mais, gestores utilizam resultados de pesquisa com o PISA para tomadas
de decisão referente à educação, como por exemplo, o Plano Nacional de Educação (PNE) para
o estabelecimento de metas de melhoria de desempenho dos alunos (INEP, 2016).
3.2.1 OCDE
A Organização para a Cooperação e Desenvolvimento Econômico OCDE foi cri
ada em 1960 por 18 países europeus e dois países norteamericanos (Estados Unidos e Canadá)
com o objetivo de unir forças na dedicação ao desenvolvimento econômico. Atualmente é com
posta por 38 países, conforme apresenta a Tabela 2.
Tabela 2 – Países membros da OCDE

Alemanha Hungria
Austrália Irlanda
Áustria Islândia
Bélgica Israel
Canadá Itália
Chile Japão
Colômbia Letônia
Coreia do Sul Lituânia
Costa Rica Luxemburgo
Dinamarca México
Eslováquia (República Eslovaca) Noruega
Eslovênia Nova Zelândia
Espanha Polônia
Estados Unidos Portugal
Estônia Reino Unido
Finlândia República Tcheca
França Suécia
Grécia Suíça
Holanda Turquia
Fonte: OECD, 2021
As áreas de interesse e pesquisa da OCDE estão relacionadas à economia, agricul

tura, comércio, energia, meio ambiente, administração pública, educação, emprego, temas soci
ais, ciência, tecnologia, políticas industriais, fiscais e financeiras (ARAUJO, 2013).
A Educação não é a primeira preocupação da OCDE, mesmo assim, tem se tornado
muito importante ao longo dos anos, uma vez que, através dos rankings, publicações, avaliações
de conhecimento internacionais, revisões de programas educacionais e temáticas modelaram o
discurso de políticas internacionais mesmo não possuindo instrumentos legais para a elaboração
de políticas nacionais (PETTERSSON; MOLSTAD, 2016).
17
3.2.2 PISA edição 2018

O PISA 2018 foi a sétima edição desde seu lançamento em 2000, avaliando habili
dades em leitura, matemática e ciências. Em cada edição do PISA existe um foco maior em uma
das três áreas de conhecimento, no ano de 2018 o teste focou em leitura. Em outras palavras, os
estudantes responderam a um número maior de questões relacionadas à leitura e, consequente
mente o tempo reservado para esse teste foi maior.
Em 2018, além das três principais áreas de conhecimento o PISA avaliou domínios
de conhecimento chamados inovadores, que nessa edição foram Letramento Financeiro e Reso
lução Colaborativa de Problemas (INEP, 2020b).
No PISA 2018 participaram cerca de 600.000 alunos representando os 79 países/e
conomias, sendo 37 países membros da OCDE e 42 parceiros (INEP, 2019b), nessa adição a
Costa Rica participou como país convidado, pois só se tornou membro da OCDE em 2021. Os
países/economias parceiros que participaram dessa edição estão descritos na Tabela 3.
Tabela 3 – Países parceiros da OCDE

Albânia Kosovo
Arábia Saudita Líbano
Argentina Macau (China)
Azerbaijão (somente a capital Baku) (República da) Macedônia do Norte
Bielorrússia Malásia
BósniaHerzegovina Malta
Brasil Marrocos
Brunei Darussalam (República da) Moldávia
Bulgária Montenegro
Catar Panamá
Cazaquistão Peru
BSJZ1 República Dominicana
Costa Rica Romênia
Croácia Rússia (Federação Russa)
Emirados Árabes Unidos Sérvia
Escócia Cingapura
Filipinas Tailândia
Geórgia Taipé Chinesa
Hong Kong (China) Ucrânia
Indonésia Uruguai
Jordânia Vietnã.
Fonte: INEP, 2019b
1 Beijing, Shanghai, Jiangsu e Zhejiang que são províncias Chinesas.

18
3.2.3 Brasil no PISA

Desde seu lançamento em 2000 o Brasil participa do PISA como país convidado,
representado pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira pe
rante a OCDE, sendo responsável por funções como planejamento, tradução, aplicação do teste,
coleta das respostas dos participantes dentre outros (INEP, 2019a).
No Brasil são realizadas outras SLAs como mencionado anteriormente, porém, é
importante destacar que o diferencial do PISA em relação às demais é a possibilidade de se
comparar os resultados com outros países/economias (INEP, 2019b).
No Brasil foi somente em 2015 que os questionários contextuais foram aplicados de
maneira integral utilizandose computadores. Os alunos dispuseram de 2 horas para realizar as
provas com as temáticas de ciências, leitura, matemática e resolução colaborativa de problemas.
O questionário contextual deveria ser respondido no máximo em 35 minutos e o
questionário sobre familiaridade com tecnologias da informação em 10 minutos. Os demais
questionários sobre ambiente escolar foram respondidos em até 45 minutos de maneira online
(INEP, 2016).
Um fato interessante sobre esta edição do PISA é que foi a primeira vez que se
aplicou questionários aos professores, no qual eles responderam questões sobre qualificação
e desenvolvimento profissional, práticas de ensino, ambiente para aprendizagem, liderança e
gerenciamento escolar (INEP, 2016).
Em 2018, do total de participantes, 10691 eram brasileiros matriculados em 597
escolas espalhadas por todo o Brasil. Nesta edição apesar de serem avaliados dois domínios
inovadores, o Brasil participou apenas do Letramento Financeiro (INEP, 2019b).
As áreas cognitivas avaliadas no Brasil em cada edição do PISA podem ser obser
vados na Tabela 4, na qual é destacado o domínio principal avaliado em cada edição, que foi
inciado em 2000 com Leitura e continuou rotativamente com as outras áreas de conhecimento
(IAVE, 2021).
Tabela 4 – Testes cognitivos aplicados no Brasil em cada edição do PISA

2000 2003 2006 2009 2012 2015 2018
Leitura Leitura Leitura Leitura Leitura Leitura Leitura
Matemática Matemática Matemática Matemática Matemática Matemática Matemática
Ciências Ciências Ciências Ciências Ciências Ciências Ciências
Letramento
financeiro
Letramento
Resolução financeiro
colaborativa
de problemas.

19
3.2.3.1 Resultados Brasileiros

Segundo INEP (2020b), não existe uma única maneira de apresentar os resultados
das avaliações do PISA, visto que, existe a possibilidade de relatar tais resultados através das
notas médias dos testes de proficiência, ou através de níveis de desempenho.
A Tabela 5 apresenta os resultados médios dos alunos do PISA 2018 em cada uma
das três áreas de conhecimento. Para fins de comparações, essa tabela também traz os resulta
dos médios dos estudantes dos países membros da OCDE que participaram dessa edição. Os
resultados do Brasil em todas as edições podem ser observados na Tabela 6.
Tabela 5 – Resultados médios do Brasil x resultados médios dos países membros da OCDE PISA
2018
Média Brasil Média OCDE
Matemática 384 492
Leitura 413 487
Ciências 404 489
Tabela 6 – Resultados médios do Brasil em todas as edições do PISA até 2018

2000 2003 2006 2009 2012 2015 2018
Matemática 334 356 370 386 391 377 384
Leitura 396 403 393 412 410 407 413
Ciências 375 390 390 405 405 401 404
Fonte: INEP, 2020a. Adaptado.
3.2.3.2 Níveis de Desempenhos

Os níveis de desempenhos foram criados para facilitar a interpretação dos resultados,
em que para cada nível existe uma descrição das capacidades esperadas do aluno de acordo com
a nota dele (INEP, 2016).
A cada 3 edições do PISA, os esquemas de níveis de desempenho são revisados e
podem ser alterados. Em 2018, apenas o nível relacionado à avaliação de leitura sofreu mo
dificações quando comparado aos níveis definidos na edição anterior (OECD, 2019). Dessa
maneira, para a edição de 2018 foram definidos os níveis representados na Tabela 7 para o teste
de matemática, na Tabela 8 para o teste de Ciências e na Tabela 9 para o teste de Leitura.
Nessas tabelas são apresentados os escores mínimos para que o estudante esteja
incluso em um determinado nível e também os percentuais de estudantes que estão em cada
nível. Para fins de comparação, também são apresentados os percentuais de estudantes membros
da OCDE em cada nível.
20
Tabela 7 – Percentual de estudantes por nível de proficiência em matemática PISA 2018

Nível Escore Mínimo Percentual de Estudantes no Nível
OCDE: 2,4%
6 669
Brasil: 0,1%
OCDE: 8,5%
5 607
Brasil: 0,8%
OCDE: 18,5%
4 545
Brasil: 3,4%
OCDE: 24,4%
3 482
Brasil: 9,3%
OCDE: 22,2%
2 420
Brasil: 18,2%
OCDE: 14,8%
1 358
Brasil: 27,1%
Abaixo de OCDE: 9,1%
1 Brasil: 41,0%
Tabela 8 – Percentual de estudantes por nível de proficiência em ciência PISA 2018

OCDE: 0,8%
6 708
Brasil: 0,0%
OCDE: 5,9%
5 633
Brasil: 0,8%
OCDE: 18,1%
4 559
Brasil: 4,6%
OCDE: 27,4%
3 484
Brasil: 13,9%
OCDE: 25,8%
2 410
Brasil: 25,3%
OCDE: 16,0%
1a 335
Brasil: 31,4%
OCDE: 5,2%
1b 261
Brasil: 19,9%
Abaixo OCDE: 0,7%
de 1b Brasil: 4,0%
Observandose as tabelas, é possível notar que a maioria dos estudantes brasileiros

ficaram classificados com níveis de proficiência mais baixos nas três áreas de conhecimento
avaliadas quando comparados aos estudantes oriundos de países membros da OCDE.
21
Tabela 9 – Percentual de estudantes por nível de proficiência em leitura PISA 2018

OCDE: 1,3%
6 698
Brasil: 0,2%
OCDE: 7,4%
5 626
Brasil: 1,7%
OCDE: 18,9%
4 553
Brasil: 7,4%
OCDE: 26,0%
3 480
Brasil: 16,3%
OCDE: 23,7%
2 407
Brasil: 24,5%
OCDE: 15,0%
1a 335
Brasil: 26,7%
OCDE: 6,2%
1b 262
Brasil: 17,7%
OCDE: 1,4%
1c 189
Brasil: 5,3%
Abaixo de OCDE: 0,1%
1c Brasil: 0,4%
3.3 Ciência de Dados

Ciência de Dados ou Data Science é uma área multidisciplinar que vem ganhando
notoriedade no mundo nos últimos anos, na ciência e no mundo dos negócios. Esse crescimento
é devido às exigências em se lidar com grandes quantidade de dados, tanto em volume, quanto
em variedade (CURTY; CERVANTES, 2016).
O termo foi criado na década de 2010 e corresponde aos chamados de Sistema de
Suporte à Decisão ou Decision Support Systems (nos anos 80 aos) e Executive Information Sys
tems (nos anos 90) (CAVIQUE, 2014a). Algumas definições de Ciência de Dados podem ser
aplicadas, dentre elas :
um processo computacional para descobrir “padrões” envolvendo métodos que

combinam a estatística com machine learning e tecnologias de base de dados.
Os padrões que se encontram na natureza ou manufaturados têm uma configu
ração específica e caracterizamse por uma regularidade, repetição de partes e
acumulação de elementos. Por exemplo, uma duna, criada pela ação do vento,
é composta por várias camadas de areia e tem uma configuração reconhecível
(CAVIQUE, 2014b, p.92).
O processo que envolve um projeto de Ciência de Dados é bastante flexível e adap

tável a vários cenários, mas algumas etapas são comumente encontradas em tais projetos, sendo
elas:
• Entendimento do problema: é considerada uma das etapas mais importantes, pois, a má
compreensão do problema e da contextualização dele pode levar a resultados sem valor
ou errados (PACHECO et al., 2014).
• Coleta, préprocessamento e compreensão do dados: consiste, primeiramente, na aquisi
ção de dados e retirada de registros errados, nulos, inválidos, desformatados, duplicados
22
etc, ou seja, qualquer registro que possa atrapalhar a etapas posteriores. Nessa etapa é
importante compreender como os dados estão estruturados, notações, simbologias, mape
amento de chave valor, etc (WITTEN et al., 2016).
• Análise exploratória de dados: são aplicadas técnicas estatísticas de grande variedade
gráfica, quantitativas e qualitativa a fim de resumir os dados para análise, interpretação e
extração de conclusões (MEDRI, 2011).
• Feature Engineering: nessa etapa o cientista de dados analisa quais informações podem
ser retiradas ou agrupadas com o objetivo de simplificar a base de dados. Algumas ca
racterísticas podem ser eleitas para representar um conjunto de outras (STEARNS et al.,
2017a).
• Modelagem de dados: são implementados e aplicados modelos estatísticos e de apren
dizado de máquina (por exemplo, modelos de classificação e clusterização) para validar
uma hipóteses (MEDIUM, 2018).
• Apresentação das descobertas: os resultados devem ser apresentados de maneira clara e
compreensível, tendo em conta que, um dos determinantes do sucesso da ciência de dados
é a boa comunicação com o público alvo.
• Utilização do conhecimento: essa é a fase final do projeto de ciência de dados. Aqui o
conhecimento que foi adquirido é aplicado em um determinado contexto para solucionar
problemas que foram especificados na primeira etapa do projeto.
Para melhor compreensão, a Figura 1 apresenta as etapas que podem compor o pro
cesso de um projeto de Ciência de Dados.
Figura 1 – Processo de um Projeto de Ciência de Dados
Fonte: Próprio Autor.
3.3.1 Préprocessamento de Dados

Durante a coleta de dados é comum haver dados incompletos, com ruídos e incon
sistentes, fato que compromete a qualidade dos dados. As tarefas de préprocessamento são
realizadas antes da etapa de modelagem com a finalidade de preparar os dados brutos para evi
tar resultados incorretos.
23
As seguintes tarefas podem estar presentes na etapa de Préprocessamento de Dados

(MICROSOFT, 2022):
• Limpeza de dados ou Data cleaning: consiste em um processo de remoção de dados
que atrapalham o processo de modelagem. Nessa etapa os dados considerados ”sujos”,
inválidos ou sem muita relevância são eliminados e dados ausentes são tratados.
• Transformação de dados: é realizada a normalização dos dados que consiste em redimen
sionar os valores numéricos em um intervalo específico.
• Redução de Dados: redução do tamanho dos conjuntos de dados a fim de simplificar o
problema.
• Discretização de dados: transformase elementos numéricos contínuos em elementos dis
cretos.
• Limpeza de texto: remoção de elementos textuais como por exemplo caracteres de forma
tação.
3.3.2 Análise exploratória de dados
A Análise Exploratória de Dados ou Exploratory Data Analysis EDA provê méto
dos de estudos para o detalhamento de um conjunto de dados com o objetivo de extrair informa
ções para direcionar aplicações de modelos mais adequados ao conjunto (MEDRI, 2011).
Não é o objetivo principal desse tipo de análise testar hipóteses, mas, se concentrar
em encontrar padrões e tendências em todos os tipos de dados (BAKKER; BIEHLER; KO
NOLD, 2004). A EDA utiliza, principalmente, técnicas visuais para revelar informações vitais
sobre um determinado conjunto de dados (HARTWIG; DEARING, 1979).
Para Kürzl (1988), a EDA é uma forma não convencional de visualizar dados que
apresentam uma variedade de técnicas simples, mas, muito eficazes baseadas nos próprios dados
e não em modelos, permitindo visualizar o comportamento dos dados, especialmente, quando
uma combinação de técnicas é utilizada.
Dentre as técnicas que podem ser utilizadas na EDA temos: os gráfico de colunas,
gráfico de barras, gráfico de linhas, gráfico de setores, gráfico de colunas múltiplas, histograma,
polígonos de frequências e box plot (MEDRI, 2011).
3.3.3 Feature engineering
Segundo Zheng e Casari (2018), Feature Engineering é o ato de se extrair features
de um conjunto de dados brutos, transformandoos em formatos que são aplicáveis aos inputs
de modelos de machine learning, na qual uma feature é uma representação de algum aspecto
dos dados brutos.
Algumas abordagens podem ser utilizadas na etapa de Feature Engineering, sendo
elas:
• Wrapper (Embrulho): nessa abordagem um modelo escolhido é executado para um sub
conjunto de dados e, posteriormente avaliado pela taxa de acurácia. Dessa maneira, as
features selecionadas são as pertencentes ao subconjunto com melhor avaliação de predi
ção dos resultados a (ALMEIDA et al., 2018).
24
• Filtro: essa técnica não usa um algoritmo de classificação para selecionar os melhores
atributos, mas sim, alguns critérios que refletem características da própria base de dados
para “filtrar”as melhores features (PARMEZAN et al., 2012).
• Embedded (Incorporado): nessa abordagem os atributos são selecionados durante a fase
de treinamento do modelo, no qual de modo geral, cada algoritmo apresenta sua própria
técnica de seleção de atributos(ALMEIDA et al., 2018).
• Recursive Feature Elimination RFE que seleciona recursivamente as melhores features
através de índices de importância ou correlação de atributos extraídos de um determinado
modelo de aprendizado de máquina que é passado como parâmetro. Outro parâmetro
necessário é a quantidade de features esperada como resultado. A escolha de ambos os
parâmetros fica a critério do utilizador da técnica. Nessa abordagem, o algoritmo irá exe
cutar o processo de treinamento do modelo e remoção das features menos importantes
várias vezes até que a quantidade seja igual a quantidade recebida como parâmetro (VAS
CONCELLOS, 2019). Uma desvantagem dessa técnica é seu alto custo computacional,
visto que o modelo é treinado várias vezes para a remoção das features.
Para Nargesian et al. (2017), a Feature Engineering é uma etapa que aprimora o
desempenho da modelagem de dados, sendo uma tarefa central que precede a aprendizagem da
máquina envolvendo aplicação de funções de transformação que geram novos recursos, que por
sua vez levam ao aprimoramento do modelo. Essas técnicas podem ser utilizadas ainda para
diminuir a complexidade dos modelos diminuindo, assim, requisitos computacionais exigidos.
3.3.4 Aprendizado de Máquina
Aprendizado de Máquina é uma área de estudo da Inteligência Artificial ( um ramo
da ciência da computação que se refere amplamente à qualquer comportamento de uma máquina,
ou sistema que imita o comportamento humano) com foco em desenvolver técnicas de aprendi
zado computacional. Para tanto, são utilizados sistemas de aprendizado, que são softwares que
tomam decisões a partir de experiências acumuladas de problemas anteriormente solucionados
(SANTOS, 2005).
O Aprendizado de Máquina ou Machine Learning é amplamente utilizado em mui
tas áreas que utilizam recursos computacionais, como por exemplo, na área de classificação,
reconhecimento de padrões e jogos (BIANCHI, 2004). Além disso os sistemas de aprendizado
podem ser ser utilizados com a finalidade de reproduzir ou simular outros tipos de aprendizados,
dentre eles o aprendizado humano (ARAÚJO, 2004).
Uma atividade importante para ajudar a melhorar a qualidade dos resultados é a
escolha em número e qualidade dos exemplos(exemplos que não retratam a realidade) que são a
base de aprendizado, uma má escolha de tais exemplos pode gerar resultados que não retratam
a realidade da previsão, podendo gerar overfitting ou underfitting.
Em casos de overfitting os resultados para o grupo de treinamento é excelente, mas,
para os dados de teste é ruim. Já para o underfitting o resultado do modelo é ruim na própria
fase de treinamento (MALHEIROS, 2017).
25
De acordo com as interações do agente de aprendizado para a concepção do conhe

cimento são criadas classes de aprendizado de máquina que são: supervisionado, não supervisi
onado e por reforço (BIANCHI, 2004).
No aprendizado supervisionado o sistema de aprendizado, ou indutor, é alimentado
com exemplos já classificados. Cada exemplo é formado por um conjunto de atributos e uma
classe. Dessa maneira o sistema aprende com esses exemplos já classificados para tentar pre
ver a classe de novos atributos não previamente classificados (MONARD; BARANAUSKAS,
2003c).
O aprendizado não supervisionado se diferencia do supervisionado, sobretudo, pelo
fato de não existir uma classe atrelada a um conjunto de atributos. Nesse caso, o algoritmo de
aprendizado tenta agrupar de alguma maneira os atributos criando, assim, os chamados clusters.
Nessa abordagem, se faz necessário que, após o agrupamento sejam realizadas análises para
o relacionamento dos clusters obtidos com o contexto dos atributos inseridos no sistema de
aprendizagem (MONARD; BARANAUSKAS, 2003c).
Aprendizado por reforço é realizado via experimentação direta do ambiente sem a
presença de algum tipo de tutor que provê exemplos (RIBEIRO, 1999) fato que faz com que esse
tipo de aprendizado tenha bons resultados de atuação em ambientes desconhecidos (BIANCHI,
2004). Nesse sistema de aprendizado buscase aumentar um determinado ganho através de
ações, nas quais o ganho é fornecido pelo ambiente fazendo com que essa interação (física ou
simulada) com o ambiente seja indispensável (ARAÚJO, 2004). Faria e Romero (2002) definem
a modelagem do problema de aprendizado por reforço:
(...) um conjunto de estados do ambiente, um conjunto de ações e um conjunto

de recompensas. Para cada ação realizada em um estado do ambiente o agente
recebe uma recompensa. O agente não sabe qual é a melhor ação a tomar,
como em muitas formas de aprendizado de máquina, por isso ele deve desco
brir, através de tentativas, quais ações lhe rendem maior recompensa (FARIA;
ROMERO, 2002, p.220).
3.3.5 Modelos de Aprendizado de Máquina

Devido à vasta quantidade de implementações de modelos de aprendizado de má
quina, essa seção visa apresentar de maneira simplificada uma visão teórica de alguns modelos
de aprendizado de máquina que são bem conhecidos pela comunidade acadêmica.
3.3.5.1 Regressão Linear
O termo “regressão” foi proposto proposto pela primeira vez por Sir Francis Galton
em 1885 em seu estudo sobre a relação entre a altura dos filhos e pais. O termo “Análise de
Regressão” define várias técnicas estatísticas utilizadas na modelagem de relação entre variáveis
e na predição de valores (PAULA, 2006).
O objetivo da regressão linear é descobrir e identificar relações entre duas variáveis
que podem ser positiva ou negativa e para tanto a plotagem de um gráfico pode ser utilizada, tal
gráfico é chamado de gráfico de dispersão. O gráfico de dispersão deve ser analisado verificando
se os dados posicionados no eixo ’Y’ são ’explicados’ pelos dados posicionados no eixo ’X’.
26
Uma regressão linear segue a equação
y = a + bx. (1)
Na Equação 1, o termo a representa o valor de y quando o valor de x é zero. O termo b representa

a inclinação da reta. Um exemplo de gráfico de regressão linear pode ser observado na Figura
2.
Figura 2 – Gráfico de Regressão Linear
Uma regressão linear pode ser dada de duas formas: simples quando há somente
uma variável independente e múltipla quando há mais de uma variável independente, podendo
ser aplicada tanto em problemas de regressão, quando em problemas de classificação (MEDIUM,
2020).
A aplicação desse algoritmo é indicada quando existe uma correlação linear rele
vante entre as variáveis. Essa correlação pode ser mensurada através do Coeficiente de Corre
lação de Pearson que determina a relação entre os valores de x e os valores de y, variando de
entre 1 e 1 (MEDIUM, 2020). O Coeficiente de Correlação de Pearson r é dado pela equação
(FILHO; JÚNIOR, 2009)
1 xi − x̄ yi − ȳ
r=
n−1 ∑(
sx
)(
sy
). (2)
Na Equação 2, x̄ é a média dos valores de x (primeira variável), ȳ média dos valores

de y (segunda variável), sx indica o desvio padrão da primeira variável, sy desvio padrão da
segunda variável e n a quantidade de instâncias.
3.3.5.2 Naive Bayes
Naive Bayes também conhecido como Simple Bayes é um modelo de classificação
simples e bastante utilizado, principalmente, devido a sua eficiência computacional. Segundo
Webb (2016), tal eficiência é caracterizada pelo fato de que para esse algoritmo o custo de
tempo de aprendizado é linear à quantidade de exemplos selecionados e o tempo de classificação
27
não é afetado pela quantidade de exemplos de classificação, mas, somente pela quantidade de
atributos.
Outra característica muito interessante desse algoritmo é seu comportamento diante
da base de dados com dados faltantes. Quando um atributo de uma instância está faltando os
atributos de outras instâncias são utilizados, fato que resulta em uma degradação suave no de
sempenho (WEBB, 2016).
A técnica foi baseada no teorema de Bayes do matemático Thomas Bayes e segue
equação (ROZA; PEGORARO, 2020)
P(B|A)P(A)
(A|B) = . (3)
P(B)
Na Equação 3 temos:
• P(A|B): Probabilidade do evento A ocorrer dado que o evento B ocorreu.
• P(B|A): Probabilidade do evento B ocorrer dado que o evento A ocorreu.
• P(A): Probabilidade do evento A ocorrer.
• P(B): Probabilidade do evento B ocorrer.
Sob uma perspectiva de um problema de classificação podemos entender o Teorema
de Bayes com a equação (ZHANG, 2004)
p(E|c)p(c)
p(c|E) = . (4)
p(E)
Dessa maneira, na Equação 4, E representa uma dupla de atributos (x1 , x2 , ..., xn ) na
qual xi é o valor da variável dependente X, e c é o valor da classe, ou seja, da variável dependente.
Partindose do pressuposto de que a base de dados de um determinado problema já
esteja classificada, o funcionamento do algoritmo inicia o treinamento com o cálculo da frequên
cia dos atributos em relação às classes e com essa informação é calculada a probabilidade de
um determinado valor de X pertencer uma determinada classe de Y . A classe que tiver maior
probabilidade em relação ao atributo de X é a classe escolhida pelo classificador (ROZA; PE
GORARO, 2020).
3.3.5.3 Logistic Regression
Apesar do nome, o modelo de Logistic Regression ou Regressão Logística não tem a
finalidade de prever um valor numérico, mas sim, um rótulo ou classe, sendo assim um algoritmo
de classificação e não de regressão.
Para esse tipo de modelo, as classes podem ser definidas de acordo com contexto
do problema em questão, no qual a variável dependente pode ser de natureza nominal ou ordi
nal. Quando existe uma certa ordem ou grau na variável dependente a natureza do problema é
ordinal, quando não existe tal ordem a variável é de natureza nominal (FIGUEIRA, 2006). Um
exemplo de variável dependente de natureza ordinal seria o grau ou estágio de uma determinada
doença e um exemplo de natureza nominal seria a variável dependente utilizada para determinar
a existência, ou não, de uma doença.
28
A Regressão Logística pode ser univariada, quando o problema apresenta duas clas
ses a serem preditas e um único atributo como variável independente, ou múltipla, na qual o
problema em questão possui mais de um atributo como variável independente (GONZALEZ,
2018).
Esse algoritmo é geralmente aplicado a problemas binários (duas classes), nos quais
em problemas com mais de duas classes é necessário realizar uma adaptação das classes para
a aplicação desse técnica, fazendo com que a variável dependente Y siga a distribuição de Ber
noulli (GONZALEZ, 2018).
A distribuição de Bernoulli ocorre quando o processo aleatório dá origem a apenas
dois valores discretos e (SILVA; CAPELA; CAPELA, 2014). Um exemplo dessa distribuição
seria 
1, em caso de êxito;
Y= (5)
0, em caso de falha.
Na regressão logística o objetivo é calcular a probabilidade para realizar a classifi

cação, em que na Equação 5, a probabilidade de êxito seria p e a de falha seria q = 1 − p, onde
0 ≤ p ≤ 1, dado que não é conhecida a probabilidade p.
A diferença principal entre a Regressão Logística e Regressão Linear está em como
o seu gráfico se comporta, no lugar de um reta temos uma curva sigmoide. A Figura 3 demonstra
a diferença de comportamento entre os dois modelos.
Figura 3 – Gráfico de Regressão Logística x Regressão Linear
Fonte: PEDREGOSA et al., 2011. Adaptado.
3.3.5.4 Support Vector Machine

Support Vector Machine SVM ou Máquinas de Vetores de Suporte é compatível
com aplicações, tanto em contexto de problemas de regressão quanto classificação. Foi desen
volvido inicialmente para problemas de classificação lineares, ou seja, realiza a classificação
através de um hiperplano (SOUZA, 2018), mas posteriormente expandiu sua aplicação à proble
mas não lineares (LORENA; CARVALHO, 2007).
29
Um das desvantagens desse algoritmo é sua complexidade, fazendo com que o

tempo de treinamento seja exponencial (quadrático ou cúbico) em relação à parcela de dados
destinada ao treinamento do modelo (RANGEL, 2019).
O SVM é um classificador não probabilístico que mapeia os exemplos como pontos
em um hiperplano no espaço de forma que as categorias são divididas com a maior distância
entre elas, novos exemplos são classificados de acordo com as áreas em que caírem. Os pontos
que tocam as margens do hiperplano são conhecidos como vetores de suporte ou Support Vectors.
A Figura 4 demonstra um exemplo dos vetores de suporte.
Figura 4 – Exemplo de Vetores de Suporte
Fonte: ALTO, 2019. Adaptado.
Para algumas situações não é possível separar os dados linearmente, um exemplo

disso pode ser observado na Figura 5. Para tais situações é utilizado o método chamado de
Kernel Trick. Esse método aplica uma transformação linear levando os dados a um dimensão
maior do que duas dimensões, conforme a Figura 6 demonstra.
Figura 5 – Exemplo de conjunto de dados não separáveis linearmente
Fonte: KUMAR, 2021. Adaptado.

30
Figura 6 – Transformação de dados para terceira dimensão
Após isso os dados são separados conforme a Figura 7 e depois é realizada uma
transformação inversa. Baseado na nova divisão dos dados, o modelo classifica as novas entra
das.
Figura 7 – Divisão dos dados em terceira dimensão

31
3.3.5.5 Decision Tree

Uma Árvore de Decisão ou Decision Tree é um modelo de aprendizado de máquina
supervisionado que apresenta sua implementação baseada na recursividade para a construção de
instâncias chamadas de nós. Possuí um nó primário chamado raiz, do qual os outros nós são de
rivados, nós internos, chamados de nós de teste e nós externos, chamados de folhas (ROKACH;
MAIMON, 2005).
O nó raiz, assim como os nós internos, é um nó que realiza um teste sobre um deter
minado atributo contido na base de dados e pode ser precursor de outro nó de teste ou resultar
em nós folhas que representam as classes de cada instância (MONARD; BARANAUSKAS,
2003a).
Nesse modelo, cada caminho formado entre o nó raiz e um nó folha é chamado
de regra de classificação (SILVA, 2005). A Figura 8 apresenta um esboço de uma Árvore de
Decisão para melhor compreensão.
Figura 8 – Esboço de uma Árvore de Decisão
Luz e Argenton (2013) ressaltam que o uso de Descision Tree apresenta uma des
vantagem relacionada a sua instabilidade, devido ao fato de que, pequenas alterações na amostra
podem resultar em grandes modificações na árvore, alterando a complexidade dela. Outro pro
blema comum ao se trabalhar com Descision Tree é o overfitting em que são realizados ajustes
excessivos produzindo um grande número de regras, podendo resultar em uma degradação do
seu poder preditivo (BRAMER, 2007, p.219).
Para contornar o problema de sobreajuste ou overfiting podese utilizar uma técnica
chamada de poda ou pruning que consiste em controlar o tamanho da árvore antes ou depois
do término da sua construção, sendo denominada prépodagem e póspodagem respectivamente
(SILVA, 2005).
32
Uma questão muito importante vinculada à implementação de um modelo de De

cision Tree é o critério para encontrar o atributo que melhor divide os dados, e isso pode ser
realizado através do cálculo da impureza dos nós. Um dos critérios que podem ser utilizados
para se obter impureza de um determinado nó é o índice Gini e pode ser calculado subtraindo
de 1 da somatória do número de classes (c) multiplicado pela frequência relativa da classe (p)
ao quadrado em cada nó, conforme a Equação 6 (SILVA, 2005):
c
Indice Gini = 1 − ∑ p2i . (6)
i=1
Através deste índice, é possível calcular o atributo chamado de feature importances
que mede o grau de importância de uma determinado feature para a previsão de uma variável
dependente (PEDREGOSA et al., 2011).
Para a implementação do modelo de árvore de decisão, podem ser utilizados diferen
tes algoritmos com características variadas relacionadas ao critério de parada da recursividade
da criação de nós e o método de partição de nós (DANTAS; DONADIA, 2013).
Dentre os algoritmos quem implementam as Decision Trees podese citar o Classi
fication and Regression Trees CART que tem como característica construir o modelo como
árvore binária, ou seja, cada nó tem exatamente dois nós derivados. Uma das vantagens do
CART é a sua facilidade em lidar com variáveis, tanto numéricas, quanto categóricas (SINGH;
GUPTA, 2014).
3.3.5.6 Random Forest
A Floresta Aleatória ou Random Forest RF é um modelo de aprendizado supervisi
onado que pode ser utilizado em tarefas de classificação, bem como para tarefas de regressão. O
RF combina a simplicidade com a aleatoriedade para tentar alcançar mais precisão. É oriundo da
combinação de um grande número de árvores de decisão, sendo uma abordagem simples, mas,
muito poderosa no contexto de previsões (YIU, 2019) que também é utilizada para prevenir o
problema de overfiting da Descision Tree (SANTANA, 2020).
Para problemas de classificação, a classe prevista é definida pela classe com maior
ocorrência entre árvores contidas na floresta, através de votos (YIU, 2019). A Figura 9 traz um
esboço do funcionamento de um modelo da RF para um problema de classificação.
Como observado na Figura 9 o modelo final gerado é composto por várias árvores
criadas com diferentes parâmetros, em que cada instância de X é dada como entrada em todas
as árvores da floresta e, após o processamento, cada árvore apresenta seu resultado parcial da
classificação. O resultado Y é obtido através do processo de votação, elegendose a classe com
maior frequência dentre os resultados parciais. No exemplo do esboço o resultado Y tem como
valor a “Classe B”, visto que foi a classe escolhida com maior frequência .
33
Figura 9 – Esboço de uma Floresta Aleatória
3.3.5.7 Neural Networks

As Redes Neurais Artificiais RNA ou Neural Networks são modelos de aprendi
zado de máquina inspirados na neurociência. As Neural Networks tentam simular o comporta
mento de entidades básicas chamadas de neurônios, mapeando seu comportamento biológico
para um sistema artificial (RAUBER, 2005).
Para melhor compreensão do funcionamento de uma RNA é necessário, primeira
mente, compreender o comportamento básico de um neurônio biológico, que de uma maneira
geral apresenta a seguinte estrutura e funcionamento:
Um neurônio genérico pode ser dividido em três partes: os dendritos, o soma

e o axônio [...], os dendritos são as portas de entrada por onde sinais vindos de
outros neurônios são coletados e transmitidos ao soma. O soma processa e inte
gra esses sinais, gerando pulsos de potencial elétrico (denominados potenciais
de ação que se iniciam na região de contato entre o soma e o axônio (denomi
nada segmento inicial do axônio). Os potenciais de ação são transmitidos ao
longo do axônio, que é a via de saída do neurônio, e atingem outros neurônios
ou órgãos efetores através de junções ou regiões de proximidade denominadas
sinapses (ROQUE, 2020, p. 1, grifo do auto).
O neurônio artificial tenta simular as características de um neurônio biológico. Apre

senta entradas que são vinculadas a pesos que estão associados à relevância de uma determinada
entrada, depois passam por um processo de combinação linear na qual é efetuada a soma dos
pesos multiplicados pelas entradas. Esse valor resultante chamado de net é confrontado a uma
função matemática que vai determinar o sinal de saída do neurônio chamada de função de ativa
ção (RAUBER, 2005).
A Figura 10 apresenta um esboço simplificado de um neurônio artificial.
34
Figura 10 – Esboço de um Neurônio Artificial
Fonte: Adaptado de Rauber (2005)
As RNAs podem ser organizadas em diferentes configurações de topologias, dentre

elas a chamada Multilayer Perceptron MLP que é amplamente utilizada por pesquisadores
(WILAMOWSKI, 2009). Nessa arquitetura de RNA é utilizado o sistema de propagação para
frente chamado de feedforward.
No sistema de propagação feedforward os neurônios são organizados em camadas,
nas quais a saída dos neurônios de uma camada é propagada como entrada para neurônios de
outras camadas e as camadas que estão localizadas entre a camada de entrada e saída são chama
das de camadas escondidas (RAUBER, 2005). A Figura 11 apresenta um esboço de RNA com
propagação feedforward.
Figura 11 – Esboço de uma RNA com propagação feedforward
Fonte: Adaptado de Rauber (2005)
Para o aprendizado da redes feedforward de múltiplas camadas é utilizado o método

de treinamento chamado backpropagation. Nesse método os pesos inciais são aleatórios e a
partir deles os primeiros valores de saída são gerados, após isso, tais valores de saída são com
35
parados com os valores esperados que resultam no cálculo do erro que é propagado na rede para
que o ajuste dos pesos seja executado. Esse procedimento é realizado de maneira interativa com
a finalidade de reduzir a diferença da saída corrente e o valor esperado (TISSOT; CAMARGO;
POZO, 2012).
3.3.6 Conjunto de Treinamento, Validação e Teste
Como visto, existem várias técnicas para a criação dos modelos de aprendizado de
máquina. No entanto, os modelos de aprendizado supervisionado passam por processos que
envolvem o treinamento, ajuste e avaliação. Para tanto, os dados devem ser divididos em três
conjuntos (SANTOS et al., 2019):
• Treinamento: esse conjunto de dados se destina ao ajuste dos parâmetros do modelo (AL
VIM et al., 2019).
• Validação: conjunto de dados utilizado para ajustar os parâmetros oriundos do conjunto
de treinamento (ALVIM et al., 2019). Através desse conjunto de dados os modelos são
avaliados e o que tem melhor resultado é escolhido (SILVA et al., 2019).
• Teste: através desse conjunto a capacidade de generalização pode ser avaliada (SILVA et
al., 2019).
Para realizar a divisão dos dados algumas técnicas podem ser aplicadas, dentre elas
existe a Holdout.
A Holdout ou validação simples é uma técnica que divide a amostra em duas partes
e uma proporção dessa amostra é utilizada como validação (CUNHA, 2019), ou seja, uma parte
das amostras é destinada ao treinamento do modelo e a outra é destinada à validação para medir a
capacidade/desempenho de predição do modelo (ALVIM et al., 2019). Geralmente nessa técnica
a parte destinada ao treinamento é maior que 50% (MONARD; BARANAUSKAS, 2003b). A
Figura 12 demonstra um exemplo de divisão de dados com 70% para treinamento e 30% para
teste.
Figura 12 – Exemplo de Holdout
Fonte: Adaptado de Villarreal et al. (2019)
É importante salientar que o Holdout pode ser utilizado, tanto no processo de divisão
de dados para validação(fase de ajuste de parâmetros), quanto no processo de teste.
3.3.7 Métodos de avaliação de modelos
Após a criação de um modelo, ele deve ser avaliado. A avaliação dos modelos é uma
parte essencial de pesquisas que aplicam técnicas de machine learning no contexto acadêmico
e no contexto industrial (RASCHKA, 2018).
36
Para Raschka (2018) há 3 principais motivos para se avaliar a performance predi

tiva de um modelo: estimar o desempenho dos modelos em dados futuros (dados não vistos),
aumentar o desempenho através de ajustes no modelo e comparar modelos a fim de selecionar
o que possui melhor desempenho em um determinado contexto de dados.
3.3.7.1 Matriz de Confusão
A Matriz de Confusão tem o objetivo de mostrar o número de classificações corre
tas em relação às classificações que foram preditas, sendo uma medida efetiva do modelo de
classificação. Nessa matriz o conteúdo de uma célula de cada linha representa a quantidade de
exemplos que pertencem à classe verdadeira, mas, foram classificados na classe predita (MO
NARD; BARANAUSKAS, 2003b), consistindo em uma interpolação dos dados reais e dados
preditos pelo modelo (FRANCESCHI, 2019).
A Tabela 10 apresenta um exemplo de matriz de confusão de uma classificação
binária, ou seja, uma classificação que possui apenas dois possíveis rótulos.
Tabela 10 – Matriz de Confusão

Classe Predita
Classe Verdadeira Positiva Negativa
Positiva VP FN
Negativa FP VN
Fonte: OLIVEIRA; PRATI, 2013.
Essa tabela apresenta os seguinte valores (OLIVEIRA; PRATI, 2013):

• Verdadeiro Positivo (VP): total de exemplos de itens que foram classificados (preditos)
corretamente para a classe “positiva”, ou seja, foram classificados pertencentes à classe
“positiva” e de fato pertenciam à classe “positiva”.
• Verdadeiro Negativo (VN): quantidade de itens que foram classificados (preditos) corre
tamente para a classe “negativa”, ou seja, foram classificados pertencentes à classe “ne
gativa” e de fato pertenciam à classe “negativa”.
• Falso Positivo (FP): quantidade de itens que foram classificados (preditos) erroneamente
para a classe “positiva”, ou seja, foram classificados pertencentes à classe “positiva” mas,
eram pertencentes à classe “negativa”.
• Falso Negativo (FN): quantidade de itens que foram classificados erroneamente para a
classe “negativa”, ou seja, foram classificados pertencentes à classe “negativa” mas, eram
pertencentes à classe “positiva”.
Algumas importantes métricas para a avaliação de desempenho podem ser derivadas
dos valores extraídos da matriz de confusão:
• Accuracy (Acurácia):
A Acurácia também chamada de Taxa de Acerto tem o objetivo de medir a proporção
dos exemplos preditos (classificados) de maneira correta. A acurácia pode ser calculada
37
através da Equação 7 (OLIVEIRA; PRATI, 2013):

V P +V N
Accuracy = . (7)
V P +V N + FP + FN
• Taxa de Erro:
Ao contrário da Acurácia, a Taxa de Erro mede a proporção dos exemplos preditos (clas
sificados) de maneira incorreta. A Taxa de Erro pode ser calculada através da Equação 8
(OLIVEIRA; PRATI, 2013):
Taxa de Erro = 1 − Accuracy. (8)
• Recall (Revocação, Sensibilidade ou Taxa de Verdadeiros Positivos):

O Recall indica a relação entre os exemplos “positivos” corretamente identificadas pelo
classificador como “Classe Positiva” e todas as previsões que realmente são “positivas”
mas, não necessariamente classificadas como “Classe Positiva” (OLIVEIRA; MARI
NHO; BRITO, 2019). O Recall pode ser calculado através da Equação 9 (OLIVEIRA;
PRATI, 2013):
VP
Recall = . (9)
V P + FN
• Precision (Precisão):
A métrica de Precisão mede a proporção da predição positiva que está correta. A precisão
pode ser calculada através da Equação 10 (OLIVEIRA; PRATI, 2013):
VP
Precision = . (10)
V P + FP
• Fmeasure (MedidaF):
É uma métrica derivada da Matriz de confusão binária calculada pela média harmônica
ponderada dos resultados de Recall e Precision (SCHREIBER et al., 2017), na qual, o
melhor valor possível é 1 e o pior é 0 (TRIPATHY; AGRAWAL; RATH, 2015). Essa
métrica é utilizada para averiguar a confiabilidade e relevância da taxa de acurácia (SILVA,
2018). Segundo Tripathy, Agrawal e Rath (2015) a métrica Fmeasure de um classificador
pode ser calculada com a Equação 11:
2 ∗ Precision ∗ Recall
F − measure = . (11)
Precision + Recall
• Specificity (Especificidade ou Taxa de Verdadeiros Negativos):
A Especificidade mede a capacidade do classificador em classificar corretamente instân
cias da “Classe Negativa” (MATOS et al., 2009). A Especificidade pode ser calculada
pela Equação 12 (CANETTA et al., 2014):
VN
Speci f icity = . (12)
FP +V N
38
• Taxa de Falsos Positivos:

Taxa de Falsos Positivos é uma métrica que representa o erro na classificação da “Classe
Negativa”, sendo assim, quanto menor o valor dessa métrica melhor. Podese calcular a
Taxa de Falsos Positivos através da Equação 13 (MATSUBARA, 2008):
Taxa de Falsos Positivos = 1 − Speci f icity. (13)
• Gráfico ROC Receiver Operating Characteristic:

Segundo Matsubara (2008). O gráfico ROC é um gráfico de duas dimensões no qual o
eixo X representa os valores da Taxa de Verdadeiros Positivos e o eixo Y apresenta os
valores da Taxa de Falsos Positivos. Matsubara (2008) também cita 4 regiões importan
tes do gráfico ROC: Céu ROC (Representa os bons resultados), Inferno ROC (representa
os maus resultados), Quase Sempre Neg (classificase quase sempre como “Classe Nega
tiva”), Quase Sempre Pos (classificase quase sempre como “Classe Negativa”).
As curvas ROC utilizam muitos parâmetros como entrada resultando em uma exibição
gráfica em forma de curva sobre o plano cartesiano (SCHREIBER et al., 2017) sendo
uma alternativa visual ao uso de medidas de avaliação (PRATI; BATISTA; MONARD,
2008).
• Matthews Correlation Coefficient (Coeficiente de Correlação de Matthews)
O Matthews Correlation Coefficient MCC é uma métrica indicada para avaliar a quali
dade de classificadores em contextos binários. O MCC fornece uma métrica equilibrada
independentemente se as classes apresentarem tamanhos muito diferentes, ou seja, classes
desbalanceadas. Essa métrica retorna valores entre 1 e 1 levandose em consideração to
das as interpolações obtidas pelo modelo. Quanto mais próximo do valor 1 mais próximo
de se obter uma previsão perfeita, da mesma forma que mais próximo de 1 mais próximo
de uma previsão inversa. Quando o índice dessa métrica retorna o valor 0 é considerado
uma previsão aleatória (PEDREGOSA et al., 2011). O MCC pode ser calculado através
da Equação 14:
V P ∗V N − FP ∗ FN
MCC = √ . (14)
(V P + FP) ∗ (V P + FN) ∗ (V N + FP) ∗ (V N + FN)
39
4 TRABALHOS RELACIONADOS
Devido ao fato da existência de uma vasta gama de técnicas que podem ser apli
cadas para a extração de conhecimento em bases de dados, esta seção busca relatar trabalhos
com objetivos semelhantes a este, porém, não sendo o objetivo do estudo realizar uma revisão
sistemática da literatura.
Foram realizadas buscas em 4 bases: ResearchGate, Google Scholar, Sciencedirect
e Largescale Assessments in Education. Para as buscas, foram utilizados os termos: “Aprendi
zado de Máquina”, “Ciências de Dados” e “Mineração de dados”, associados a termos de caráter
educacional: “Avaliações em Larga escala”, “Desempenho de Alunos”, “Educação” nos idio
mas português e inglês.
Além dos trabalhos que utilizaram a base de dados fornecida pelo PISA, serão apre
sentados trabalhos que utilizaram bases de dados de escolas e de duas outras SLAs:
• Exame Nacional do Ensino Médio ENEM: uma avaliação criada em 1998 pelo Ministé
rio da Educação MEC do Brasil, com o objetivo inicial de obter indicadores da qualidade
da educação no país. Posteriormente o ENEM foi adotado por instituições como método
seletivo para o ingresso no ensino superior, inclusive fora do Brasil, como ocorre em
algumas instituições de Portugal. Atualmente, é realizado em dois dias de avaliações e
composto por provas de linguagens, códigos e suas tecnologias; ciências humanas e suas
tecnologias; ciências da natureza e suas tecnologias; e matemática e suas tecnologias, as
quais totalizam 180 questões. Além das questões objetivas a escrita de um redação tam
bém é exigida (INEP, 2020), sempre com o intuito de abordar questões contextuais da
vivência do aluno.(CASTRO; TIEZZI, 2005).
• Cycle des Évaluations Disciplinaires Réalisées sur Échantillon CEDRE: ou Ciclo de
Avaliações Disciplinares Realizadas em Amostras, inciouse em 2003 com a avaliação de
habilidades gerais, aplicada na França no fim do ensino secundário e no fim do ensino
superior (o que permite um acompanhamento da evolução dos alunos ao longo do tempo)
com o objetivo situar os desempenhos dos alunos em escalas de nível. O CEDRE não visa
conceder diplomas ou algum tipo de atestado de nível, essa SLA visa servir de indicador
da situação educacional do aluno para que, tanto tomadores de decisão, como professores
conheçam o quadro educacional dos alunos para melhorias e mudanças no sistema de
ensino (ROCHER; BUREAU, 2014).
4.1 Descrição dos Trabalhos
Nesta seção são descritos os trabalhos com objetivos semelhantes ao desta pesquisa.
Os trabalhos, aqui, apresentados foram selecionados, primeiramente, pelo título, posteriormente
pelo seu resumo. Após isso, foram escolhidos artigos que realizaram experimentos com algorit
mos de aprendizado de máquina e apresentaram seus resultados, ou seja, trabalhos fundamen
talmente teóricos não foram incluídos nessa seção.
40
4.1.1 Classification of PISA 2012 mathematical literacy scores using decisiontree method:
Turkey sampling
Aksu e Güzeller (2016) realizaram seu trabalho com o objetivo de determinar quais
e em que ordem de relevância, as variáveis independentes afetam no resultados do letramento
em matemática (variável dependente) da amostra de alunos turcos que participaram do PISA
edição 2012.
Os autores analisam como os estudantes foram classificados em relação ao sucesso
(determinado a partir da média de 5 pontuações matemáticas) em relação a variáveis independen
tes de interesse em relação ao curso de matemática: atitudes em relação à matemática, motivação,
percepção, autoeficácia, ansiedade e estudo da disciplina.
Nesse estudo, a técnica de análise Chisquared Automatic Interaction Detection
CHAID que é um método de árvore de decisão foi utilizada com a justificativa de apresentar
facilmente a visualização da ordem de importância das variáveis preditivas e a classificação pode
ser feita de com base na estrutura visual do método. Os autores ressaltaram acreditar que seu
estudo se diferencia de outros pelo fato de utilizar de árvores de decisão e métodos de mineração
de dados no campo da educação.
Em sua metodologia, os autores não utilizaram instâncias da amostra com dados
faltantes (não codificados ou itens em branco), aplicando para isso o método listwise fato que
levou a amostra de 4848 estudantes ser reduzida para 1391, para a verificação dos dados perdidos
foi utilizado o software SPSS.
Nesse estudo a amostra dos 1391 alunos foi subdividida de acordo com as séries
(grades) e foi constatada uma grande semelhança com a população alvo da Turquia.
Utilizando o algoritmo de J.48 os autores obtêm um índice de 69,87% de classifica
ção precisa. Com a aplicação de tais técnicas e métodos os autores concluem que as variáveis
independentes mais importantes para determinar o sucesso dos alunos foram autoeficácia, ati
tude em relação ao curso e estudo da disciplina nessa ordem.
4.1.2 On the use of conventional and statisticallearning techniques for the analysis of PISA
results in Spain
Gorostiaga e RojoÁlvarez (2016) realizaram estudos sobre dados oriundos do PISA
2009 focados nos dados do alunos espanhóis e seus respectivos desempenhos em matemática.
Os autores comparam técnicas de regressão logística, análise discriminantes lineares de Fisher
e Support Vector Machine SVM, sendo utilizado com seu kernel linear e não linear, com a
finalidade de classificar os alunos segundo seu desempenho.
Para o procedimento de feature selection os autores buscaram reduzir ao menor nú
mero de variáveis sem prejudicar o desempenho dos classificadores através da aplicação de
dois algoritmos, sendo que o primeiro é voltado para seleção de recursos de pesos lineares e o
segundo para seleção de recursos de classificadores não lineares.
O conjunto amostral utilizado era composto por 25.887 estudantes e 888 escolas,
utilizandose variáveis relacionadas ao background pessoal do aluno juntamente com variáveis
41
em nível escolar. Os valores referentes às notas presentes no conjunto de dados foram utilizados
para classificar os alunos em relação ao seu sucesso. Escolas que não responderem ao questi
onário foram excluídas (assim como seus alunos) da amostra, bem como, alunos com muitos
itens não respondidos, fato que, levou a amostra ser reduzida para 25.122 alunos e 870 escolas.
Para a imputação de valores faltantes, em alguns casos, foram utilizadas respostas
de colegas de escola e a técnica do vizinho mais próximo. Dois fatos bem interessantes relatados
são que a região tem papel importante sobre os resultados dos alunos e que apenas alguns tipos de
bens possuídos pela família estão relacionados ao sucesso do aluno, sendo esses bens culturais
(por exemplo: literatura clássica, livros de poesia e obras de arte).
4.1.3 Predicting math performance from raw largescale educational assessments data: a
machine learning approach
Saarela et al. (2016) aplicaram algoritmos de aprendizado de máquina para prever o
desempenho dos alunos utilizando os itens relacionados ao questionário do aluno para o teste do
PISA edição de 2012. Foram selecionadas 53 perguntas e apenas foram utilizadas respostas de
estudantes que não tinham valores nulos. Os autores utilizaram as seguintes técnicas de extração
de atributos: Principal Component Analysis e Isomap, 4 técnicas de seleção de atributos: Fisher,
Anova, Gini e Minimal Redundancy Maximal Relevance Criterion.
Os autores utilizaram os algoritmos de predição vizinhos mais próximos, Naive
Bayes, LDA, SVM e Random Forests. Os algoritmos foram ajustados com dados dos estudantes
finlandeses e depois aplicados a todos os estudantes.
4.1.4 Mineração de Dados Educacionais nos Resultados do ENEM de 2015
Simon e Cazella (2017) criaram um modelo preditivo do desempenho a partir dos
dados referentes ao Exame Nacional do Ensino Médio ENEM edição de 2015 utilizando téc
nicas de EDM. Para isso os autores aplicam a árvore de decisão com o algoritmo J48 através do
software WEKA, utilizando para divisão dos dados entre teste e treinamento o 10 fold cross
validation.
Para validar os resultados foram consideradas 4 classes que eram divididas de acordo
com a pontuação média escolar, na qual, o algoritmo foi capaz de classificar corretamente em
77,02% .
As variáveis independentes com maior importância para a previsão do desempenho
foram: o tipo da escola (privada, federal, estadual e municipal) e nível socioeconômico.
4.1.5 Prevendo desempenho dos candidatos do ENEM através de dados socioeconômicos
Stearns et al. (2017b) realizaram seu trabalho aplicando Machine Learning para
a previsão das notas de Matemática do ENEM edição de 2014 utilizando dados oriundos do
questionário socieconômico do exame.
As árvores de decisão com boosting foram aplicadas através das técnicas Gradient
Boosting e AdaBoost.Os dados de alunos que faltaram ao exame foram excluídos do experi
mento.
42
Foram aplicadas as técnicas Mean Absolute Percentage Error MAPE e R Squared

(R2 ) para servir de métricas para otimização de hiperparâmetros que consistiu na aplicação de
uma heurística baseada em Particle Swarm Optimization PSO. Para a validação foi utilizada a
técnica de divisão de dados 10Fold Cross Validation com as métricas Mean Absolute Error
MAE e R2 .
4.1.6 Comparing the performance of data mining methods in classifying successful students
with scientific literacy in PISA 2015
Büyükkıdık, Bakırarar e Bulut (2018) em seu trabalho utilizam técnicas de Data
Mining (mineração de dados) para classificar a alfabetização científica dos estudantes turcos
que participaram do PISA na edição de 2015.
Nesse estudo os autores comparam os algoritmos de aprendizado através dos crité
rios de avaliação Accuracy, Fmeasure, Precision, Recall e ROC Area em diferentes divisões
dos dados de treinamento e teste: 80% treinamento20% teste, 70% treinamento30% teste e 10
fold Cross Validation.
Os dados foram tratados a fim de completar os valores faltantes, com o valor da
moda para o valores qualitativos e a média para os quantitativos. Nesse estudo nem todas as
variáveis foram utilizadas. Para isso os autores utilizaram os métodos InfoGainAttributeEval,
GainRatioAttributeEval e ChiSquaredAttributeEval do software WEKA para selecionar e redu
zir de 922 para 66 variáveis, antes da aplicação dos modelos.
Foram aplicados os algoritmos Multilayer Perceptron, Logistic Regression e Sup
port Vector Machine SVM. De acordo com os critérios de avaliação, os resultados foram bem
próximos, pois, o critério precisão apresentou o maior valor (0,81) na aplicação do método de
Support Vector Machine com a divisão 10fold Cross Validation.
4.1.7 Predição do desempenho de Matemática e Suas Tecnologias do ENEM utilizando
técnicas de mineração de dados
Alves, Cechinel e Queiroga (2018) aplicaram técnicas de EDM aos dados oriundos
do ENEM 2015 com o objetivo de criar um modelo preditivo para o desempenho das escolas
das provas de matemática e suas tecnologias.
Os dados obtidos pelos autores eram compostos por 15598 instâncias e continham as
médias de desempenho agrupadas por escola, nas quais os autores categorizaram em três rótulos:
baixo (notas até 451), médio (notas maiores que 451 e menores ou iguais a 502) e alto (notas
maiores que 502).
Sobre os dados já categorizados os autores aplicaram os algoritmos J48 e Naive
Bayes através do software WEKA, utilizando a divisão de 70% dos dados para treinamento e
30% para testes de 15 variáveis escolhidas, com objetivo de classificálos de acordo com sua
categoria de desempenho.
O algoritmo J48 teve como acurácia máxima 71.93% já o Naive Bayes teve resultado
máximo a acurácia de 68.07%. Através da árvore de decisão gerada pelo algoritmo J48 obteve
se como variáveis mais importantes a DEPENDÊNCIA ADMINISTRATIVA, INDICADOR
43
DE NÍVEL SOCIOECONÔMICO e CATEGORIZAÇÃO TAXA DE PARTICIPAÇÃO nessa

ordem.
4.1.8 Student and school performance across countries: A machine learning approach.
Masci, Johnes e Agasisti (2018) utilizaram técnicas de estatística e aprendizado de
máquina sobre os dados do PISA 2015 de nove países (Alemanha, Austrália, Canadá, Espanha,
Estados Unidos, França, Itália, Japão e Reino Unido).
Utilizando os dados dos questionários do nível do aluno e no nível da escola, os
autores buscaram descobrir quais dessas características influenciam nos resultados dos alunos e
no valueadded da escola, como tais características se relacionam entre si, como as diferenças
entre escolas influenciam nos resultados do aluno e quais variações desses resultados acontecem
entre os nove países estudados.
Para alcançar seus objetivos os autores dividem seu trabalho em duas etapas. A pri
meira consiste na aplicação de Multilevel Regression Trees, aplicando no nível 1 características
dos alunos e no nível 2 características da escola para descobrir quais atributos dos estudantes
influenciam nos resultados e estimar o valueadded (valor agregado) da escola e a segunda na
aplicação de Regression Trees and Boosting para relacionar o valueadded originado da anterior
aos atributos dos dados do questionário escolar.
Nesse estudo os autores utilizaram apenas os resultados do teste de matemática no
qual os dados faltantes variavam entre 2 a 5% no questionário do aluno e no questionário da
escola cerca de 10 a 25% entre países.
Dentre os resultados obtidos é observado pelos autores uma variação da capacidade
da explicação das variáveis preditoras entre países. Em alguns países (França, Japão e Alema
nha) as características no nível dos estudantes têm grande capacidade de explicar os resultados
de matemática, já em outros essas características não são o suficiente.
Em 5 dos 9 países analisados a característica referente ao índice socioeconômico
foi considera a variável mais importante, em 3 países a mais importante foi a correspondente a
ansiedade em relação aos testes. Apenas o Japão teve como variável mais importante a automo
tivação.
De forma geral as características que mais influenciaram no valor agregado da es
cola foram as relacionadas a questões socioeconômica e ao tamanho da escola. Em relação às
questões socioeconômicas, escolas com maiores proporções de alunos desfavorecidos econo
micamente tiveram resultados de desempenho mais baixos, exceto no Japão. Em relação ao
tamanho da escola somente nos Estados Unidos e Austrália escolas com 500 e 1000 alunos
tiveram um aumento no valor agregado.
4.1.9 Eucational Data Mining: Identification of factors associated with school effectiveness
in PISA assessment
MartínezAbad, Gamazo e RodríguezConde (2020) em seu estudo buscam encon
trar fatores relacionados à eficácia das escolas. Para isso seu trabalho é divido em duas fases,
nas quais se aplicam duas técnicas:
44
• Multilevel Modelling (modelagem multinível) que tem como objetivo a identificação das
escolas de alta e baixa eficácia.
• Educational Data Mining EDM que através de algoritmos de árvores de decisão tenta
identificar fatores que influenciam na eficácia escolar.
Essas técnicas são aplicadas nas amostras dos dados providos pelo PISA 2015, so
mente sobre os dados da Espanha. Segundo os autores, a escolha de um único país, se dá pela
intenção de se evitar efeitos relacionados a diferenças sistêmicas e socieconômicas entre países,
na qual a Espanha foi escolhida devido ao tamanho da amostra (maior que a maioria dos países
da OCDE).
Os autores não utilizam todas as amostras fornecidas, escolas com menos que 20
participantes não foram incluídas, dessa maneira, dos 32.330 estudantes e 976 escolas, foram
selecionadas 31,236 estudantes e 896 escolas espanholas.
Na primeira fase, em todas as 3 áreas (ciências, leitura e matemática) foram de
senvolvidos 3 modelos multiníveis. Cada modelo utilizou no nível 1 variáveis relacionadas ao
aluno e no nível 2 variáveis relacionadas a questões da escola, em que foi utilizado o software
estatístico HLM 7 que permitiu o uso dos 10 valores plausíveis juntamente com seus pesos para
cada uma das 3 áreas. Esse mesmo software foi utilizado no processo de imputação dos valores
faltantes através de regression imputation.
Na fase EDM foi utilizado o software Weka 3.8.1 para aplicação do algoritmo C4.5
de árvores de decisão. Em relação à modelagem multinível os autores obtêm 12.41% em ciên
cias, 12.26% em matemática e 12.04% em leitura de acordo com Intraclass Correlation Coeffi
cient (ICC).
Para a validação do modelo de árvore decisão, este estudo utiliza o kfolds cross
validation divididos em 10 subamostras para a validação, na qual se obteve cerca de 90% das
escolas classificadas corretamente, tanto para os dados de treinamento, quanto para o cross
validation.
Os índices de validação foram utilizados pelos autores que obtiveram mais de 90%
na precisão do modelo(precision), cerca de 95% para área sob a curva ROC ( Receiver Operating
Characteristic e um kappa index próximo de 85 e o Root Relative Squared Error (RRSE) inferior
a 52%.
4.1.10 A graphically based machine learning approach to predict secondary schools perfor
mance in Tunisia
Rebai, Ben Yahia e Essid (2020) analisaram dados da Tunísia oriundos do PISA
edição 2012, a fim de identificar fatores que influenciam no desempenho escolar. Para essa
finalidade os autores utilizaram uma abordagem baseada em Directional Distance Function
DDF juntamente com técnicas de Machine Learning ML.
Os autores subdividem sua pesquisa em duas etapas: a primeira baseada em DDF
para produzir valores numéricos que representam a ineficácia das escolas utilizando os software
SAS, e a segunda consistindo na aplicação de técnicas de Machine Learning através de Re
45
gression tree e Random forests (composta por 1000 árvores), utilizando os resultados da etapa
anterior como variável a ser predita através do software R.
As amostras foram reduzidas de 153 escolas para 105 devido ao descarte de instân
cias com dados faltantes e escolas privadas (pois a pesquisa era focada em escolas públicas). A
variável que mais influenciou na eficiência escolar foi o tamanho da escola seguido pela pro
porção de meninas matriculadas, onde baseado nesses achados os autores sugerem a criação de
políticas para a melhor distribuição de alunos em turmas menores e balancear as proporções de
meninos e meninas em sala de aula.
4.1.11 When didactics meet data science: process data analysis in largescale mathematics
assessment in France
Salles, Dos Santos e Keskpaik (2020) aplicaram EDM através de técnicas de apren
dizado de máquina a uma amostrada de dados obtidos do CEDRE (Cycle des Évaluations Disci
plinaires Réalisées sur Échantillon) que é um teste aplicado na França com o objetivo de medir
habilidades de alunos em matemática. Essa avaliação é realizada a cada 5 anos e em 2019 foi
aplicada pela primeira vez através do uso de computadores.
Os autores focaram seus estudos na análise de um único item interativo dessa ava
liação chamado Tree growth (Crescimento de árvores), na qual os alunos interagem inserindo a
idade das árvores em meses em uma planilha e através de outras ferramentas gráficas.
Foram empregadas técnicas de aprendizado supervisando através de Random forests
com o objetivo de determinar em qual proporção os dados coletados do item em questão podem
explicar o desempenho dos alunos e aprendizado não supervisionado através dos algoritmos
DBSCAN (Densitybased Spatial Clustering of Applications With Noise) e Kmeans para agru
par os alunos através de suas estratégias em perfis de aprendizado.
Os algoritmos foram escolhidos pelo fato que são muito utilizados e fazem parte das
famílias de algoritmos clusterização mais importantes, as baseadas em densidade e as baseados
em centroide, respectivamente.
Para avaliar o desempenho do modelo de aprendizado supervisionado os autores uti
lizaram o cálculo da área sob a curva ROC no qual teve como resultado 0,78. As características
mais importantes encontradas para a predição do sucesso ou não do aluno foram: o número de
valores testados na tabela de dados e a variação dos valores testados.
Os autores utilizam, primeiramente, o algoritmo DBSCAN visto que ele não neces
sita informar previamente o número de clusters. Desses algoritmos foram extraídos 4 clusters e
para avaliar a clusterização o autor utiliza o Kmeans, que necessita do número de clusters como
argumento de entrada. Para isso foi utilizado o número 4, no qual para os clusters 3 e 4 foram
identificados os maiores usos da ferramenta lápis e menos registro de valores e para o 1 e 2 o
menor uso da ferramenta lápis e mais registro de valores, o que levou o autor a concluir que as
estratégias tomadas por alunos desse cluster eram voltadas para tentativa e erro.
46
4.1.12 Using data mining to predict secondary school student performance

Cortez e Silva (2008) analisaram dados de duas escolas portuguesas coletados atra
vés do uso de relatórios e questionários durante o ano letivo de 20052006, focando nas disci
plinas de português e matemática.
Os autores aplicam Business Intelligence / Data Mining atravéz de Decision Trees,
Random Forests, Neural Networks e Support Vector Machines, com a finalidade de encontrar
variáreis que influenciam, sobretudo, questões relacionadas a transferências de alunos e ao de
sempenho dos deles.
O questionário utilizado continha cerca de 37 questões e foram respondidos por
788 estudantes no qual foram descartadas 111 respostas devido à falta de alguns detalhes de
identificação.
Os autores utilizaram o software R (através da biblioteca RMiner) para a aplica
ção dos modelos com a divisão entre dados de treinamento e testes através de 10fold cross
validation. Os algoritmos que obtiveram melhores resultados foram o Decision Trees e Random
Forests.
47
5 MATERIAIS E MÉTODOS
Nesta seção são apresentadas as ferramentas e equipamentos utilizados para execu
ção dos experimentos, bem como, a metodologia adotada neste trabalho.
5.1 Ferramentas para Ciência de Dados
Para se trabalhar com Ciência de Dados existe uma série de ferramentas disponíveis,
sendo elas softwares e linguagens de programação, como por exemplo, Stata, SAS, SPSS, R,
JMP, MATLAB, Júlia e Python (FILHO, 2015).
Este trabalho utilizou a linguagem de programação Python que é amplamente utili
zada por profissionais da Ciência de Dados, sendo uma linguagem de programação de altíssimo
nível, dinamicamente tipada, orientada a objetos e que oferece uma sintaxe (corresponde como
o código que é escrito) clara (BERTOLINI et al., 2019). Além disso, esta linguagem de progra
mação apresenta estruturas de alto nível, muitos módulos prontos e documentação abundante,
fato esse que a torna mais produtiva.
O Python possui licença General Public License GLP, o qual permite que seja
incorporado até mesmo em produtos proprietários. Foi criado em 1990 no Instituto Nacional
de Pesquisa para Matemática e Ciências da Computação da Holanda por Guido van Rossum
sendo uma linguagem bem aceita por várias empresas de tecnologias, dentre elas Google, Yahoo,
Microsoft, Nokia, Disney (BORGES, 2014).
Para a abordagem deste trabalho foram utilizadas várias bibliotecas escritas em
Python, as quais, neste contexto, uma biblioteca pode ser compreendida de maneira simplifi
cada como trechos de códigos reutilizáveis (DATAFLAIR, 2021).
O uso de bibliotecas agiliza e simplifica as tarefas relacionadas à Ciência de Da
dos. Para este estudo foram utilizadas bibliotecas Pyreadstat (FAJARDO, 2021), Matplotlib
(MATPLOTLIB, 2021), ScikitLearn (PEDREGOSA et al., 2011), Seaborn (WASKOM, 2021),
Pandas (PANDAS, 2021), Numpy (NUMPY, 2021), Plotly (PLOTLY, 2021).
Para expandir o potencial da linguagem Python, ela foi utilizada em conjunto com a
tecnologia Jupyter Notebook. O Jupyter Notebook é um projeto de código aberto que provê um
ambiente interativo para a manipulação de dados em diferentes contextos, podendo ser utilizado
até mesmo através de um navegador Web e ser integrado a cerca de 40 tipos de linguagens de
programação (JUPYTER, 2021).
O seguinte experimento foi realizado em um servidor Linux Ubuntu 20.04.4 LTS
(Focal Fossa), com 2 processadores Intel Xeon E7530 com 6 núcleos de 12 threads cada, tota
lizando 48 threads com frequência de 1.86 GHz e 128 GB de memória RAM.
5.2 Metodologia
As tarefas desenvolvidas neste trabalho foram baseadas nas etapas de um projeto
de Data Science incorporadas à metodologia da pesquisa com abordagem quantitativa descri
tiva tendo em vista as características de mensuração em números e uso de técnicas estatísticas
(DALFOVO; LANA; SILVEIRA, 2008) sobre os dados obtidos do PISA 2018.
48
5.2.1 Aquisição dos Dados

O dataset que contém os dados coletados pelo PISA 2018 foi adquirido no site oficial
da OECD através da página PISA 2018 Database1 . A OECD fornece duas opções de formatos
de dados, SAS2 e SPSS3 . Optouse pela escolha da linguagem de programação Python para
a manipulação dos dados, já que ambos os formatos são aceitáveis, mas, pela finalidade de
simplicidade foi realizado o download do dataset no formato SPSS.
5.2.2 Compreensão dos Dados
Inicialmente, observouse que o tamanho do dataset era de 107367 linhas e 351
colunas. Foram aplicados métodos com o intuito de visualizar como os dados estavam dispostos
dentro do dataset, além de outras informações relevantes como média, desvio padrão, contagem,
valores máximos e mínimos dos dados de cada coluna.
O questionário aplicado aos professores possui várias perguntas, com diferentes va
lores e tipos de respostas. Todas as perguntas do questionário são representadas por códigos,
como por exemplo, TC001Q01NA. Para melhor compreensão dos dados, todos os códigos fo
ram mapeados para perguntas com auxílio do codebook 4 que é um arquivo disponibilizado pela
própria OECD que possui as descrições de cada código que compõe o dataset.
Para cada pergunta, verificouse quais eram as possíveis respostas dos professores,
fato este o qual revelou que muitas perguntas apresentaram valores nulos e outras que não foram
respondidas por nenhum professor (representados no dataset por valores nan).
5.2.3 Análise Exploratória de Dados
As técnicas de Análise Exploratória de Dados foram aplicadas sobre a perspectiva
da estatística descritiva, através das bibliotecas matplotlib, seaborn e plotly.
Primeiramente, foram explorados dados relacionados aos resultados dos alunos no
PISA 2018, para ambos os testes de ciências e matemática. A Figura 13 apresenta a distribuição
de frequências das notas médias de cada um dos testes, bem como a plotagem dos valores das
notas médias de todos os países que participaram dessa edição.
Na Figura 13, hexágonos com cores mais escuras demonstram maiores ocorrências
em uma determinada faixa de notas, sendo que os dois testes estão em torno dos 500 pontos.
Também fica perceptível, através desta da Figura 13, a existência de uma relação linear entre
os resultados dos dois testes, visto que, a medida que a nota de ciências cresce a de matemática
também cresce, ou seja, países têm desempenho semelhante nos dois tipos de testes.
1 <https://www.oecd.org/pisa/data/2018database/>
2 <https://webfs.oecd.org/pisa2018/SAS_TCH_QQQ.zip>
3 <https://webfs.oecd.org/pisa2018/SPSS_TCH_QQQ.zip>
4 <https://www.oecd.org/pisa/data/2018database/PISA2018_CODEBOOK.XLSX>
49
Figura 13 – Distribuição e relação das notas médias de matemática e ciências PISA 2018
Com a Figura 14, é possível notar que o intervalo interquartil dos dois testes es
tão bem parecidos, porém, o limite mínimo para o teste de ciências é um pouco inferior ao de
matemática, indicando que a nota menor foi obtida pelo teste de ciências.
Figura 14 – Boxplot: Notas médias de ciências e matemática PISA 2018
Devido ao fato da OCDE disponibilizar as notas médias dos países participantes da

edição 2018, optouse, ainda, em demonstrar as notas médias pelo mundo. A Figura 15 apresenta
as notas de ciências e a Figura 16 as notas de matemática, em ambas, as cores azul e verde com
tons mais escuros expressam notas maiores e tons mais claros notas menores5 .
5 Sujeito à limitações da biblioteca plotly em reconhecer as siglas dos países/economias fornecidas pela OCDE,
onde os países em cinza não realizaram o teste ou não foram reconhecidos pelo plotly.
50
Figura 15 – Notas médias de ciências por país
Figura 16 – Notas médias de matemática por país
Através destas análises iniciais, notouse que a América do Sul apresentou notas
inferiores se comparada à Europa e América do Norte em ambos os testes.
Além dos desempenhos dos países, foram analisadas as características dos profes
sores coletados pelo questionário do PISA. A distribuição das idades de todos os professores
pode ser observada na Figura 17 e na Figura 18. Esta informação é segmentada por país, na
qual se nota que o Azerbaijão possui mais professores com idades maiores e o Macau com ida
des menores, que é perceptível por apresentar uma distância interquartil menor, indicado maior
concentração de professores mais jovens na faixa dos 35 a 45 anos.
51
Figura 17 – Boxplot: Idades de professores
Figura 18 – Boxplot: Idades de professores por país
A Figura 19 busca trazer a perspectiva de idades dos professores em relação ao

gênero e é possível observar que, apesar de ambos os gêneros apresentarem o limite mínimo em
20 anos e o máximo em 70 anos, o sexo feminino apresenta sua distância interquartil localizada
com menores idades.
Figura 19 – Boxplot: Idades de professores por sexo

52
Analisando as características relacionadas à capacitação dos professores, notouse

que a maioria dos países apresentam mais capacitações com tempos maiores que um ano con
forme a Figura 20.
Figura 20 – Tempo de licenciatura ou programa de capacitação de professores
A Figura 21 demonstra as capacitações relacionadas a estudos em países estrangei

ros, e foi possível observar que, somente os Emirados Árabes Unidos e Macau apresentaram a
maioria dos professores com algum tipo de estudo em países estrangeiros.
Figura 21 – Estudo em país estrangeiro

53
Através da Figura 22 foi possível verificar que em todos os países existe uma grande
taxa de solicitação para que os professores participem de atividades de desenvolvimento profis
sional.
Figura 22 – Atividades de desenvolvimento profissional
Outra questão importante relacionada à capacitação foi observada na Figura 23 que

apresenta a autopercepção dos professores sobre a influência da escola em proporcionar uma
boa educação.
Figura 23 – Capacidade da escola em fornecer uma boa educação em relação a qualificação dos
professores

54
Em relação à capacitação do corpo docente, notase que em muitos países, os profes

sores reponderam o questionário informando que a capacidade de fornecer uma boa educação é
prejudicada pela qualificação inadequada ou insuficiente do corpo docente.
As Figuras 24, 25, 26, 27, 28 e 29 apresentam o uso de tecnologias como instrumento
de ensino em sala de aula.
Figura 24 – Uso de Jogos digitais como ferramentas de ensino
Figura 25 – Uso de ferramentas de produção multimídia como ferramentas de ensino

55
Figura 26 – Uso de recursos de computadores como ferramentas de ensino
Figura 27 – Uso de redes sociais como ferramentas de ensino

56
Figura 28 – Uso de softwares de simulações como ferramentas de ensino
Figura 29 – Uso de softwares de instrução como ferramentas de ensino
Constatase que, apesar dos grandes avanços tecnológicos pelo mundo, tais tecno
logias ainda são pouco utilizadas em sala de aula, fato que contrasta com a informação dada
pela Figura 30 a qual mostra que na maioria das escolas exceto na Coreia do Sul e no Marrocos,
existem uma política em relação ao uso de dispositivos eletrônicos.
57
Figura 30 – Politica de uso de dispositivos eletronicos nas escolas
5.2.4 Tratamento de dados faltantes

Através das técnicas de AED aplicadas, notouse que vários países participantes do
PISA 2018 não responderam ao questionário dos professores e vários professores dos países que
responderam ao questionário não deram resposta a todas as perguntas e subperguntas presentes
no dataset.
Baseandose nos trabalhos de Saarela et al. (2016), Aksu e Güzeller (2016), Goros
tiaga e RojoÁlvarez (2016), Rebai, Ben Yahia e Essid (2020) e Stearns et al. (2017b) optouse
por utilizar a técnica de eliminação para tratamento de dados faltantes.
As características que não apresentaram pelo menos um dado válido foram descarta
das da pesquisa, fato que levou à redução em seu número de 220 para 167. Com as características
resultantes desse processo, foram calculadas a porcentagem de dados faltantes que variaram de
16% até 42%.
Além da eliminação das perguntas sem respostas, também foram eliminadas instân
cias (linhas) que representam individualmente cada um dos professores, os quais não responde
ram totalmente o questionário, ou que os dados não estavam presentes, reduzindo o número de
amostras de 107.367 para 41.687 instâncias.
Como resultado do processamento apresentado, o dataset resultante possuía a di
mensão de 41.687 linhas por 167 colunas.
5.2.5 A Variável Dependente
Assim como nos trabalhos de Büyükkıdık, Bakırarar e Bulut (2018), Saarela et al.
(2016), Aksu e Güzeller (2016), MartínezAbad, Gamazo e RodríguezConde (2020), Salles,
Dos Santos e Keskpaik (2020), Simon e Cazella (2017), Masci, Johnes e Agasisti (2018), Go
58
rostiaga e RojoÁlvarez (2016), Alves, Cechinel e Queiroga (2018), Rebai, Ben Yahia e Essid
(2020) e Stearns et al. (2017b), optouse por utilizar o aprendizado de máquina supervisionado.
Com a escolha desse tipo de aprendizado, emergiu a necessidade de uma variável
dependente. Para suprir essa necessidade, os dados do dataset dos professores foram cruzados
com os resultados médios de cada país através da coluna “CNT”. Para cada instância foram
atribuídas as notas médias dos testes de matemática e ciências. Os resultados médios de cada
país em matemática e ciências do PISA edição 2018 podem ser observados na Tabela 11.
Tabela 11 – Média dos resultados por país/economia

País/Economia Ciências Matemática País/Economia Ciências Matemática
Albânia 437 417 Irlanda 500 496
Alemanha 500 503 Islândia 495 475
Arábia Saudita 373 386 Israel 463 462
Argentina 379 404 Itália 487 468
Austrália 491 503 Japão 527 529
Áustria 499 490 Jordânia 400 429
BSJZ (China) 591 590 Kosovo 366 365
Baku (Azerbaijão) 420 398 Letônia 496 487
Bélgica 508 499 Líbano 393 384
BieloRússia 472 471 Lituânia 481 482
Bósnia e Herzegovina 406 398 Luxemburgo 483 477
Brasil 384 404 Macau (China) 558 544
Brunei Darussalam 430 431 Macedônia do Norte 394 413
Bulgária 436 424 Malásia 440 438
Canadá 512 518 Malta 472 457
Catar 414 419 Marrocos 368 377
Cazaquistão 423 397 México 409 419
Chile 417 444 Moldova 421 428
Chipre 451 439 Montenegro 430 415
Cingapura 569 551 Noruega 501 490
Colômbia 391 413 Nova Zelândia 494 508
Coréia 526 519 Panamá 353 365
Costa Rica 402 416 Peru 400 404
Croácia 464 472 Polônia 516 511
Dinamarca 509 493 Portugal 492 492
Emirados Árabes Unidos 435 434 Reino Unido 502 505
Eslovênia 509 507 República Tcheca 499 497
Espanha 481 483 República Dominicana 325 336
Estados Unidos 478 502 República Eslovaca (eslováquia) 486 464
Estônia 523 530 Romênia 430 426
Filipinas 353 357 Rússia 488 478
Finlândia 507 522 Sérvia 448 440
França 495 493 Suécia 502 499
Georgia 398 383 Suíça 515 495
Grécia 451 452 Tailândia 419 426
Holanda 519 503 Taipei Chinês 531 516
Hong Kong (China) 551 517 Turquia 454 468
Hungria 481 481 Ucrânia 453 469
Indonésia 379 396 Uruguai 418 426
Fonte: OCDE, 2019. Adaptado.
Influenciado por Büyükkıdık, Bakırarar e Bulut (2018), Saarela et al. (2016), Aksu
e Güzeller (2016), MartínezAbad, Gamazo e RodríguezConde (2020) e Salles, Dos Santos e
Keskpaik (2020) optouse por duas classes para a modelagem de dados. As classe foram criadas
59
utilizando os níveis de proficiência fornecidos pela a OCDE, apresentados na Tabela 7 e Tabela

8 em conjunto com os resultados médios de cada país/economia.
Para ambos os testes foram criadas as classes “Baixa” e “Alta” para representar
baixo e alto desempenho respectivamente, de acordo com os nível apresentados em cada teste.
Os países resultantes após o tratamento dos valores faltantes apresentaram níveis 1a, 1b, 2 e 3
para ciências e níveis 1, 2 e 3 para matemática. Para o teste de matemática, os níveis foram
classificados conforme a Tabela 12 e para o teste de ciências conforme a Tabela 13 resultando
na rotulagem apresentada na Tabela 14.
Tabela 12 – Classes para resultados médios em matemática PISA 2018

Níveis Classes
1,2 Baixo Desempenho
3 Alto Desempenho
Tabela 13 – Classes para resultados médios em ciências PISA 2018

Níveis Classes
1a,1b Baixo Desempenho
2,3 Alto Desempenho
Tabela 14 – Rotulagem para resultados médios

País Níveis em Ciências Classe Níveis em Matemática Classe
Albânia 2 Alta 1 Baixa
Alemanha 3 Alta 3 Alta
Baku (Azerbaijão) 2 Alta 1 Baixa
Brasil 1a Baixa 1 Baixa
Chile 2 Alta 2 Baixa
Coréia 3 Alta 3 Alta
Emirados Árabes Unidos 2 Alta 2 Baixa
Espanha 2 Alta 3 Alta
Hong Kong (China) 3 Alta 3 Alta
Macau (China) 3 Alta 3 Alta
Malásia 2 Alta 2 Baixa
Marrocos 1a Baixa 1 Baixa
Panamá 1a Baixa 1 Baixa
Peru 1a Baixa 1 Baixa
Portugal 3 Alta 3 Alta
Reino Unido 3 Alta 3 Alta
República Dominicana 1b Baixa 1 Baixa
Taipei Chinês 3 Alta 3 Alta

60
Após a criação das classes para ambos os testes, verificouse o balanceamentos entre
as classes. As quantidades de exemplos para o teste de matemática presentes em cada classe
podem ser observados na Figura 31 e para o teste de ciências na Figura 32.
Figura 31 – Quantidade de Exemplos por Classe Teste de Matemática
Figura 32 – Quantidade de Exemplos por Classe Teste de Ciências
5.2.6 Feature Engineering

Durante a etapa de compreensão dos dados e análise exploratória de dados, foi cons
tatada a existência de algumas colunas redundantes, tais colunas foram removidas do dataset.
Visando selecionar os melhores atributos, bem como, simplificar o modelo gerado,
foi aplicado também o método Recursive Feature Elimination RFE, que reduziu a quantidades
61
de colunas em 50% (valor padrão do método). Esta técnica foi aplicada, principalmente, pela
sua eficiência e simplicidade de implementação e também pelo fato de simplificar a base de
dados a fim de diminuir as exigências de recursos computacionais.
5.2.7 Modelagem de Dados
Objetivando extrair quais características foram influenciadoras para o desempenho
dos alunos, aplicouse dois algoritmos de aprendizado supervisionado, o Decision Tree e o Ran
dom Forest através da biblioteca sklearn. Os modelos foram aplicados com seus parâmetros
padrões que são disponibilizados pela sklearn que implementa o algoritmo CART e com crité
rio de classificação Gini.
5.2.8 Avaliação dos Modelos
Para realizar os testes de avaliação dos modelos, foi empregada a técnica Holdout
com 70% dos dados para treinamento e 30% teste. Inicialmente, os modelos foram avaliados
com as métricas Precision, Recall, F1score e Accuracy, porém foi constatado através das Figu
ras 31 e 32 que em ambos os testes, as classes eram desbalanceadas. Então, optouse ou utilizar
a métrica Matthews Correlation Coefficient, que conforme descrito na Subseção 3.3.7, é uma
boa maneira de avaliar modelos binários com classes desbalanceadas.
62
6 RESULTADOS
Conforme a metodologia descrita no capítulo anterior, foram aplicados os modelos
de Decision Tree e Random Forest e avaliados com as métricas Precision Recall, F1score,
Accuracy e Matthews Correlation Coefficient. Os resultados das métricas foram obtidos com a
técnica Holdout, para ambos os testes de matemática e ciências.
Através do modelo com melhor desempenho, foram extraídas as 10 características
dos professores que mais influenciaram no desempenho dos alunos de acordo com a metodologia
adotada.
6.1 Avaliação dos Modelos
As métricas obtidas com a técnica Holdout para o teste de matemática estão descritas
nas Tabelas 15 e 16.
Tabela 15 – Métricas Decision Tree para Matemática Holdout

Classes Precision Recall F1score
Alta 0,78 0,78 0,78
Baixa 0,82 0,82 0,82
Tabela 16 – Métricas Random Forest para Matemática Holdout

Alta 0,87 0,88 0,87
Baixa 0,90 0,89 0,89
Para o teste de ciências, os resultados obtidos podem ser observados nas Tabelas 17
e 18. .
Tabela 17 – Métricas Decision Tree para Ciências Holdout

Alta 0,87 0,86 0,87
Baixa 0,64 0,65 0,65
Tabela 18 – Métricas Random Forest para Ciências Holdout

Alta 0,89 0,97 0,93
Baixa 0,89 0,68 0,77

63
Para a finalidade de comparação, a Tabela 19 apresenta as taxas de acurácia e a

Tabela 20 apresenta os valores obtidos com o cálculo do MCC.
Tabela 19 – Comparação de Desempenho pela Acurácia Holdout

Teste Decision Tree Random Forest
Matemática 0,80 0,88
Ciências 0,81 0,89
Tabela 20 – Comparação de Desempenho pelo MCC Holdout

Teste Decision Tree Random Forest
Matemática 0,58 0,76
Ciências 0,49 0,71
6.2 Feature Importances

Além das métricas derivadas da matriz de confusão do modelo, foram extraídas
informações sobre a importância de cada uma das colunas para a previsão da variável dependente
do modelo de melhor desempenho Random Forest, através do atributo Feature Importances. As
10 colunas com os maiores índices Feature Importances podem ser observadas na Tabela 21.
Tabela 21 – 10 Maiores Feature Importance

Ordem Código Matemática Código Ciências
1º TC199Q05HA 0,068371024901402 TC176Q01HA 0,046247116379706
2º TC199Q02HA 0,048743764979535 TC020Q01NA 0,045514541051944
3º TC054Q02NA 0,042547678271421 TC188Q01HA 0,031589324509043
4º TC199Q01HA 0,034659458058947 TC198Q08HA 0,025777161572669
5º TC176Q01HA 0,028382624676363 TC169Q03HA 0,024983794886848
6º TC018Q10NA 0,026516967878654 TC186Q01HA 0,023369302485541
7º TC018Q01NA 0,026456136018306 TC002Q01NA 0,022185794795445
8º TC018Q04NA 0,023901193002088 TC007Q02NA 0,020993471656112
9º TC199Q03HA 0,022490097653305 TC169Q11HA 0,020788578047038
10º TC046Q07NA 0,0224704884969 TC046Q07NA 0,020759967015817
64
Para melhor compreensão, os códigos são apresentados abaixo, com os respectivos

mapeamentos, para os significados dos itens do questionário por ordem de importância e sepa
rados pelo tipo do teste.
Para matemática:
1°. TC199Q05HA: Motivar os estudantes com baixo interesse nos trabalhos escolares.
2°. TC199Q02HA: Ajudar os estudantes a valorizar o aprendizado.
3°. TC054Q02NA: Frequência de aplicação de testes padronizados.
4°. TC199Q01HA: Fazer os estudantes acreditarem que podem ter bons resultados escolares.
5°. TC176Q01HA: Frequência de atividade de leitura Ler Emails.
6°. TC018Q10NA: Religião e/ou ética foi incluído no curso de licenciatura ou em outro pro
grama de qualificação profissional.
7°. TC018Q01NA: Inclusão ou exclusão de leitura, escrita e literatura no curso de licenciatura
ou programa de capacitação de professores ou em outra qualificação profissional
8°. TC018Q04NA: Inclusão ou exclusão do tópico Tecnologia no curso de licenciatura ou
programa de capacitação de Professores ou em outra qualificação profissional.
9°. TC199Q03HA: Nas aulas, até que ponto o professor pode: elaborar boas questões para
seus estudantes.
10°. TC046Q07NA: Frequência com que o professor frequenta conferências da equipe.
Para ciências:
1°. TC176Q01HA: Frequência de atividade de leitura: ler emails.
2°. TC020Q01NA: Programa de qualificação (por ex. aperfeiçoamento ou especialização).
3°. TC188Q01HA: Estudo em um país diferente do pais do teste.
4°. TC198Q08HA: Percepção sobre a valorização da profissão de professor pela sociedade.
5°. TC169Q03HA: Frequência de uso de processadores de textos ou softwares de apresenta
ções como ferramentas de ensino.
6°. TC186Q01HA: País que o professor nasceu em relação ao país que o teste foi aplicado.
7°. TC002Q01NA: Idade do professor.
8°. TC007Q02NA: Tempo em que o professor trabalha na escola em que o teste está sendo
aplicado.
9°. TC169Q11HA: Frequência de uso de recursos de informações no computador (p. ex.,
sites, wikis, enciclopédias) como ferramentas de ensino no ano letivo.
10°. TC046Q07NA: Frequência com que o professor frequenta conferências da equipe.
65
7 CONCLUSÕES
O presente estudo aplicou técnicas da Ciência de Dados sobre dados contextuais
dos professores coletados pela Avaliação em Larga Escala PISA edição 2018. Observouse
a existência de várias possibilidades de caminhos para a condução do processo de Ciência de
Dados. Devido a essa vasta quantidade de técnicas passíveis de serem aplicadas em cada uma das
etapas do processo, os trabalhos correlacionados foram fundamentais para nortearem a escolha
das técnicas aplicadas contextualizadas à área da educação.
A etapa de compreensão dos dados foi primordial para entender a estruturação e dis
posição desses dados e verificar como as informações foram gravadas na base de dados. Através
dessa etapa, foi possível identificar que vários itens não apresentaram nenhum dado dos profes
sores participantes, e que entre os itens com algum tipo de resposta a quantidade de valores
faltantes atingiu até 44%. Após o tratamento de dados faltantes, foi identificado que, dos 79
países/economias participantes dessa edição do PISA apenas 18 apresentaram professores que
responderam os itens resultantes.
A seleção de atributos foi realizada aplicandose a técnica RFE, que reduziu a quan
tidade de atributos de 167 para 83, fato que, resultou na diminuição da complexidade do modelo
que é muito importante para otimização do uso de recursos computacionais.
Na etapa de modelagem dos dados foram aplicados os algoritmos de Decision Tree e
Randon Forest, com a técnica Holdout para a divisão de dados entre treinamento e teste. A partir
das matrizes de confusão geradas, para cada algoritmo aplicado foram extraídas as métricas
Precision Recall, F1score, Acurácia e MCC visto que foi identificado que as classes para ambos
os testes eram desbalanceadas.
Através da métrica Precision foi possível avaliar a proporção em que o algoritmo
previu corretamente a classe alta em relação a todas as amostras que foram classificadas como
de alto desempenho, sendo que de todas as tentativas de previsão da classe alta o algoritmo
Randon Forest obteve os melhores resultados acertando cerca de 87% para matemática e 89%
para ciências da mesma forma que para as classes rotuladas com baixo desempenho obteve 90%
para matemática e 89% para ciências.
Com a métrica Recall, foi possível verificar a proporção de previsão correta para
alto desempenho em relação a todas as amostras que seriam realmente pertencentes à classe alta,
na qual na aplicação para o teste de matemática no Randon Forest obtevese uma proporção de
89% para matemática e 97% para o teste de Ciências. Para as previsões de baixo desempenho
a taxa de Recall obteve resultados menores se comparados à classe alta, sendo de 89% para
matemática e 68% para ciências.
Em razão de que o F1score é calculado a partir da média harmônica ponderada
das métricas Precision e Recall. Os melhores resultados dessa métrica também foram obtidos
através da Algoritmo Random Forest, sendo de 88% para matemática e 97% para ciências a
partir da perspectiva da classe de alto desempenho e 89% e 68% com a perspectiva da classe
baixo desempenho.
66
A taxa de acurácia avaliou a taxa de acerto geral dos modelos, medindo proporções
de acerto de todas as classes a serem previstas (desejável que esteja o mais próximo de 1 possí
vel), apresentando os melhores resultados com a aplicação do algoritmo Random Forest sendo
de 88% para matemática e 89% para ciências.
Devido ao fato da abordagem de classificação binária e a constatação do desbalan
çamento das classes, o MCC foi fundamental para avaliar a qualidade dos classificadores. Os
melhores resultados para o MCC foram obtidos também com o algoritmo Random Forest, sendo
de 0,76 para matemática e 0,71 para ciências. Levandose em consideração que a escala para o
MCC varia de 1 a 1, sendo 1 uma classificação perfeita, concluise que o modelo gerado pelo
Random Forest apresentou ter uma boa qualidade de previsão.
Ainda, através das métricas apresentadas, foi possível concluir, também, que os mo
delos gerados têm melhores resultados para a previsão das classes de alto desempenho do que
das classes de baixo desempenho, ou seja, as chances de o modelo apresentar um predição cor
reta para classes de alto desempenho é maior.
Com a aplicação dos algoritmos foi possível extrair as características mais influen
ciadoras para a predição de desempenho do alunos. Foram apresentadas as 10 mais influencia
doras do algoritmo que teve melhor taxa de acurácia e MCC para ambos os testes de matemática
e ciências.
Dentre as características encontradas, concluiuse que para o teste de matemática as
principais características estão contextualizadas na valorização e motivação do aprendizado dos
alunos por parte dos professores e para ciências características relacionadas à capacitação do
professor, fato confirmado pela Figura 23 que demonstra a percepção por parte dos professores
de como capacidade de fornecer uma boa educação é prejudicada pela qualificação inadequada
ou insuficiente do corpo docente.
Para ambos os testes ainda foram encontradas características no contexto da tecnolo
gia e relacionadas a idade do professor. Um possibilidade é de que essas características estejam
atreladas entre si até certo ponto, devido ao fato de que novas gerações de professores já vieram
ambientadas ao uso de tecnologias.
Com isso o presente trabalho cumpre seu propósito apresentando as suas descobertas
em relação às características dos professores que mais tiveram influência no desempenho dos
alunos.
7.1 Trabalhos Futuros
Com a flexibilidade que a Ciência de Dados nos trás, sugerese para trabalhos fu
turos a aplicação de diferentes técnicas nas etapas do projeto, por exemplo, metodologias de
de imputação de valores faltantes diferentes, técnicas de divisão de dados, aplicação de outros
modelos de Machine Learning bem como outras técnicas de seleção de atributos. Também se
sugere para trabalhos futuros o uso de uma variável dependente distinta, extrapolando seu con
texto binário ou até mesmo uma mudança de abordagem para que o problema seja tratado com
regressão e não classificação.
67
REFERÊNCIAS
AGUIAR, G. a. S. Estudo Comparativo entre Brasil e Portugal , sobre Diferenças nas
Ênfases Curriculares de Matemática , a partir da Análise do Funcionamento Diferencial
do Item ( DIF ) do PISA 2003. Tese (Doutorado) — PUCRio, 2008.
AKSU, G.; GÜZELLER, C. O. Classification of PISA 2012 Mathematical Literacy Scores
Using DecisionTree Method: Turkey Sampling. TED EĞİTİM VE BİLİM, v. 41, n. 185,
p. 101–122, jun 2016. ISSN 13001337. Disponível em: <http://egitimvebilim.ted.org.tr/
index.php/EB/article/view/4766>.
ALMEIDA, T. B. et al. Seleção de atributos usando abordagem Wrapper para classificação
hierárquica multirrótulo. Dissertação (Mestrado) — Universidade Tecnológica Federal do
Paraná, 2018.
ALTO, V. Visualizing SVM with Python. 2019. Disponível em: <https://medium.com/swlh/
visualizingsvmwithpython4b4b238a7a92>. Acesso em: 13 de mai. de 2022.
ALVES, M. G. As dimensões formal, nãoformal e informal em educação: visibilidade,
relevância e reinvenção na pesquisa e ação educativas. Medi@ ções, v. 2, n. 2, p. 115–132,
2014.
ALVES, R. D.; CECHINEL, C.; QUEIROGA, E. Predição do desempenho de Matemática
e Suas Tecnologias do ENEM utilizando técnicas de Mineração De Dados. In: Anais dos
Workshops do VII Congresso Brasileiro de Informática na Educação (CBIE 2018). [s.n.],
2018. v. 1, n. Cbie, p. 469. Disponível em: <http://brie.org/pub/index.php/wcbie/article/view/
8271>.
ALVIM, J. P. N. et al. Aplicação web para geração de modelos de automatizados de aprendizado
de máquina. Universidade Federal de Uberlândia, 2019.
ARAUJO, M. d. L. H. S. Avaliação Internacional: Concepções Inerentes Ao Pisa E Seus
Resultados No Brasil. XXVI Simpósio Brasileiro de Política e Administração da Educação,
p. 1–12, 2013.
ARAÚJO, R. M. d. Aprendizado de máquina em sistemas complexos multiagentes: estudo de
caso em um ambiente sob racionalidade limitada. 2004.
BAKKER, A.; BIEHLER, R.; KONOLD, C. Should young students learn about box plots.
Curricular development in statistics education: International Association for Statistical
Education, p. 163–173, 2004.
BERTOLINI, C.; PARREIRA, F. J.; CUNHA, G. B. d.; MACEDO, R. T. Linguagem de
programação i. Brasil, 2019.
BIANCHI, R. A. d. C. Uso de heurísticas para a aceleração do aprendizado por reforço.
Tese (Doutorado) — Universidade de São Paulo, 2004.
BORGES, L. E. Python para desenvolvedores: aborda Python 3.3. [S.l.]: Novatec Editora,
2014.
BORGONOVI, F.; CHOI, A.; PACCAGNELLA, M. The evolution of gender gaps in numeracy
and literacy between childhood and young adulthood. Economics of Education Review,
Elsevier Ltd, v. 82, n. November 2019, p. 102119, 2021. ISSN 02727757. Disponível em:
<https://doi.org/10.1016/j.econedurev.2021.102119>.
68
BRAMER, M. Avoiding overfitting of decision trees. Principles of data mining, Springer, p.

119–134, 2007.
BRASIL. PNA: Política Nacional de Alfabetização. Brasília. Brasília: MEC, SEALF, 2019.
54 p. ISBN 9786581002008.
BÜYÜKKIDIK, S.; BAKIRARAR, B.; BULUT, O. Comparing the performance of data

mining methods in classifying successful students with scientific literacy in pisa 2015. 2018.
CAMPETTI, P. H. d. M.; DORNELES, B. V. Uma revisão integrativa e exploratória da

literatura para os termos numeralização, numeramento e numeracia. Bolema: Boletim de
Educação Matemática, SciELO Brasil, v. 36, p. 308–331, 2022.
CANETTA, E.; RICHES, A.; BORGER, E.; HERRINGTON, S.; DHOLAKIA, K.; ADYA,
A. K. Discrimination of bladder cancer cells from normal urothelial cells with high specificity
and sensitivity: Combined application of atomic force microscopy and modulated Raman
spectroscopy. Acta Biomaterialia, Acta Materialia Inc., v. 10, n. 5, p. 2043–2055, 2014. ISSN
18787568. Disponível em: <http://dx.doi.org/10.1016/j.actbio.2013.12.057>.
CARVALHO, L. M. PISA, POLÍTICA E CONHECIMENTO EM EDUCAÇÃO. Educação

& Sociedade, v. 37, n. 136, p. 601–607, sep 2016. ISSN 01017330. Disponível em:
<http://www.scielo.br/scielo.php?script=sci_arttext&pid=S010173302016000300601&lng=
pt&tlng=pt>.
CASCAIS, M. d. G. A.; TERÁN, A. F. Educação formal, informal e não formal na educação

em ciências. Ciência em tela, v. 7, n. 2, p. 1–10, 2014.
CASTRO, M. H. G. D.; TIEZZI, S. A reforma do ensino médio e a implantação do

Enem no Brasil 1. Os desafios da educação no Brasil, p. 115–148, 2005. Disponível em:
<http://www.schwartzman.org.br/simon/desafios/4ensinomedio.pdf>.
CAVIQUE, L. Big data e data science. Boletim da APDIO, Associação Portuguesa de

Investigação Operacional, p. 11–14, 2014.
CAVIQUE, L. Uma nova taxonomia em data science. Maximus Report, GoBusiness Finance,
p. 92–93, 2014.
CORTEZ, P.; SILVA, A. Using data mining to predict secondary school student performance.
15th European Concurrent Engineering Conference 2008, ECEC 2008 5th Future
Business Technology Conference, FUBUTEC 2008, v. 2003, n. 2000, p. 5–12, 2008.
CUNHA, J. P. Z. Um estudo comparativo das técnicas de validação cruzada aplicadas a

modelos mistos. Tese (Doutorado) — Universidade de São Paulo, 2019.
CURTY, R. G.; CERVANTES, B. M. N. Data science: Ciência orientada a dados. Informação

& Informação, v. 21, n. 2, p. 1–4, 2016.
DALFOVO, M. S.; LANA, R. A.; SILVEIRA, A. Métodos quantitativos e qualitativos: um

resgate teórico. Revista interdisciplinar científica aplicada, v. 2, n. 3, p. 1–13, 2008.
DANTAS, D.; DONADIA, E. Comparação entre as técnicas de regressão logística, árvore de

decisão, bagging e random forest aplicadas a um estudo de concessão de crédito. Universidade
Federal Do Paraná, n. Trabalho de conclusão de curso apresentado, p. 18–20, 2013.
69
DATAFLAIR. Python Libraries – Python Standard Library & List of Important Libraries.
2021. Disponível em: <https://dataflair.training/blogs/pythonlibraries/>. Acesso em: 27 de
set. de 2021.
DOURADO, L. F.; OLIVEIRA, J. F. de; SANTOS, C. de A. A qualidade da educação conceitos

e definições. Textos para discussão, n. 24, p. 69–69, 2007.
FAJARDO, O. Pyreadstat’s Documentation. 2021. Disponível em: <https:

//ofajardo.github.io/pyreadstat_documentation/_build/html/index.html>. Acesso em:
27 de set. de 2021.
FARIA, G.; ROMERO, R. A. F. Navegação De Robôs Móveis Utilizando Aprendizado Por

Reforço E Lógica Fuzzy. 2002. 219–230 p.
FIGUEIRA, C. V. Modelos de regressão logística. 2006.
FILHO, A. D. P. C. Uso de big data em saúde no brasil: perspectivas para um futuro próximo.
Epidemiologia e Serviços de Saúde, SciELO Public Health, v. 24, p. 325–332, 2015.
FILHO, D. B. F.; JÚNIOR, J. A. S. Desvendando os mistérios do coeficiente de correlação de

pearson (r). Revista Política Hoje, v. 18, n. 1, p. 115–146, 2009.
FRANCESCHI, P. R. d. Modelagens preditivas de churn: o caso do banco do brasil.

Universidade do Vale do Rio dos Sinos, 2019.
GOHN, M. d. G. Educação nãoformal, participação da sociedade civil e estruturas colegiadas

nas escolas. Ensaio: avaliação e políticas públicas em educação, SciELO Brasil, v. 14, p.
27–38, 2006.
GONZALEZ, L. d. A. Regressão logística e suas aplicações. Universidade Federal do

Maranhão, 2018.
GOROSTIAGA, A.; ROJOÁLVAREZ, J. L. On the use of conventional and statistical

learning techniques for the analysis of PISA results in Spain. Neurocomputing, Elsevier,
v. 171, p. 625–637, 2016. ISSN 18728286. Disponível em: <http://dx.doi.org/10.1016/
j.neucom.2015.07.001>.
HARTWIG, F.; DEARING, B. E. Exploratory data analysis. [S.l.]: Sage, 1979.
HOYOS, R. de; ESTRADA, R.; VARGAS, M. J. What do test scores really capture?
Evidence from a largescale student assessment in Mexico. World Development, Elsevier
Ltd, v. 146, p. 105524, oct 2021. ISSN 0305750X. Disponível em: <https://doi.org/10.1016/
j.worlddev.2021.105524https://linkinghub.elsevier.com/retrieve/pii/S0305750X21001364>.
IAVE. PISA. 2021. Disponível em: <https://iave.pt/estudointernacional/pisa/>. Acesso em:

27 de set. de 2021.
INEP. Programa Internacional de Avaliação de Estudantes (Pisa). 2015. Disponível em:

<https://http://inep.gov.br/pisa>. Acesso em: 6 maio 2019.
INEP. Brasil no PISA 2015: análises e reflexões sobre o desempenho dos estudantes
brasileiros. São Paulo: [s.n.], 2016. Disponível em: <http://download.inep.gov.br/
acoes_internacionais/pisa/resultados/2015/pisa2015_completo_final_baixa.pdf>. Acesso em:
27042020.
70
INEP. Pisa 2018 revela baixo desempenho escolar em leitura, matemática e ciências
no Brasil. 2019. Disponível em: <http://portal.inep.gov.br/artigo//asset_publisher/
B4AQV9zFY7Bv/content/pisa2018revelabaixodesempenhoescolaremleitura
matematicaecienciasnobrasil/21206>. Acesso em: 16 de jun. de 2021.
INEP. Como selecionar as melhores features para seu modelo de Machine Learning. 2020.
Disponível em: <Histórico>. Acesso em: 03 de mai. de 2022.
INEP. Relatório Brasil no PISA 2018. BrasíliaDF: Instituto Nacional de Estudos e Pesquisas
Educacionais Anísio Teixeira, 2020. v. 53. 185 p. ISSN 10986596. ISBN 9786558010395.
Disponível em: <http://download.inep.gov.br/acoes_internacionais/pisa/documentos/2019/
relatorio_PISA_2018_preliminar.pdf>.
INEP, M. d. E. Programa Internacional de Avaliação de Estudantes (Pisa). 2015. Disponível

em: <http://inep.gov.br/pisa>. Acesso em: 25 abr. 2019.
INEP, M. d. E. Programa Internacional de Avaliação de Estudantes (Pisa). 2019. Disponível

em: <http://inep.gov.br/pisa>. Acesso em: 09 set. 2020.
INEP, M. d. E. Relatório Brasil no Pisa: Versão preliminar, 2018. BrasíliaDF, 2019. 154 p.
Disponível em: <http://download.inep.gov.br/acoes_internacionais/pisa/documentos/2019/
relatorio_PISA_2018_preliminar.pdf>.
INEP, M. d. E. Exame Nacional do Ensino Médio (Pisa). 2020. Disponível em:

<http://portal.inep.gov.br/web/guest/enem>. Acesso em: 25 jun. 2020.
JUPYTER. The Jupyter Notebook. 2021. Disponível em: <https://jupyter.org/index.html>.

Acesso em: 06 de set. de 2021.
KUMAR, N. Introduction to Support Vector Machines (SVMs). 2021. Disponível em:

<https://www.marktechpost.com/2021/03/25/introductiontosupportvectormachines
svms/>. Acesso em: 13 de mai. de 2022.
KÜRZL, H. Exploratory data analysis: recent advances for the interpretation of geochemical
data. Journal of Geochemical Exploration, v. 30, n. 13, p. 309–322, 1988. ISSN 03756742.
LORENA, A. C.; CARVALHO, A. C. de. Uma introdução às support vector machines. Revista
de Informática Teórica e Aplicada, v. 14, n. 2, p. 43–67, 2007.
LUZ, J.; ARGENTON, P. Árvore de Regressão para Dados Censurados e Correlacionados.

78 p. Dissertação (Mestrado) — Universidade Estadual de Campinas, 2013.
MAIA, P. F.; JUSTI, R. Desenvolvimento de habilidades no ensino de ciências e o processo de

avaliação: análise da coerência. Ciência & Educação (Bauru), v. 14, n. 3, p. 431–450, 2008.
ISSN 15167313.
MALHEIROS, L. Detecção de posição e quedas corporais baseado em kmeans clustering

ethreshold. 2017.
MARTÍNEZABAD, F.; GAMAZO, A.; RODRÍGUEZCONDE, M. J. Educational Data

Mining: Identification of factors associated with school effectiveness in PISA assessment.
Studies in Educational Evaluation, v. 66, n. December 2019, 2020. ISSN 0191491X.
71
MARTINS, E. S. A etimologia de alguns vocábulos referentes à educação. Revista Olhares &

Trilhas. Rio de Janeiro, n. 6, 2005.
MASCI, C.; JOHNES, G.; AGASISTI, T. Student and school performance across
countries: A machine learning approach. European Journal of Operational Research,
Elsevier B.V., v. 269, n. 3, p. 1072–1085, 2018. ISSN 03772217. Disponível em:
<https://doi.org/10.1016/j.ejor.2018.02.031>.
MATOS, P. F.; LOMBARDI, L. d. O.; CIFERRI, R. R.; PARDO, T. A.; CIFERRI, C. D.;
VIEIRA, M. T. Relatório técnico “métricas de avaliaçao”. Universidade Federal de Sao
Carlos, 2009.
MATPLOTLIB. Matplotlib: Visualization with Python. 2021. Disponível em: <https:
//matplotlib.org/>. Acesso em: 27 de set. de 2021.
MATSUBARA, E. T. Relações entre ranking, análise ROC e calibração em aprendizado de
máquina. Tese (Doutorado) — Universidade de São Paulo, São Carlos, oct 2008. Disponível
em: <http://www.teses.usp.br/teses/disponiveis/55/55134/tde04032009114050/>.
MEDIUM. Ciclo de vida de um projeto de Data Science. 2018. Disponível em:
<https://medium.com/techbloghotmart/afinalcomosedesenvolveumprojetodedata
science233472996c34>. Acesso em: 16 de mai. de 2019.
MEDIUM. Ciclo de vida de um projeto de Data Science. 2020. Disponível em:
<https://medium.com/@lauradamaceno/regress\%C3\%A3olinear6a7f247c3e29>. Acesso
em: 04 de mai. de 2022.
MEDRI, W. Análise exploratória de dados. http://www. uel. br/pos/estatisticaedu
cacao/textos_d idaticos/especializacao_estatistica. pdf Acesso em, v. 15, p. 05–13,
2011.
MICROSOFT. Preparar dados para aprendizado de máquina aprimorado. 2022.
Disponível em: <https://docs.microsoft.com/ptbr/azure/architecture/datascienceprocess/
preparedata>. Acesso em: 02 de abri. de 2022.
MONARD, M. C.; BARANAUSKAS, J. A. Capítulo 5: Indução de Regras e Árvores de
Decisão. Sistemas Inteligentes Fundamentos e Aplicações, n. m, p. 57–74, 2003. Disponível
em: <http://labic.icmc.usp.br/publicacao/406>.
MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre Aprendizado de Máquina.
Sistemas inteligentes: fundamentos e aplicações, p. 89–114, 2003.
MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre aprendizado de máquina. In:
. Sistemas Inteligentes Fundamentos e Aplicações. 1. ed. BarueriSP: Manole Ltda,
2003. p. 89–114. ISBN 85204168.
MULLIS, I. V.; MARTIN, M. O. TIMSS 2019 Assessment Frameworks. [S.l.]: ERIC, 2017.
NARGESIAN, F.; SAMULOWITZ, H.; KHURANA, U.; KHALIL, E. B.; TURAGA, D.
Learning Feature Engineering for Classification. In: Proceedings of the TwentySixth
International Joint Conference on Artificial Intelligence. California: International Joint
Conferences on Artificial Intelligence Organization, 2017. v. 0, n. August, p. 2529–2535. ISBN
9780999241103. ISSN 10450823. Disponível em: <https://www.ijcai.org/proceedings/2017/
352>.
72
NUMPY. What is NumPy? 2021. Disponível em: <https://numpy.org/doc/stable/user/

whatisnumpy.html>. Acesso em: 27 de set. de 2021.
OCDE. PISA 2018 Results COMBINED EXECUTIVE SUMMARIES. OCDE, OECD, I, II e

II, 2019. Disponível em: <https://www.oecdilibrary.org/education/whatstudentsknowand
cando_g222d18afen>.
OECD. “How PISA results are reported: What is a PISA score?”, in PISA 2018 Results
(Volume I): What Students Know and Can Do. In: . Paris: OECD Publishing, 2019. I, cap. 2, p.
41–47.
OECD. Where: Global reach. 2021. Disponível em: <https://www.oecd.org/about/members

andpartners/>. Acesso em: 28 de set. de 2021.
OLIVEIRA, G. d.; PRATI, R. Ajuste de parâmetros em algoritmos de aprendizado de máquina

utilizando transferência de aprendizado. X Encontro Nacional de Inteligência Artificial e
Computacional (ENIAC), p. 3, 2013.
OLIVEIRA, T. S.; MARINHO, D. S.; BRITO, P. F. Avaliação do Módulo de Identificação

da Polaridade Geral dos Comentários do TripAdvisor®. Congresso de Computação e
Tecnologias da Informação, v. 1, n. 21, p. 35–44, 2019.
PACHECO, F.; RANGEL, C.; AGUILAR, J.; CERRADA, M.; ALTAMIRANDA, J.

Methodological framework for data processing based on the data science paradigm. In: IEEE.
2014 XL Latin American Computing Conference (CLEI). [S.l.], 2014. p. 1–12.
PANDAS. About pandas. 2021. Disponível em: <https://pandas.pydata.org/about/

index.html>. Acesso em: 27 de set. de 2021.
PARMEZAN, A. R. S.; LEE, H. D.; SPOLAÔR, N.; CHUNG, W. F. Avaliação de Métodos

para Seleção de Atributos Importantes para Aprendizado de Máquina Supervisionado
no Processo de Mineração de Dados. [S.l.]: dez, 2012.
PAULA, E. Análise condicionada da demanda de energia elétrica: aplicação a um caso real.

Rio de Janeiro, 2006.
PEDREGOSA, F.; VAROQUAUX, G.; GRAMFORT, A.; MICHEL, V.; THIRION,

B.; GRISEL, O.; BLONDEL, M.; PRETTENHOFER, P.; WEISS, R.; DUBOURG, V.;
VANDERPLAS, J.; PASSOS, A.; COURNAPEAU, D.; BRUCHER, M.; PERROT, M.;
DUCHESNAY, E. Scikitlearn: Machine learning in Python. Journal of Machine Learning
Research, v. 12, p. 2825–2830, 2011.
PETTERSSON, D.; MOLSTAD, C. E. PROFESSORES DO PISA: A ESPERANÇA E A

REALIZAÇÃO DA EDUCAÇÃO. [S.l.], 2016. v. 37, n. 136, 629–645 p. Disponível em:
<http://www.scielo.br/scielo.php?script=sci_arttext&pid=S010173302016000300629&lng=
pt&tlng=pt>.
PLOTLY. Plotly Open Source Graphing Libraries. 2021. Disponível em: <https:
//plotly.com/graphinglibraries/>. Acesso em: 05 de nov. de 2021.
PRATI, R.; BATISTA, G.; MONARD, M. Curvas roc para avaliação de classificadores.
Revista IEEE América Latina, v. 6, n. 2, p. 215–222, 2008.
73
RANGEL, M. d. M. Categorização automática de conjuntos de dados de portais de dados

abertos utilizando aprendizado de máquina supervisionado. Universidade Federal Fluminense,
2019.
RASCHKA, S. Model Evaluation, Model Selection, and Algorithm Selection in Machine

Learning. nov 2018. Disponível em: <http://arxiv.org/abs/1811.12808>.
RAUBER, T. W. Redes neurais artificiais. Universidade Federal do Espírito Santo, v. 29,

2005.
REBAI, S.; Ben Yahia, F.; ESSID, H. A graphically based machine learning approach
to predict secondary schools performance in Tunisia. SocioEconomic Planning
Sciences, Elsevier, v. 70, n. June 2019, p. 100724, 2020. ISSN 00380121. Disponível em:
<https://doi.org/10.1016/j.seps.2019.06.009>.
RIBEIRO, C. H. C. Aprendizado por Reforço. V Escola de Redes Neurais, p. 28–72, 1999.
ROCHER, E. D. S. K. M. L. J.M. P. T.; BUREAU. CEDRE Cycle des Evaluations

Disciplinaires R’ealis’ees sur Echantillons Rapport Technique. [S.l.], 2014. 1–61 p.
ROKACH, L.; MAIMON, O. TopDown Induction of Decision Trees Classifiers—A

Survey. IEEE Transactions on Systems, Man and Cybernetics, Part C (Applications
and Reviews), v. 35, n. 4, p. 476–487, nov 2005. ISSN 10946977. Disponível em:
<http://ieeexplore.ieee.org/document/1522531/>.
ROMANELLI, R. C. O vocabulário indoeuropeu e seu desenvolvimento semântico. [S.l.]:

Editeur inconnu, 1964.
ROQUE, A. Elementos Básicos de Neurociência. p. 1–17, 2020.
ROSA, K. D. da; MARTINS, M. C. O letramento em ciências como objetivo para o ensino de

ciências. Sitientibus Série Ciências Físicas, v. 3, p. 10–17, 2007.
ROZA, B. E.; PEGORARO, M. A. G. Classificador de phishing utilizando algoritmo de naive

bayes. 004, 2020.
SAARELA, M.; YENER, B.; ZAKI, M. J.; KÄRKKÄINEN, T. Predicting Math Performance
from Raw LargeScale Educational Assessments Data: A Machine Learning Approach. v. 48,
n. 1, p. 1–8, 2016.
SALLES, F.; Dos Santos, R.; KESKPAIK, S. When didactics meet data science:
process data analysis in largescale mathematics assessment in France. Large
scale Assessments in Education, Springer US, v. 8, n. 1, p. 7, dec 2020. ISSN
21960739. Disponível em: <https://doi.org/10.1186/s4053602000085yhttps://
largescaleassessmentsineducation.springeropen.com/articles/10.1186/s4053602000085y>.
SANTANA, F. B. de. Floresta Aleatória Para Desenvolvimento De Modelos Multivariados

De Classificação E Regressão Em Química Analítica. 139 p. Tese (Doutorado) —
UNIVERSIDADE ESTADUAL DE CAMPINAS, 2020.
SANTOS, C. N. dos. Aprendizado de máquina na identificação de sintagmas nominais: o

caso do português brasileiro. Tese (Doutorado) — Instituto Militar de Engenharia, 2005.
74
SANTOS, H. G. d.; NASCIMENTO, C. F. d.; IZBICKI, R.; DUARTE, Y. A. d. O.; FILHO, P.

C.; DIAS, A. Machine learning para análises preditivas em saúde: exemplo de aplicação para
predizer óbito em idosos de são paulo, brasil. Cadernos de Saúde Pública, SciELO Public
Health, v. 35, p. e00050818, 2019.
SAUPE, R.; BUDÓ, M. d. L. D. Pedagogia interdisciplinar:”educare”(educação e cuidado)

como objeto fronteiriço em saúde. Texto & ContextoEnfermagem, SciELO Brasil, v. 15, p.
326–333, 2006.
SCHLEICHER, A. PISA 2018 insights and interpretations. OECD Pu

blishing, p. 64, 2019. Disponível em: <https://www.oecd.org/pisa/
PISA2018InsightsandInterpretationsFINALPDF.pdf>.
SCHREIBER, J. N. C.; BESKOW, A. L.; MÜLLER, J. C. T.; NARA, E. O. B.; SILVA, J. I. D.;
REUTER, J. W. Técnicas de validação de dados para sistemas inteligentes: Uma abordagem
do software sdbayes. 2017.
SILVA, L. Uma aplicação de árvores de decisão, redes neurais e knn para a identificação
de modelos arma não sazonais e sazonais. Rio de Janeiro. 145p. Tese de Doutorado
Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de
Janeiro, 2005.
SILVA, L. C. et al. Aprendizado de máquina com treinamento continuado aplicado à previsão

de demanda de curto prazo: o caso do restaurante universitário da universidade federal de
uberlândia. Universidade Federal de Uberlândia, 2019.
SILVA, L. M. O. da. Uma Aplicação de Árvores de Decisão, Redes Neurais e KNN para a
Identificação de Modelos ARMA NãoSazonais e Sazonais. Tese (Doutorado) — PUCRio,
2005.
SILVA, R. O. B. da; CAPELA, J. M.; CAPELA, M. V. Estudo de distribuições de probabilidade:

Simulação e aplicação. Proceeding Series of the Brazilian Society of Computational and
Applied Mathematics, v. 2, n. 1, 2014.
SILVA, T. A. Como interpretar as métricas Precisão, Revocação, Acurácia e MedidaF.

2018. Disponível em: <https://tiago.blog.br/precisaorevocacaoacuraciaemedidaf/>.
Acesso em: 18 de mai. de 2022.
SIMON, A.; CAZELLA, S. C. Mineração de Dados Educacionais nos Resultados do ENEM

de 2015. n. Cbie, p. 754–763, 2017.
SINGH, S.; GUPTA, P. Comparative study id3, cart and c4. 5 decision tree algorithm: a
survey. International Journal of Advanced Information Science and Technology (IJAIST),
Citeseer, v. 27, n. 27, p. 97–103, 2014.
SOUZA, N. A. d. Aumentando o poder preditivo de classificadores lineares através de

particionamento por classe. Universidade Federal de São Carlos, 2018.
STEARNS, B.; RANGEL, F.; FIRMINO, F.; RANGEL, F.; OLIVEIRA, J. Prevendo
desempenho dos candidatos do enem através de dados socioeconômicos. In: SBC. 36º
Concurso de Trabalhos de Iniciação Científica (CTIC 2017). [S.l.], 2017. v. 36, n. 1/2017.
75
STEARNS, B.; RANGEL, F.; FIRMINO, F.; RANGEL, F.; OLIVEIRA, J. Prevendo
Desempenho dos Candidatos do ENEM Através de Dados Socioeconômicos. Congresso da
Sociedade Brasileira de Computação, p. 2522–2530, 2017.
THURLOW, M. Large Scale Assessment and Accountability and Students with Special Needs.
In: International Encyclopedia of Education. Elsevier, 2010. p. 752–758. Disponível em:
<https://linkinghub.elsevier.com/retrieve/pii/B9780080448947011581>.
TISSOT, H. C.; CAMARGO, L. C.; POZO, A. T. Treinamento de redes neurais feedforward:

comparativo dos algoritmos backpropagation e differential evolution. In: Brazilian
Conference on Intelligent Systems. [S.l.: s.n.], 2012.
TRIPATHY, A.; AGRAWAL, A.; RATH, S. K. Classification of Sentimental Reviews

Using Machine Learning Techniques. Procedia Computer Science, Elsevier Masson SAS,
v. 57, p. 821–829, 2015. ISSN 18770509. Disponível em: <http://dx.doi.org/10.1016/
j.procs.2015.07.523>.
VASCONCELLOS, P. Como selecionar as melhores features para seu modelo de Machine

Learning. 2019. Disponível em: <https://paulovasconcellos.com.br/comoselecionaras
melhoresfeaturesparaseumodelodemachinelearning2e9df83d062a>. Acesso em: 16 de
nov. de 2021.
VILLARREAL, J.; LóPEZ, C. U.; DIAZ, J.; NAVARRO, A. Secure learning para detección de
android malware. 06 2019.
WASKOM, M. seaborn: statistical data visualization. 2021. Disponível em: <https:

//seaborn.pydata.org/>. Acesso em: 27 de set. de 2021.
WEBB, G. I. Encyclopedia of Machine Learning and Data Mining. Boston, MA: Springer
US, 2016. ISBN 9781489975027. Disponível em: <https://link.springer.com/10.1007/978
1489975027>.
WERLE, F. O. C. Avaliação em larga escala: foco na escola. [S.l.]: Oikos Editora, 2010.
WILAMOWSKI, B. Neural network architectures and learning algorithms. IEEE Industrial

Electronics Magazine, v. 3, n. 4, p. 56–63, dec 2009. ISSN 19324529. Disponível em:
<http://ieeexplore.ieee.org/document/5352485/>.
WITTEN, I. H.; FRANK, E.; HALL, M. A.; PAL, C. J. Data mining: Practical machine
learning tools and techniques. In: . Data Mining: Practical machine learning tools and
techniques. 4. ed. CambridgeMA,United States: Morgan Kaufmann, 2016. p. 56–65.
YIU, T. Understanding Random Forest. How the Algorithm Works and Why it Is… | by
Tony Yiu | Towards Data Science. 2019. Disponível em: <https://towardsdatascience.com/
understandingrandomforest58381e0602d2>. Acesso em: 27 de jul. de 2021.
ZHANG, H. The optimality of naive bayes. Faculty of Computer Science University of

New Brunswick, v. 1, n. 2, p. 6, 2004.
ZHENG, A.; CASARI, A. Feature engineering for machine learning: principles and
techniques for data scientists. [S.l.]: ”O’Reilly Media, Inc.”, 2018.
76

Disserta o Rochelly 2021 Final

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Disserta o Rochelly 2021 Final

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DOS VALES DO JEQUITINHONHA E MUCURI

Programa de Pós­Graduação em Educação em Ciências, Matemática e Tecnologia

CIÊNCIA DE DADOS APLICADA AO PISA 2018

CIÊNCIA DE DADOS APLICADA AO PISA 2018

Dissertação de Mestrado apresentada ao Pro­

Orientador: Prof. Dr. Alessandro Vivas An­

Palavras­chave: Avaliações em Larga Escala. Aprendizado de Máquina. Ciência de Dados.

Keywords: Large­scale Assessment. Machine Learning. Data Science. Education. PISA.

Anresc Avaliação Nacional do Rendimento Escolar

CEDRE Cycle des Évaluations Disciplinaires Réalisées sur Échantillon

CHAID Chi­squared Automatic Interaction Detection

Daeb Diretoria de Avaliação Básica

DBSCAN Density­based Spatial Clustering ofApplications With Noise

DDF Directional Distance Function

EDA Exploratory Data Analysis

EDM Educational Data Mining

ENCCEJA Exame Nacional de Certificação de Competências de Jovens e Adultos

ENEM Exame Nacional de Ensino Médio

GPL General Public License

ICC Intraclass Correlation Coefficient

INEP Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira

LSAs Large­Scale Assessments

MAE Mean Absolute Error

MAPE Mean Absolute Percentage Error

MCC Matthews Correlation Coefficient

MEC Ministério da Educação

MLP Multilayer Perceptro

NAEP National Assessement ofEducation Progress

OECD Organisation for Economic Co­operation and Development

PISA Programme for International Student Assessment

PNE Plano Nacional de Educação

PNE Plano Nacional de Educação

PSO Particle Swarm Optimization

RFE Selection Recursive Feature Elimination

RNA Redes Neurais Artificiais

ROC Receiver Operating Characteristic)

RRSE Root Relative Squared Error

SAEB Sistema de Avaliação da Educação Básica

SAEB Sistema de Avaliação da Educação Básica

SVM Support Vector Machine

TFP Taxa de Falsos Positivos

TIMSS Trends in International Mathematics and Science Study

TP True Positive (TP)

TVP Taxa de Verdadeiros Positivos

UFVJM Universidade Federal dos Vales do Jequitinhonha e Mucuri

4.1.4 Mineração de Dados Educacionais nos Resultados do ENEM de 2015 . . 41

a educação formal é aquela desenvolvida nas escolas, com conteúdos previa­

Além de LSAs focadas em um determinado país, existem as que extrapolam seus

de aprendizagem. Os questionários contextuais e um número de itens das áreas avaliadas são

Tabela 1 – Questionários aplicados no Brasil em cada edição do PISA

Fonte: INEP, 2020b. Adaptado.

Segundo INEP (2020b), as seguintes informações foram coletadas pelos questioná­

Tabela 2 – Países membros da OCDE

As áreas de interesse e pesquisa da OCDE estão relacionadas à economia, agricul­

3.2.2 PISA edição 2018

Tabela 3 – Países parceiros da OCDE

1 Beijing, Shanghai, Jiangsu e Zhejiang que são províncias Chinesas.

3.2.3 Brasil no PISA

Tabela 4 – Testes cognitivos aplicados no Brasil em cada edição do PISA

Fonte: INEP, 2020b. Adaptado.

3.2.3.1 Resultados Brasileiros

Fonte: INEP, 2020b. Adaptado.

Tabela 6 – Resultados médios do Brasil em todas as edições do PISA até 2018

Programa de PósGraduação em Educação em Ciências, Matemática e Tecnologia

Dissertação de Mestrado apresentada ao Pro

Orientador: Prof. Dr. Alessandro Vivas An

Palavraschave: Avaliações em Larga Escala. Aprendizado de Máquina. Ciência de Dados.

Keywords: Largescale Assessment. Machine Learning. Data Science. Education. PISA.

CHAID Chisquared Automatic Interaction Detection

DBSCAN Densitybased Spatial Clustering ofApplications With Noise

LSAs LargeScale Assessments

OECD Organisation for Economic Cooperation and Development

a educação formal é aquela desenvolvida nas escolas, com conteúdos previa

Segundo INEP (2020b), as seguintes informações foram coletadas pelos questioná

As áreas de interesse e pesquisa da OCDE estão relacionadas à economia, agricul

Tabela 7 – Percentual de estudantes por nível de proficiência em matemática PISA 2018

Tabela 8 – Percentual de estudantes por nível de proficiência em ciência PISA 2018

Observandose as tabelas, é possível notar que a maioria dos estudantes brasileiros

Tabela 9 – Percentual de estudantes por nível de proficiência em leitura PISA 2018

O processo que envolve um projeto de Ciência de Dados é bastante flexível e adap

3.3.1 Préprocessamento de Dados

As seguintes tarefas podem estar presentes na etapa de Préprocessamento de Dados

De acordo com as interações do agente de aprendizado para a concepção do conhe

Na regressão logística o objetivo é calcular a probabilidade para realizar a classifi

Uma questão muito importante vinculada à implementação de um modelo de De

O neurônio artificial tenta simular as características de um neurônio biológico. Apre

Para Raschka (2018) há 3 principais motivos para se avaliar a performance predi

• Gráfico ROC Receiver Operating Characteristic:

Foram aplicadas as técnicas Mean Absolute Percentage Error MAPE e R Squared

Figura 14 – Boxplot: Notas médias de ciências e matemática PISA 2018