Você está na página 1de 77

UNIVERSIDADE FEDERAL DOS VALES DO JEQUITINHONHA E MUCURI

Programa de Pós­Graduação em Educação em Ciências, Matemática e Tecnologia


PPGECMaT
Rochelly Fernandes Andrade

CIÊNCIA DE DADOS APLICADA AO PISA 2018

Diamantina
2022
Rochelly Fernandes Andrade

CIÊNCIA DE DADOS APLICADA AO PISA 2018

Dissertação de Mestrado apresentada ao Pro­


grama de Pós­Graduação em Educação em Ci­
ências, Matemática e Tecnologia ­ PPGECMaT,
como requisito parcial para obtenção do título
de Mestre em Educação em Ciências, Matemá­
tica e Tecnologia.

Orientador: Prof. Dr. Alessandro Vivas An­


drade

Diamantina
2022
RESUMO
A educação está presente e ligada a várias áreas de interesse público. Sabendo­se dessa impor­
tância, Avaliações em Larga Escala são aplicadas em diversos países, objetivando servirem de
indicadores desses quadros educacionais, bem como, monitorar as habilidades cognitivas rela­
cionadas à literacia e à numeracia. O presente estudo aplicou técnicas de Ciência de Dados,
uma área multidisciplinar, que envolve, principalmente aprendizado de máquina e estatística,
sobre dados coletados pelo questionário aplicado aos professores durante a Avaliação em Larga
Escala do Programa Internacional de Avaliação de Estudantes, edição 2018. O trabalho buscou
identificar quais características, coletadas pelo questionário aplicado aos professores, têm mais
impacto sobre o desempenho dos alunos nas avaliações de matemática e ciências. O trabalho
aplicou dois modelos de aprendizado supervisionado, o Decision Tree e o Random Forest, nos
quais a variável dependente foi elaborada com base nas notas médias dos países participantes
e nos níveis de proficiência. Os modelos foram aplicados implementando o algoritmo CART
com critério de classificação Gini, na qual os dados foram divididos através da técnica Holdout
com 70% dos dados para treinamento e 30%. A seleção de atributos foi realizada aplicando o
método Recursive Feature Elimination, que reduziu a quantidade de atributos de 167 para 83.
As instâncias com dados faltantes não foram utilizadas nesta pesquisa. O Matthews Correlation
Coefficient­MCC avaliou a qualidade geral dos modelos sendo utilizado como principal meio
de comparação de desempenho de classificação, tendo em vista a constatação de desbalancea­
mento das classes. Com o MCC observou­se que, de maneira geral o Random Forest obteve
os melhores desempenhos com 0,76 para o teste de matemática e 0,71 para ciências. Com o
modelo gerado pelo algoritmo Random Forest, identificaram­se as principais características in­
fluenciadoras de desempenho, em que se destacaram características relacionadas à tecnologia
e, principalmente ao incentivo dado aos alunos pelos professores relacionados à motivação e
valorização do aprendizado e capacitação dos professores.

Palavras­chave: Avaliações em Larga Escala. Aprendizado de Máquina. Ciência de Dados.


Educação. PISA.
ABSTRACT
Education is present and linked to several areas of public interest. Knowing this importance,
Large­Scale Assessments are applied in several countries, aiming to serve as indicators of these
educational frameworks, as well as monitoring cognitive skills related to literacy and numeracy.
The present study applied Data Science techniques, a multidisciplinary area, which mainly invol­
ves machine learning and statistics, on data collected by the questionnaire applied to teachers
during the Large­Scale Assessment of the Programme for International Student Assessment,
2018 edition. This work sought to identify which characteristics, collected by the questionnaire
applied to teachers, have the greatest impact on student performance in mathematics and science
assessments. The work applied two supervised learning models, the Decision Tree and the Ran­
dom Forest, in which the dependent variable was elaborated based on the average scores of the
participating countries and on the proficiency levels. The models were applied implementing
the CART algorithm with Gini classification criterion, in which the data were divided using the
Holdout technique with 70% of the data for training and 30%. Attribute selection was performed
using the Recursive Feature Elimination method, which reduced the number of attributes from
167 to 83. Instances with missing data were not used in this research. The Matthews Correlation
Coefficient­MCC evaluated the general quality of the models being used as the main means of
comparing the classification performance, in view of the verification of class imbalance. with
the MCC it was observed that, in general, Random Forest obtained the best performances with
0.76 for the math test and 0.71 for science. With the model generated by the algorithm Random
Forest, the main characteristics influencing performance were identified, in which characteris­
tics related to technology and, mainly, to the incentive given to students by teachers related to
the motivation and appreciation of learning and training of teachers.

Keywords: Large­scale Assessment. Machine Learning. Data Science. Education. PISA.


LISTA DE ILUSTRAÇÕES
Figura 1 – Processo de um Projeto de Ciência de Dados . . . . . . . . . . . . . . . . . 22
Figura 2 – Gráfico de Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . 26
Figura 3 – Gráfico de Regressão Logística x Regressão Linear . . . . . . . . . . . . . 28
Figura 4 – Exemplo de Vetores de Suporte . . . . . . . . . . . . . . . . . . . . . . . . 29
Figura 5 – Exemplo de conjunto de dados não separáveis linearmente . . . . . . . . . 29
Figura 6 – Transformação de dados para terceira dimensão . . . . . . . . . . . . . . . 30
Figura 7 – Divisão dos dados em terceira dimensão . . . . . . . . . . . . . . . . . . . 30
Figura 8 – Esboço de uma Árvore de Decisão . . . . . . . . . . . . . . . . . . . . . . 31
Figura 9 – Esboço de uma Floresta Aleatória . . . . . . . . . . . . . . . . . . . . . . . 33
Figura 10 – Esboço de um Neurônio Artificial . . . . . . . . . . . . . . . . . . . . . . 34
Figura 11 – Esboço de uma RNA com propagação feedforward . . . . . . . . . . . . . 34
Figura 12 – Exemplo de Holdout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Figura 13 – Distribuição e relação das notas médias de matemática e ciências ­ PISA 2018 49
Figura 14 – Boxplot: Notas médias de ciências e matemática ­ PISA 2018 . . . . . . . . 49
Figura 15 – Notas médias de ciências por país . . . . . . . . . . . . . . . . . . . . . . . 50
Figura 16 – Notas médias de matemática por país . . . . . . . . . . . . . . . . . . . . . 50
Figura 17 – Boxplot: Idades de professores . . . . . . . . . . . . . . . . . . . . . . . . 51
Figura 18 – Boxplot: Idades de professores por país . . . . . . . . . . . . . . . . . . . 51
Figura 19 – Boxplot: Idades de professores por sexo . . . . . . . . . . . . . . . . . . . 51
Figura 20 – Tempo de licenciatura ou programa de capacitação de professores . . . . . . 52
Figura 21 – Estudo em país estrangeiro . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Figura 22 – Atividades de desenvolvimento profissional . . . . . . . . . . . . . . . . . 53
Figura 23 – Capacidade da escola em fornecer uma boa educação em relação a qualifica­
ção dos professores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Figura 24 – Uso de Jogos digitais como ferramentas de ensino . . . . . . . . . . . . . . 54
Figura 25 – Uso de ferramentas de produção multimídia como ferramentas de ensino . . 54
Figura 26 – Uso de recursos de computadores como ferramentas de ensino . . . . . . . 55
Figura 27 – Uso de redes sociais como ferramentas de ensino . . . . . . . . . . . . . . 55
Figura 28 – Uso de softwares de simulações como ferramentas de ensino . . . . . . . . 56
Figura 29 – Uso de softwares de instrução como ferramentas de ensino . . . . . . . . . 56
Figura 30 – Politica de uso de dispositivos eletronicos nas escolas . . . . . . . . . . . . 57
Figura 31 – Quantidade de Exemplos por Classe ­ Teste de Matemática . . . . . . . . . 60
Figura 32 – Quantidade de Exemplos por Classe ­ Teste de Ciências . . . . . . . . . . . 60
LISTA DE TABELAS
Tabela 1 – Questionários aplicados no Brasil em cada edição do PISA . . . . . . . . . 15
Tabela 2 – Países membros da OCDE . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Tabela 3 – Países parceiros da OCDE . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Tabela 4 – Testes cognitivos aplicados no Brasil em cada edição do PISA . . . . . . . 18
Tabela 5 – Resultados médios do Brasil x resultados médios dos países membros da
OCDE ­ PISA 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Tabela 6 – Resultados médios do Brasil em todas as edições do PISA até 2018 . . . . . 19
Tabela 7 – Percentual de estudantes por nível de proficiência em matemática ­ PISA 2018 20
Tabela 8 – Percentual de estudantes por nível de proficiência em ciência ­ PISA 2018 . 20
Tabela 9 – Percentual de estudantes por nível de proficiência em leitura ­ PISA 2018 . 21
Tabela 10 – Matriz de Confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Tabela 11 – Média dos resultados por país/economia . . . . . . . . . . . . . . . . . . . 58
Tabela 12 – Classes para resultados médios em matemática ­ PISA 2018 . . . . . . . . . 59
Tabela 13 – Classes para resultados médios em ciências ­ PISA 2018 . . . . . . . . . . 59
Tabela 14 – Rotulagem para resultados médios . . . . . . . . . . . . . . . . . . . . . . 59
Tabela 15 – Métricas Decision Tree para Matemática ­ Holdout . . . . . . . . . . . . . 62
Tabela 16 – Métricas Random Forest para Matemática ­ Holdout . . . . . . . . . . . . 62
Tabela 17 – Métricas Decision Tree para Ciências ­ Holdout . . . . . . . . . . . . . . . 62
Tabela 18 – Métricas Random Forest para Ciências ­ Holdout . . . . . . . . . . . . . . 62
Tabela 19 – Comparação de Desempenho pela Acurácia ­ Holdout . . . . . . . . . . . 63
Tabela 20 – Comparação de Desempenho pelo MCC ­ Holdout . . . . . . . . . . . . . . 63
Tabela 21 – 10 Maiores Feature Importance . . . . . . . . . . . . . . . . . . . . . . . . 63
LISTA DE ABREVIATURAS E SIGLAS
ANEB Avaliação Nacional da Educação Básica

Anresc Avaliação Nacional do Rendimento Escolar

CEDRE Cycle des Évaluations Disciplinaires Réalisées sur Échantillon

CHAID Chi­squared Automatic Interaction Detection

Daeb Diretoria de Avaliação Básica

DBSCAN Density­based Spatial Clustering ofApplications With Noise

DDF Directional Distance Function

EDA Exploratory Data Analysis

EDM Educational Data Mining

ENCCEJA Exame Nacional de Certificação de Competências de Jovens e Adultos

ENEM Exame Nacional de Ensino Médio

FN Falso Negativo

FP Falso Positivo

GPL General Public License

IA Inteligência Artificial

ICC Intraclass Correlation Coefficient

INEP Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira

LSAs Large­Scale Assessments

MAE Mean Absolute Error

MAPE Mean Absolute Percentage Error

MCC Matthews Correlation Coefficient

MEC Ministério da Educação

ML Machine Learning

MLP Multilayer Perceptro

NAEP National Assessement ofEducation Progress


OCDE Organização para a Cooperação e Desenvolvimento Econômico

OECD Organisation for Economic Co­operation and Development

PISA Programme for International Student Assessment

PNE Plano Nacional de Educação

PNE Plano Nacional de Educação

PSO Particle Swarm Optimization

RF Random Forest

RFE Selection Recursive Feature Elimination

RNA Redes Neurais Artificiais

ROC Receiver Operating Characteristic)

RRSE Root Relative Squared Error

SAEB Sistema de Avaliação da Educação Básica

SAEB Sistema de Avaliação da Educação Básica

SVM Support Vector Machine

TFP Taxa de Falsos Positivos

TIMSS Trends in International Mathematics and Science Study

TP True Positive (TP)

TVP Taxa de Verdadeiros Positivos

UFVJM Universidade Federal dos Vales do Jequitinhonha e Mucuri

VN Verdadeiro Negativo

VP Verdadeiro Positivo
SUMÁRIO

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3 REFERENCIAL TEÓRICO . . . . . . . . . . . . . . . . . . . . . . . . 12
3.1 A Educação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Programme for International Student Assessment ­ PISA . . . . . . . . 14
3.2.1 OCDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.2 PISA edição 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.3 Brasil no PISA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.3.1 Resultados Brasileiros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.3.2 Níveis de Desempenhos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Ciência de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.1 Pré­processamento de Dados . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.2 Análise exploratória de dados . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.3 Feature engineering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.4 Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3.5 Modelos de Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . 25
3.3.5.1 Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3.5.2 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.5.3 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.5.4 Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.5.5 Decision Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.5.6 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.5.7 Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.6 Conjunto de Treinamento, Validação e Teste . . . . . . . . . . . . . . . . 35
3.3.7 Métodos de avaliação de modelos . . . . . . . . . . . . . . . . . . . . . . 35
3.3.7.1 Matriz de Confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . . 39
4.1 Descrição dos Trabalhos . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1.1 Classification of PISA 2012 mathematical literacy scores using decision­
tree method: Turkey sampling . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.2 On the use of conventional and statistical­learning techniques for the
analysis of PISA results in Spain . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.3 Predicting math performance from raw large­scale educational assess­
ments data: a machine learning approach . . . . . . . . . . . . . . . . . . 41
9

4.1.4 Mineração de Dados Educacionais nos Resultados do ENEM de 2015 . . 41


4.1.5 Prevendo desempenho dos candidatos do ENEM através de dados socioe­
conômicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.1.6 Comparing the performance of data mining methods in classifying succes­
sful students with scientific literacy in PISA 2015 . . . . . . . . . . . . . . 42
4.1.7 Predição do desempenho de Matemática e Suas Tecnologias do ENEM
utilizando técnicas de mineração de dados . . . . . . . . . . . . . . . . . . 42
4.1.8 Student and school performance across countries: A machine learning
approach. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.1.9 Eucational Data Mining: Identification of factors associated with school
effectiveness in PISA assessment . . . . . . . . . . . . . . . . . . . . . . . 43
4.1.10 A graphically based machine learning approach to predict secondary scho­
ols performance in Tunisia . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.1.11 When didactics meet data science: process data analysis in largescale
mathematics assessment in France . . . . . . . . . . . . . . . . . . . . . . 45
4.1.12 Using data mining to predict secondary school student performance . . . . 46

5 MATERIAIS E MÉTODOS . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.1 Ferramentas para Ciência de Dados . . . . . . . . . . . . . . . . . . . . 47
5.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.2.1 Aquisição dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2.2 Compreensão dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2.3 Análise Exploratória de Dados . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2.4 Tratamento de dados faltantes . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.5 A Variável Dependente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.6 Feature Engineering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2.7 Modelagem de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2.8 Avaliação dos Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

6 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.1 Avaliação dos Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.2 Feature Importances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

7 CONCLUSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
7.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
10

1 INTRODUÇÃO
A educação está presente e ligada a várias áreas de interesse coletivo.Sabendo­se
dessa importância, Avaliações em Larga Escala ou Large­Scale Assessments ­ LSAs são apli­
cadas em diversos países, objetivando­se identificar tais cenários educacionais, bem como mo­
nitorar as habilidades cognitivas relacionadas à literacia e à numeracia (HOYOS; ESTRADA;
VARGAS, 2021).
Para o Brasil, assim como outros países, é de suma importância compreender a real
situação de seus sistemas educacionais para promover mudanças que possam visar a melhoria da
educação. O Programa Internacional de Avaliação de Alunos ou Programme for International
Student Assessment ­ PISA promovido pela Organização para a Cooperação e Desenvolvimento
Econômico ­ OCDE (Organisation for Economic Co­operation and Development ­ OECD) que
é aplicado em diversos países, possui exatamente o objetivo de produzir indicadores de quadros
educacionais dos países participantes (INEP, 2015).
Além das avaliações em ciências, leitura e matemática, o PISA realiza coletas de
dados relacionados aos alunos, escolas e professores, bem como, variáveis demográficas e soci­
oeconômicas através de questionários (INEP, 2016). Os dados coletados sãos disponibilizados
pela OCDE para a realização de estudos, em que técnicas e tecnologias possam ser utilizadas
sobre tais dados para extração de informações relevantes sobre fatores determinantes de desem­
penho, bem como outros insigts relacionados à educação.
Segundo INEP (2019) os resultados do Brasil no PISA 2018 são preocupantes, pois,
nas três áreas de conhecimento avaliadas, apresentou­se uma baixa proficiência, comparando­
se aos 78 países participantes do PISA. O ano avaliado identificou que 68,1% dos estudantes
em matemática, 55% em ciências e 50% em leitura não possuem o nível básico necessário para
exercício pleno da cidadania.
Tais resultados, indicam o grave cenário educacional que o Brasil enfrenta nas três
áreas de conhecimento. Nesse sentido, pesquisas para a melhoria desses resultados são impres­
cindíveis. Tendo em vista tal necessidade, este trabalho se propõe à utilização de técnicas da
Ciência de Dados, para a extração de conhecimento dos dados oriundos do PISA 2018, com o
intuito de identificar características do questionário contextual, aplicado aos professores, que
tem relevância sobre os resultados dos alunos nas avaliações de matemática e ciências.
11

2 OBJETIVOS
Este trabalho tem como objetivo descobrir quais características coletadas pelo questi­
onário, aplicado aos professores no PISA edição 2018, têm mais influência sobre o desempenho
dos alunos nas avaliações de matemática e ciências através da aplicação de técnicas da Ciência
de Dados.
Os resultados dessa pesquisa têm o intuito de servir de base para elaboração e/ou
otimização de políticas educacionais do Brasil, em uma tentativa de contribuição para a melhoria
do quadro atual da educação brasileira.
Dessa maneira, este estudo busca responder à seguinte questão:
• Quais variáveis dos dados coletados pelo questionário dos professores mais impactam no
desempenho em matemática e ciência dos alunos que foram avaliados pelo PISA 2018?
2.1 Objetivos Específicos
Para que o objetivo geral seja alcançado este trabalho visa contemplar os seguintes
objetivos específicos:
• Apresentar definições relacionadas ao teste do PISA e à Ciência de Dados.
• Relatar a situação dos resultados do Brasil mediante ao PISA 2018.
• Apresentar alguns trabalhos relacionados à temática dessa pesquisa.
• Aplicar técnicas da Ciência de Dados aos dados obtidos pelo questionário respondido
pelos professores no PISA edição 2018.
• Analisar e interpretar os resultados obtidos com as técnicas da Ciência de Dados.
• Identificar as características que mais influenciam no desempenho dos alunos no PISA
nos testes de matemática e ciências.
12

3 REFERENCIAL TEÓRICO
Para melhor compreensão da metodologia adotada neste trabalho, este capítulo
busca apresentar uma base teórica acerca dos conceitos relacionados ao contexto da Educação,
PISA e Ciência de dados.
3.1 A Educação
A educação é uma prática social que se mantém presente em vários cenários e cir­
cunstâncias, da vida do ser humano (DOURADO; OLIVEIRA; SANTOS, 2007). A palavra
educação é derivada do verbo educar que em latim é educare, palavra essa, que é formada pelos
termos e ou ex equivalendo a “de dentro de, para fora” e o ducere que significa “tira”, “levar”
(SAUPE; BUDÓ, 2006), “conduzir” ou “guiar”, em que o uso da palavra educare em latim de­
signava o sentido de “criar”, “nutrir” e “fazer crescer” (MARTINS, 2005 apud ROMANELLI,
1964).
Sob uma perspectiva etimológica, educação pode ser entendida como processo de
retirar da pessoa algo que está presente nela, sendo o processo de desenvolvimento de um indi­
víduo com aquilo já presente nele, porém, este significado do terno evoluiu através do tempo
(SAUPE; BUDÓ, 2006). De modo geral, a educação tem o propósito de preparar o ser humano
para se desenvolver ao longo da vida em diversos aspectos e contextos (CASCAIS; TERÁN,
2014).
O conceito de educação não se restringe ao contexto escolar, Gohn (2006, p.28) cita
a existência de três tipos de educação sendo, a educação formal, informal e não formal. A autora
faz a seguinte diferenciação, entre elas:

a educação formal é aquela desenvolvida nas escolas, com conteúdos previa­


mente demarcados; a informal como aquela que os indivíduos aprendem du­
rante seu processo de socialização ­ na família, bairro, clube, amigos etc., car­
regada de valores e culturas próprias, de pertencimento e sentimentos herdados:
e a educação não­formal é aquela que se aprende “no mundo da vida”, via os
processos de compartilhamento de experiências, principalmente em espaços e
ações coletivas cotidianas.

Por muito tempo a educação, informal e não­formal não tiveram sua devida impor­
tância e valorização reconhecida, fato esse que vem mudando e, desde a última metade do século
XX, vem ganhando a visibilidade visto que são parte crucial na vida e no desenvolvimento do
ser humano (ALVES, 2014).
Um termo comumente vinculado à Educação é o termo alfabetização que, segundo
Brasil (2019) muitas vezes é usado erroneamente causando confusões, visto que deriva do al­
fabeto, porém, costuma ser interpretado como aprendizagem inicial. A Política Nacional de
Alfabetização ­ PNA define Alfabetização como “o ensino das habilidades de leitura e de es­
crita em um sistema alfabético”(BRASIL, 2019, p.18).
Devido ao fato de que a alfabetização está ligada a sistemas de linguagem que têm
por base somente o alfabeto, o termo se torna pouco abrangente, então, para se referir a outros
sistemas de escrita mesmo que não seja o alfabético, como por exemplo o ideográfico, cujo
termo Literacia é mais adequado (BRASIL, 2019, p.18). .
13

A Literacia pode ser interpretada como uma série de fatores como habilidades e
conhecimentos que envolvem a leitura e escrita, sendo fundamental para o exercício pleno da
cidadania. A Literacia é dividida em 3 níveis (BRASIL, 2019):
• Literacia Básica também chamada de literacia emergente, envolve a aquisição de conhe­
cimento para desenvolvimento de habilidade fundamentais para a alfabetização.
• Literacia intermediária habilidades mais avançadas como ortografia, compreensão de
texto e leitura oral.
• Literacia disciplinar habilidade direcionada a conteúdos educacionais específicos.
A partir da Literacia surgiu a “Literacia matemática” visto que no processo de es­
colarização também era necessário o desenvolvimento de habilidades em matemática, que em
inglês numerical literacy foi popularizado como “numeracy” (BRASIL, 2019). Em português
o termo foi traduzido como numeralização, numeramento e numeracia (CAMPETTI; DORNE­
LES, 2022).
Segundo Brasil (2019, p.24), a numeracia “não se limita à habilidade de usar nú­
meros para contar, mas, se refere antes à habilidade de usar a compreensão e as habilidades
matemáticas para solucionar problemas e encontrar respostas para as demandas da vida cotidi­
ana”.
Borgonovi, Choi e Paccagnella (2021) citam que numeracia e literacia são habili­
dades fundamentais que influenciam diretamente em questões salariais do mercado de trabalho
moderno, reforçando, assim, a importância de se estar atento a tais questões cognitivas.
Ainda, a partir da palavra em inglês literacy surgiu o termo Letramento (ROSA;
MARTINS, 2007). O conceito de letramento vai além das habilidades de ler e escrever, visto
que engloba a sua aplicação em práticas sociais.
Para avaliação a consolidação do letramento em diversos cenários por muitas vezes
são utilizadas as chamadas Avaliações em Larga Escala. Pode­se definir como Avaliações em
Larga Escala ou Large­scale Assessments ­ LSAs testes e/ou questionários aplicados a um grande
número de estudantes simultaneamente (THURLOW, 2010). No Brasil, há várias modalidades
de Avaliações em Larga Escala focadas em diferentes contextos, dentre essas estão (WERLE,
2010):
• Avaliação Nacional da Educação Básica ­ ANEB;
• Avaliação Nacional do Rendimento Escolar ­ Anresc;
• Exame Nacional de Certificação de Competências de Jovens e Adultos ­ ENCCEJA;
• Prova Brasil;
• Exame Nacional de Ensino Médio ­ ENEM;
• Provinha Brasil.
Fora do contexto brasileiro, outros países utilizam das LSAs como indicadores de
progresso de quadros educacionais como por exemplo o National Assessement of Education
Progress – NAEP nos Estados Unidos (MAIA; JUSTI, 2008) e o Cycle des Évaluations Disci­
plinaires Réalisées sur Échantillon ­ CEDRE na França (ROCHER; BUREAU, 2014).
14

Além de LSAs focadas em um determinado país, existem as que extrapolam seus


contextos nacionais, como é o caso do Trends in International Mathematics and Science Study
­ TIMSS que tem como objetivo avaliar, principalmente, conteúdos de matemática e ciências
(MULLIS; MARTIN, 2017) e do Programme for International Student Assessment ­ PISA
que avalia habilidades dos alunos relacionadas ao letramento em leitura, matemática e ciências
(INEP, 2019a).
3.2 Programme for International Student Assessment ­ PISA
O Programa Internacional de Avaliação de Estudantes ou Programme for Internati­
onal Student Assessment ­ PISA é uma avaliação em larga escala aplicada aos alunos do ensino
fundamental com 15 anos de idade que estão finalizando a educação obrigatória. Este teste é
aplicado a cada três anos e busca avaliar, sobretudo, três áreas do conhecimento: leitura, mate­
mática e ciências (INEP, 2020b).
O PISA é coordenado pela Organização para Cooperação e Desenvolvimento Econô­
mico ou Organisation for Economic Co­operation and Development ­ OECD juntamente com
as coordenações dos países participantes, no caso do Brasil a coordenação é realizada pelo Insti­
tuto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira ­ Inep (INEP, 2015). Vários
são os participantes do PISA, dentre eles, centros de pesquisas, públicos e privados, criadores
de políticas nacionais e internacionais, diferentes profissionais da OCDE e vários burocratas e
técnicos (PETTERSSON; MOLSTAD, 2016).
Até o final da década de 90, os comparativos dos resultados educacionais da OCDE
não levavam em contam o que realmente os alunos poderiam fazer com os conhecimentos adqui­
ridos. Aplicado pela primeira vez no ano 2000, o PISA mudou isso, visto que, mensura através
de uma métrica acordada internacionalmente se os conhecimentos adquiridos são suficientes
para o estudante enfrentar os desafios fora do contexto escolar.
A ideia do PISA é ser uma avaliação diferente das tradicionais, pois avalia questões
além de uma mera reprodução do conteúdo aprendido na escola, extrapolando os assuntos e
temas abordados em sala de aula, aplicando o conhecimento de maneira criativa em situações
diferentes e novas. Esse fato levou algumas pessoas a argumentarem que o PISA seria um teste
injusto, já que confronta os alunos com problemas não aprendidos em sala de aula. Mas, a
ideia por trás do PISA é justamente esta, pois, o teste da vida real não é se o aluno lembra dos
conteúdos aprendidos na escola, mas se o aluno é capaz de solucionar problemas não aprendidos
antecipadamente (SCHLEICHER, 2019).
Pettersson e Molstad (2016) consideram que o PISA não seja um mero teste, visto
que vai muito além da atividade da avaliação, pois envolve processos, reuniões e discussões. Os
dados produzidos pelo PISA não são somente os resultados das avaliações, mas, um conjunto
de dados do aluno, escola, professores, assim como variáveis demográficas, socioeconômicas
e educacionais que são indispensáveis para a criação de uma interpretação contextual. Esses
dados são obtidos através de questionários aplicados aos estudantes, diretores de escolas, pro­
fessores e pais, abordando histórico familiar dos alunos, suas oportunidades e seus ambientes
15

de aprendizagem. Os questionários contextuais e um número de itens das áreas avaliadas são


disponibilizados pela OCDE (INEP, 2016).
A partir de análises desses dados contextuais relacionados ao desempenho dos alu­
nos é possível produzir indicadores de quais contextos em que os alunos estão inseridos são
determinantes para a elevação do desempenho do aluno. Os questionários aplicados no Brasil
desde a primeira edição do PISA podem ser observados na Tabela 1.

Tabela 1 – Questionários aplicados no Brasil em cada edição do PISA


2000 2003 2006 2009 2012 2015 2018
Estudante­ Estudante­ Estudante­ Estudante­ Estudante­ Estudante­ Estudante­
Geral Geral Geral Geral Geral Geral Geral
Escola Escola Escola Escola Escola Escola Escola
Estudante – Estudante –
Familiaridade Familiaridade
com com
tecnologia da tecnologia da
informação e informação e
comunicação (TIC) comunicação (TIC)
Professor Professor
Pais

Fonte: INEP, 2020b. Adaptado.

Segundo INEP (2020b), as seguintes informações foram coletadas pelos questioná­


rios:
• Estudante ­ Geral: Informações referentes à aspectos da vida particular do estudantes
como histórico e ambiente familiar, hábitos dentro e fora da escola e questões relacionadas
a fatores financeiro, sociais e culturais.
• Escola: Informações relacionadas à gestão da escola, recursos, atividades extracurricula­
res oferecidas, metodologia de tomada de decisão e curriculum escolar.
• Estudante – Familiaridade com Tecnologia da Informação e Comunicação (TIC): Foco em
coletar informações sobre disponibilidade e utilização de TIC bem como a capacidade e
atitude dos alunos relacionados ao mesmo.
• Professor: Informações relacionadas à atividades de desenvolvimento profissional, cren­
ças, atitudes, práticas de ensino e formação inicial.
• Pais: Dados sobre o relacionamento entre pais e escola como percepções, envolvimento e
questões relacionadas ao ambiente doméstico, como por exemplo o apoio ao aprendizado,
escolha da escola e a expectativa em relação ao futuro dos filhos.
O PISA visa produzir conhecimento para auxiliar na elaboração de políticas e forne­
cer aos decisores políticos, ferramentas para sua própria orientação (CARVALHO, 2016). Dessa
forma o PISA contribui com informações sobre os fatores que levam à construção da aprendiza­
gem do aluno, tanto no contexto escolar, quanto fora de sala de aula (INEP, 2019b).
Segundo Aguiar (2008), o PISA é elaborado com uma abordagem dinâmica, na qual
os conhecimentos devem ser continuamente adquiridos para uma adaptação bem sucedida ao
16

mundo que está em constante transformação, avaliando, então, a capacidade para a participação
efetiva do aluno na sociedade.
Cada vez mais, gestores utilizam resultados de pesquisa com o PISA para tomadas
de decisão referente à educação, como por exemplo, o Plano Nacional de Educação (PNE) para
o estabelecimento de metas de melhoria de desempenho dos alunos (INEP, 2016).
3.2.1 OCDE
A Organização para a Cooperação e Desenvolvimento Econômico ­ OCDE foi cri­
ada em 1960 por 18 países europeus e dois países norte­americanos (Estados Unidos e Canadá)
com o objetivo de unir forças na dedicação ao desenvolvimento econômico. Atualmente é com­
posta por 38 países, conforme apresenta a Tabela 2.

Tabela 2 – Países membros da OCDE


Alemanha Hungria
Austrália Irlanda
Áustria Islândia
Bélgica Israel
Canadá Itália
Chile Japão
Colômbia Letônia
Coreia do Sul Lituânia
Costa Rica Luxemburgo
Dinamarca México
Eslováquia (República Eslovaca) Noruega
Eslovênia Nova Zelândia
Espanha Polônia
Estados Unidos Portugal
Estônia Reino Unido
Finlândia República Tcheca
França Suécia
Grécia Suíça
Holanda Turquia
Fonte: OECD, 2021

As áreas de interesse e pesquisa da OCDE estão relacionadas à economia, agricul­


tura, comércio, energia, meio ambiente, administração pública, educação, emprego, temas soci­
ais, ciência, tecnologia, políticas industriais, fiscais e financeiras (ARAUJO, 2013).
A Educação não é a primeira preocupação da OCDE, mesmo assim, tem se tornado
muito importante ao longo dos anos, uma vez que, através dos rankings, publicações, avaliações
de conhecimento internacionais, revisões de programas educacionais e temáticas modelaram o
discurso de políticas internacionais mesmo não possuindo instrumentos legais para a elaboração
de políticas nacionais (PETTERSSON; MOLSTAD, 2016).
17

3.2.2 PISA edição 2018


O PISA 2018 foi a sétima edição desde seu lançamento em 2000, avaliando habili­
dades em leitura, matemática e ciências. Em cada edição do PISA existe um foco maior em uma
das três áreas de conhecimento, no ano de 2018 o teste focou em leitura. Em outras palavras, os
estudantes responderam a um número maior de questões relacionadas à leitura e, consequente­
mente o tempo reservado para esse teste foi maior.
Em 2018, além das três principais áreas de conhecimento o PISA avaliou domínios
de conhecimento chamados inovadores, que nessa edição foram Letramento Financeiro e Reso­
lução Colaborativa de Problemas (INEP, 2020b).
No PISA 2018 participaram cerca de 600.000 alunos representando os 79 países/e­
conomias, sendo 37 países membros da OCDE e 42 parceiros (INEP, 2019b), nessa adição a
Costa Rica participou como país convidado, pois só se tornou membro da OCDE em 2021. Os
países/economias parceiros que participaram dessa edição estão descritos na Tabela 3.

Tabela 3 – Países parceiros da OCDE


Albânia Kosovo
Arábia Saudita Líbano
Argentina Macau (China)
Azerbaijão (somente a capital Baku) (República da) Macedônia do Norte
Bielorrússia Malásia
Bósnia­Herzegovina Malta
Brasil Marrocos
Brunei Darussalam (República da) Moldávia
Bulgária Montenegro
Catar Panamá
Cazaquistão Peru
B­S­J­Z1 República Dominicana
Costa Rica Romênia
Croácia Rússia (Federação Russa)
Emirados Árabes Unidos Sérvia
Escócia Cingapura
Filipinas Tailândia
Geórgia Taipé Chinesa
Hong Kong (China) Ucrânia
Indonésia Uruguai
Jordânia Vietnã.
Fonte: INEP, 2019b

1 Beijing, Shanghai, Jiangsu e Zhejiang que são províncias Chinesas.


18

3.2.3 Brasil no PISA


Desde seu lançamento em 2000 o Brasil participa do PISA como país convidado,
representado pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira pe­
rante a OCDE, sendo responsável por funções como planejamento, tradução, aplicação do teste,
coleta das respostas dos participantes dentre outros (INEP, 2019a).
No Brasil são realizadas outras SLAs como mencionado anteriormente, porém, é
importante destacar que o diferencial do PISA em relação às demais é a possibilidade de se
comparar os resultados com outros países/economias (INEP, 2019b).
No Brasil foi somente em 2015 que os questionários contextuais foram aplicados de
maneira integral utilizando­se computadores. Os alunos dispuseram de 2 horas para realizar as
provas com as temáticas de ciências, leitura, matemática e resolução colaborativa de problemas.
O questionário contextual deveria ser respondido no máximo em 35 minutos e o
questionário sobre familiaridade com tecnologias da informação em 10 minutos. Os demais
questionários sobre ambiente escolar foram respondidos em até 45 minutos de maneira on­line
(INEP, 2016).
Um fato interessante sobre esta edição do PISA é que foi a primeira vez que se
aplicou questionários aos professores, no qual eles responderam questões sobre qualificação
e desenvolvimento profissional, práticas de ensino, ambiente para aprendizagem, liderança e
gerenciamento escolar (INEP, 2016).
Em 2018, do total de participantes, 10691 eram brasileiros matriculados em 597
escolas espalhadas por todo o Brasil. Nesta edição apesar de serem avaliados dois domínios
inovadores, o Brasil participou apenas do Letramento Financeiro (INEP, 2019b).
As áreas cognitivas avaliadas no Brasil em cada edição do PISA podem ser obser­
vados na Tabela 4, na qual é destacado o domínio principal avaliado em cada edição, que foi
inciado em 2000 com Leitura e continuou rotativamente com as outras áreas de conhecimento
(IAVE, 2021).

Tabela 4 – Testes cognitivos aplicados no Brasil em cada edição do PISA


2000 2003 2006 2009 2012 2015 2018
Leitura Leitura Leitura Leitura Leitura Leitura Leitura
Matemática Matemática Matemática Matemática Matemática Matemática Matemática
Ciências Ciências Ciências Ciências Ciências Ciências Ciências
Letramento
financeiro
Letramento
Resolução financeiro
colaborativa
de problemas.

Fonte: INEP, 2020b. Adaptado.


19

3.2.3.1 Resultados Brasileiros


Segundo INEP (2020b), não existe uma única maneira de apresentar os resultados
das avaliações do PISA, visto que, existe a possibilidade de relatar tais resultados através das
notas médias dos testes de proficiência, ou através de níveis de desempenho.
A Tabela 5 apresenta os resultados médios dos alunos do PISA 2018 em cada uma
das três áreas de conhecimento. Para fins de comparações, essa tabela também traz os resulta­
dos médios dos estudantes dos países membros da OCDE que participaram dessa edição. Os
resultados do Brasil em todas as edições podem ser observados na Tabela 6.

Tabela 5 – Resultados médios do Brasil x resultados médios dos países membros da OCDE ­ PISA
2018
Média Brasil Média OCDE
Matemática 384 492
Leitura 413 487
Ciências 404 489

Fonte: INEP, 2020b. Adaptado.

Tabela 6 – Resultados médios do Brasil em todas as edições do PISA até 2018


2000 2003 2006 2009 2012 2015 2018
Matemática 334 356 370 386 391 377 384
Leitura 396 403 393 412 410 407 413
Ciências 375 390 390 405 405 401 404

Fonte: INEP, 2020a. Adaptado.

3.2.3.2 Níveis de Desempenhos


Os níveis de desempenhos foram criados para facilitar a interpretação dos resultados,
em que para cada nível existe uma descrição das capacidades esperadas do aluno de acordo com
a nota dele (INEP, 2016).
A cada 3 edições do PISA, os esquemas de níveis de desempenho são revisados e
podem ser alterados. Em 2018, apenas o nível relacionado à avaliação de leitura sofreu mo­
dificações quando comparado aos níveis definidos na edição anterior (OECD, 2019). Dessa
maneira, para a edição de 2018 foram definidos os níveis representados na Tabela 7 para o teste
de matemática, na Tabela 8 para o teste de Ciências e na Tabela 9 para o teste de Leitura.
Nessas tabelas são apresentados os escores mínimos para que o estudante esteja
incluso em um determinado nível e também os percentuais de estudantes que estão em cada
nível. Para fins de comparação, também são apresentados os percentuais de estudantes membros
da OCDE em cada nível.
20

Tabela 7 – Percentual de estudantes por nível de proficiência em matemática ­ PISA 2018


Nível Escore Mínimo Percentual de Estudantes no Nível
OCDE: 2,4%
6 669
Brasil: 0,1%
OCDE: 8,5%
5 607
Brasil: 0,8%
OCDE: 18,5%
4 545
Brasil: 3,4%
OCDE: 24,4%
3 482
Brasil: 9,3%
OCDE: 22,2%
2 420
Brasil: 18,2%
OCDE: 14,8%
1 358
Brasil: 27,1%
Abaixo de OCDE: 9,1%
1 Brasil: 41,0%

Fonte: INEP, 2020b. Adaptado.

Tabela 8 – Percentual de estudantes por nível de proficiência em ciência ­ PISA 2018


Nível Escore Mínimo Percentual de Estudantes no Nível
OCDE: 0,8%
6 708
Brasil: 0,0%
OCDE: 5,9%
5 633
Brasil: 0,8%
OCDE: 18,1%
4 559
Brasil: 4,6%
OCDE: 27,4%
3 484
Brasil: 13,9%
OCDE: 25,8%
2 410
Brasil: 25,3%
OCDE: 16,0%
1a 335
Brasil: 31,4%
OCDE: 5,2%
1b 261
Brasil: 19,9%
Abaixo OCDE: 0,7%
de 1b Brasil: 4,0%

Fonte: INEP, 2020b. Adaptado.

Observando­se as tabelas, é possível notar que a maioria dos estudantes brasileiros


ficaram classificados com níveis de proficiência mais baixos nas três áreas de conhecimento
avaliadas quando comparados aos estudantes oriundos de países membros da OCDE.
21

Tabela 9 – Percentual de estudantes por nível de proficiência em leitura ­ PISA 2018


Nível Escore Mínimo Percentual de Estudantes no Nível
OCDE: 1,3%
6 698
Brasil: 0,2%
OCDE: 7,4%
5 626
Brasil: 1,7%
OCDE: 18,9%
4 553
Brasil: 7,4%
OCDE: 26,0%
3 480
Brasil: 16,3%
OCDE: 23,7%
2 407
Brasil: 24,5%
OCDE: 15,0%
1a 335
Brasil: 26,7%
OCDE: 6,2%
1b 262
Brasil: 17,7%
OCDE: 1,4%
1c 189
Brasil: 5,3%
Abaixo de OCDE: 0,1%
1c Brasil: 0,4%

Fonte: INEP, 2020b. Adaptado.

3.3 Ciência de Dados


Ciência de Dados ou Data Science é uma área multidisciplinar que vem ganhando
notoriedade no mundo nos últimos anos, na ciência e no mundo dos negócios. Esse crescimento
é devido às exigências em se lidar com grandes quantidade de dados, tanto em volume, quanto
em variedade (CURTY; CERVANTES, 2016).
O termo foi criado na década de 2010 e corresponde aos chamados de Sistema de
Suporte à Decisão ou Decision Support Systems (nos anos 80 aos) e Executive Information Sys­
tems (nos anos 90) (CAVIQUE, 2014a). Algumas definições de Ciência de Dados podem ser
aplicadas, dentre elas :

um processo computacional para descobrir “padrões” envolvendo métodos que


combinam a estatística com machine learning e tecnologias de base de dados.
Os padrões que se encontram na natureza ou manufaturados têm uma configu­
ração específica e caracterizam­se por uma regularidade, repetição de partes e
acumulação de elementos. Por exemplo, uma duna, criada pela ação do vento,
é composta por várias camadas de areia e tem uma configuração reconhecível
(CAVIQUE, 2014b, p.92).

O processo que envolve um projeto de Ciência de Dados é bastante flexível e adap­


tável a vários cenários, mas algumas etapas são comumente encontradas em tais projetos, sendo
elas:
• Entendimento do problema: é considerada uma das etapas mais importantes, pois, a má
compreensão do problema e da contextualização dele pode levar a resultados sem valor
ou errados (PACHECO et al., 2014).
• Coleta, pré­processamento e compreensão do dados: consiste, primeiramente, na aquisi­
ção de dados e retirada de registros errados, nulos, inválidos, desformatados, duplicados
22

etc, ou seja, qualquer registro que possa atrapalhar a etapas posteriores. Nessa etapa é
importante compreender como os dados estão estruturados, notações, simbologias, mape­
amento de chave valor, etc (WITTEN et al., 2016).
• Análise exploratória de dados: são aplicadas técnicas estatísticas de grande variedade
gráfica, quantitativas e qualitativa a fim de resumir os dados para análise, interpretação e
extração de conclusões (MEDRI, 2011).
• Feature Engineering: nessa etapa o cientista de dados analisa quais informações podem
ser retiradas ou agrupadas com o objetivo de simplificar a base de dados. Algumas ca­
racterísticas podem ser eleitas para representar um conjunto de outras (STEARNS et al.,
2017a).
• Modelagem de dados: são implementados e aplicados modelos estatísticos e de apren­
dizado de máquina (por exemplo, modelos de classificação e clusterização) para validar
uma hipóteses (MEDIUM, 2018).
• Apresentação das descobertas: os resultados devem ser apresentados de maneira clara e
compreensível, tendo em conta que, um dos determinantes do sucesso da ciência de dados
é a boa comunicação com o público alvo.
• Utilização do conhecimento: essa é a fase final do projeto de ciência de dados. Aqui o
conhecimento que foi adquirido é aplicado em um determinado contexto para solucionar
problemas que foram especificados na primeira etapa do projeto.
Para melhor compreensão, a Figura 1 apresenta as etapas que podem compor o pro­
cesso de um projeto de Ciência de Dados.

Figura 1 – Processo de um Projeto de Ciência de Dados

Fonte: Próprio Autor.

3.3.1 Pré­processamento de Dados


Durante a coleta de dados é comum haver dados incompletos, com ruídos e incon­
sistentes, fato que compromete a qualidade dos dados. As tarefas de pré­processamento são
realizadas antes da etapa de modelagem com a finalidade de preparar os dados brutos para evi­
tar resultados incorretos.
23

As seguintes tarefas podem estar presentes na etapa de Pré­processamento de Dados


(MICROSOFT, 2022):
• Limpeza de dados ou Data cleaning: consiste em um processo de remoção de dados
que atrapalham o processo de modelagem. Nessa etapa os dados considerados ”sujos”,
inválidos ou sem muita relevância são eliminados e dados ausentes são tratados.
• Transformação de dados: é realizada a normalização dos dados que consiste em redimen­
sionar os valores numéricos em um intervalo específico.
• Redução de Dados: redução do tamanho dos conjuntos de dados a fim de simplificar o
problema.
• Discretização de dados: transforma­se elementos numéricos contínuos em elementos dis­
cretos.
• Limpeza de texto: remoção de elementos textuais como por exemplo caracteres de forma­
tação.
3.3.2 Análise exploratória de dados
A Análise Exploratória de Dados ou Exploratory Data Analysis ­ EDA provê méto­
dos de estudos para o detalhamento de um conjunto de dados com o objetivo de extrair informa­
ções para direcionar aplicações de modelos mais adequados ao conjunto (MEDRI, 2011).
Não é o objetivo principal desse tipo de análise testar hipóteses, mas, se concentrar
em encontrar padrões e tendências em todos os tipos de dados (BAKKER; BIEHLER; KO­
NOLD, 2004). A EDA utiliza, principalmente, técnicas visuais para revelar informações vitais
sobre um determinado conjunto de dados (HARTWIG; DEARING, 1979).
Para Kürzl (1988), a EDA é uma forma não convencional de visualizar dados que
apresentam uma variedade de técnicas simples, mas, muito eficazes baseadas nos próprios dados
e não em modelos, permitindo visualizar o comportamento dos dados, especialmente, quando
uma combinação de técnicas é utilizada.
Dentre as técnicas que podem ser utilizadas na EDA temos: os gráfico de colunas,
gráfico de barras, gráfico de linhas, gráfico de setores, gráfico de colunas múltiplas, histograma,
polígonos de frequências e box plot (MEDRI, 2011).
3.3.3 Feature engineering
Segundo Zheng e Casari (2018), Feature Engineering é o ato de se extrair features
de um conjunto de dados brutos, transformando­os em formatos que são aplicáveis aos inputs
de modelos de machine learning, na qual uma feature é uma representação de algum aspecto
dos dados brutos.
Algumas abordagens podem ser utilizadas na etapa de Feature Engineering, sendo
elas:
• Wrapper (Embrulho): nessa abordagem um modelo escolhido é executado para um sub­
conjunto de dados e, posteriormente avaliado pela taxa de acurácia. Dessa maneira, as
features selecionadas são as pertencentes ao subconjunto com melhor avaliação de predi­
ção dos resultados a (ALMEIDA et al., 2018).
24

• Filtro: essa técnica não usa um algoritmo de classificação para selecionar os melhores
atributos, mas sim, alguns critérios que refletem características da própria base de dados
para “filtrar”as melhores features (PARMEZAN et al., 2012).
• Embedded (Incorporado): nessa abordagem os atributos são selecionados durante a fase
de treinamento do modelo, no qual de modo geral, cada algoritmo apresenta sua própria
técnica de seleção de atributos(ALMEIDA et al., 2018).
• Recursive Feature Elimination ­ RFE que seleciona recursivamente as melhores features
através de índices de importância ou correlação de atributos extraídos de um determinado
modelo de aprendizado de máquina que é passado como parâmetro. Outro parâmetro
necessário é a quantidade de features esperada como resultado. A escolha de ambos os
parâmetros fica a critério do utilizador da técnica. Nessa abordagem, o algoritmo irá exe­
cutar o processo de treinamento do modelo e remoção das features menos importantes
várias vezes até que a quantidade seja igual a quantidade recebida como parâmetro (VAS­
CONCELLOS, 2019). Uma desvantagem dessa técnica é seu alto custo computacional,
visto que o modelo é treinado várias vezes para a remoção das features.
Para Nargesian et al. (2017), a Feature Engineering é uma etapa que aprimora o
desempenho da modelagem de dados, sendo uma tarefa central que precede a aprendizagem da
máquina envolvendo aplicação de funções de transformação que geram novos recursos, que por
sua vez levam ao aprimoramento do modelo. Essas técnicas podem ser utilizadas ainda para
diminuir a complexidade dos modelos diminuindo, assim, requisitos computacionais exigidos.
3.3.4 Aprendizado de Máquina
Aprendizado de Máquina é uma área de estudo da Inteligência Artificial ( um ramo
da ciência da computação que se refere amplamente à qualquer comportamento de uma máquina,
ou sistema que imita o comportamento humano) com foco em desenvolver técnicas de aprendi­
zado computacional. Para tanto, são utilizados sistemas de aprendizado, que são softwares que
tomam decisões a partir de experiências acumuladas de problemas anteriormente solucionados
(SANTOS, 2005).
O Aprendizado de Máquina ou Machine Learning é amplamente utilizado em mui­
tas áreas que utilizam recursos computacionais, como por exemplo, na área de classificação,
reconhecimento de padrões e jogos (BIANCHI, 2004). Além disso os sistemas de aprendizado
podem ser ser utilizados com a finalidade de reproduzir ou simular outros tipos de aprendizados,
dentre eles o aprendizado humano (ARAÚJO, 2004).
Uma atividade importante para ajudar a melhorar a qualidade dos resultados é a
escolha em número e qualidade dos exemplos(exemplos que não retratam a realidade) que são a
base de aprendizado, uma má escolha de tais exemplos pode gerar resultados que não retratam
a realidade da previsão, podendo gerar overfitting ou underfitting.
Em casos de overfitting os resultados para o grupo de treinamento é excelente, mas,
para os dados de teste é ruim. Já para o underfitting o resultado do modelo é ruim na própria
fase de treinamento (MALHEIROS, 2017).
25

De acordo com as interações do agente de aprendizado para a concepção do conhe­


cimento são criadas classes de aprendizado de máquina que são: supervisionado, não supervisi­
onado e por reforço (BIANCHI, 2004).
No aprendizado supervisionado o sistema de aprendizado, ou indutor, é alimentado
com exemplos já classificados. Cada exemplo é formado por um conjunto de atributos e uma
classe. Dessa maneira o sistema aprende com esses exemplos já classificados para tentar pre­
ver a classe de novos atributos não previamente classificados (MONARD; BARANAUSKAS,
2003c).
O aprendizado não supervisionado se diferencia do supervisionado, sobretudo, pelo
fato de não existir uma classe atrelada a um conjunto de atributos. Nesse caso, o algoritmo de
aprendizado tenta agrupar de alguma maneira os atributos criando, assim, os chamados clusters.
Nessa abordagem, se faz necessário que, após o agrupamento sejam realizadas análises para
o relacionamento dos clusters obtidos com o contexto dos atributos inseridos no sistema de
aprendizagem (MONARD; BARANAUSKAS, 2003c).
Aprendizado por reforço é realizado via experimentação direta do ambiente sem a
presença de algum tipo de tutor que provê exemplos (RIBEIRO, 1999) fato que faz com que esse
tipo de aprendizado tenha bons resultados de atuação em ambientes desconhecidos (BIANCHI,
2004). Nesse sistema de aprendizado busca­se aumentar um determinado ganho através de
ações, nas quais o ganho é fornecido pelo ambiente fazendo com que essa interação (física ou
simulada) com o ambiente seja indispensável (ARAÚJO, 2004). Faria e Romero (2002) definem
a modelagem do problema de aprendizado por reforço:

(...) um conjunto de estados do ambiente, um conjunto de ações e um conjunto


de recompensas. Para cada ação realizada em um estado do ambiente o agente
recebe uma recompensa. O agente não sabe qual é a melhor ação a tomar,
como em muitas formas de aprendizado de máquina, por isso ele deve desco­
brir, através de tentativas, quais ações lhe rendem maior recompensa (FARIA;
ROMERO, 2002, p.220).

3.3.5 Modelos de Aprendizado de Máquina


Devido à vasta quantidade de implementações de modelos de aprendizado de má­
quina, essa seção visa apresentar de maneira simplificada uma visão teórica de alguns modelos
de aprendizado de máquina que são bem conhecidos pela comunidade acadêmica.
3.3.5.1 Regressão Linear
O termo “regressão” foi proposto proposto pela primeira vez por Sir Francis Galton
em 1885 em seu estudo sobre a relação entre a altura dos filhos e pais. O termo “Análise de
Regressão” define várias técnicas estatísticas utilizadas na modelagem de relação entre variáveis
e na predição de valores (PAULA, 2006).
O objetivo da regressão linear é descobrir e identificar relações entre duas variáveis
que podem ser positiva ou negativa e para tanto a plotagem de um gráfico pode ser utilizada, tal
gráfico é chamado de gráfico de dispersão. O gráfico de dispersão deve ser analisado verificando
se os dados posicionados no eixo ’Y’ são ’explicados’ pelos dados posicionados no eixo ’X’.
26

Uma regressão linear segue a equação

y = a + bx. (1)

Na Equação 1, o termo a representa o valor de y quando o valor de x é zero. O termo b representa


a inclinação da reta. Um exemplo de gráfico de regressão linear pode ser observado na Figura
2.

Figura 2 – Gráfico de Regressão Linear

Fonte: Próprio Autor.

Uma regressão linear pode ser dada de duas formas: simples quando há somente
uma variável independente e múltipla quando há mais de uma variável independente, podendo
ser aplicada tanto em problemas de regressão, quando em problemas de classificação (MEDIUM,
2020).
A aplicação desse algoritmo é indicada quando existe uma correlação linear rele­
vante entre as variáveis. Essa correlação pode ser mensurada através do Coeficiente de Corre­
lação de Pearson que determina a relação entre os valores de x e os valores de y, variando de
entre ­1 e 1 (MEDIUM, 2020). O Coeficiente de Correlação de Pearson r é dado pela equação
(FILHO; JÚNIOR, 2009)

1 xi − x̄ yi − ȳ
r=
n−1 ∑(
sx
)(
sy
). (2)

Na Equação 2, x̄ é a média dos valores de x (primeira variável), ȳ média dos valores


de y (segunda variável), sx indica o desvio padrão da primeira variável, sy desvio padrão da
segunda variável e n a quantidade de instâncias.
3.3.5.2 Naive Bayes
Naive Bayes também conhecido como Simple Bayes é um modelo de classificação
simples e bastante utilizado, principalmente, devido a sua eficiência computacional. Segundo
Webb (2016), tal eficiência é caracterizada pelo fato de que para esse algoritmo o custo de
tempo de aprendizado é linear à quantidade de exemplos selecionados e o tempo de classificação
27

não é afetado pela quantidade de exemplos de classificação, mas, somente pela quantidade de
atributos.
Outra característica muito interessante desse algoritmo é seu comportamento diante
da base de dados com dados faltantes. Quando um atributo de uma instância está faltando os
atributos de outras instâncias são utilizados, fato que resulta em uma degradação suave no de­
sempenho (WEBB, 2016).
A técnica foi baseada no teorema de Bayes do matemático Thomas Bayes e segue
equação (ROZA; PEGORARO, 2020)

P(B|A)P(A)
(A|B) = . (3)
P(B)

Na Equação 3 temos:
• P(A|B): Probabilidade do evento A ocorrer dado que o evento B ocorreu.
• P(B|A): Probabilidade do evento B ocorrer dado que o evento A ocorreu.
• P(A): Probabilidade do evento A ocorrer.
• P(B): Probabilidade do evento B ocorrer.
Sob uma perspectiva de um problema de classificação podemos entender o Teorema
de Bayes com a equação (ZHANG, 2004)

p(E|c)p(c)
p(c|E) = . (4)
p(E)
Dessa maneira, na Equação 4, E representa uma dupla de atributos (x1 , x2 , ..., xn ) na
qual xi é o valor da variável dependente X, e c é o valor da classe, ou seja, da variável dependente.
Partindo­se do pressuposto de que a base de dados de um determinado problema já
esteja classificada, o funcionamento do algoritmo inicia o treinamento com o cálculo da frequên­
cia dos atributos em relação às classes e com essa informação é calculada a probabilidade de
um determinado valor de X pertencer uma determinada classe de Y . A classe que tiver maior
probabilidade em relação ao atributo de X é a classe escolhida pelo classificador (ROZA; PE­
GORARO, 2020).
3.3.5.3 Logistic Regression
Apesar do nome, o modelo de Logistic Regression ou Regressão Logística não tem a
finalidade de prever um valor numérico, mas sim, um rótulo ou classe, sendo assim um algoritmo
de classificação e não de regressão.
Para esse tipo de modelo, as classes podem ser definidas de acordo com contexto
do problema em questão, no qual a variável dependente pode ser de natureza nominal ou ordi­
nal. Quando existe uma certa ordem ou grau na variável dependente a natureza do problema é
ordinal, quando não existe tal ordem a variável é de natureza nominal (FIGUEIRA, 2006). Um
exemplo de variável dependente de natureza ordinal seria o grau ou estágio de uma determinada
doença e um exemplo de natureza nominal seria a variável dependente utilizada para determinar
a existência, ou não, de uma doença.
28

A Regressão Logística pode ser uni­variada, quando o problema apresenta duas clas­
ses a serem preditas e um único atributo como variável independente, ou múltipla, na qual o
problema em questão possui mais de um atributo como variável independente (GONZALEZ,
2018).
Esse algoritmo é geralmente aplicado a problemas binários (duas classes), nos quais
em problemas com mais de duas classes é necessário realizar uma adaptação das classes para
a aplicação desse técnica, fazendo com que a variável dependente Y siga a distribuição de Ber­
noulli (GONZALEZ, 2018).
A distribuição de Bernoulli ocorre quando o processo aleatório dá origem a apenas
dois valores discretos e (SILVA; CAPELA; CAPELA, 2014). Um exemplo dessa distribuição
seria 
1, em caso de êxito;
Y= (5)
0, em caso de falha.

Na regressão logística o objetivo é calcular a probabilidade para realizar a classifi­


cação, em que na Equação 5, a probabilidade de êxito seria p e a de falha seria q = 1 − p, onde
0 ≤ p ≤ 1, dado que não é conhecida a probabilidade p.
A diferença principal entre a Regressão Logística e Regressão Linear está em como
o seu gráfico se comporta, no lugar de um reta temos uma curva sigmoide. A Figura 3 demonstra
a diferença de comportamento entre os dois modelos.

Figura 3 – Gráfico de Regressão Logística x Regressão Linear

Fonte: PEDREGOSA et al., 2011. Adaptado.

3.3.5.4 Support Vector Machine


Support Vector Machine ­ SVM ou Máquinas de Vetores de Suporte é compatível
com aplicações, tanto em contexto de problemas de regressão quanto classificação. Foi desen­
volvido inicialmente para problemas de classificação lineares, ou seja, realiza a classificação
através de um hiperplano (SOUZA, 2018), mas posteriormente expandiu sua aplicação à proble­
mas não lineares (LORENA; CARVALHO, 2007).
29

Um das desvantagens desse algoritmo é sua complexidade, fazendo com que o


tempo de treinamento seja exponencial (quadrático ou cúbico) em relação à parcela de dados
destinada ao treinamento do modelo (RANGEL, 2019).
O SVM é um classificador não probabilístico que mapeia os exemplos como pontos
em um hiperplano no espaço de forma que as categorias são divididas com a maior distância
entre elas, novos exemplos são classificados de acordo com as áreas em que caírem. Os pontos
que tocam as margens do hiperplano são conhecidos como vetores de suporte ou Support Vectors.
A Figura 4 demonstra um exemplo dos vetores de suporte.

Figura 4 – Exemplo de Vetores de Suporte

Fonte: ALTO, 2019. Adaptado.

Para algumas situações não é possível separar os dados linearmente, um exemplo


disso pode ser observado na Figura 5. Para tais situações é utilizado o método chamado de
Kernel Trick. Esse método aplica uma transformação linear levando os dados a um dimensão
maior do que duas dimensões, conforme a Figura 6 demonstra.

Figura 5 – Exemplo de conjunto de dados não separáveis linearmente

Fonte: KUMAR, 2021. Adaptado.


30

Figura 6 – Transformação de dados para terceira dimensão

Fonte: KUMAR, 2021. Adaptado.

Após isso os dados são separados conforme a Figura 7 e depois é realizada uma
transformação inversa. Baseado na nova divisão dos dados, o modelo classifica as novas entra­
das.

Figura 7 – Divisão dos dados em terceira dimensão

Fonte: KUMAR, 2021. Adaptado.


31

3.3.5.5 Decision Tree


Uma Árvore de Decisão ou Decision Tree é um modelo de aprendizado de máquina
supervisionado que apresenta sua implementação baseada na recursividade para a construção de
instâncias chamadas de nós. Possuí um nó primário chamado raiz, do qual os outros nós são de­
rivados, nós internos, chamados de nós de teste e nós externos, chamados de folhas (ROKACH;
MAIMON, 2005).
O nó raiz, assim como os nós internos, é um nó que realiza um teste sobre um deter­
minado atributo contido na base de dados e pode ser precursor de outro nó de teste ou resultar
em nós folhas que representam as classes de cada instância (MONARD; BARANAUSKAS,
2003a).
Nesse modelo, cada caminho formado entre o nó raiz e um nó folha é chamado
de regra de classificação (SILVA, 2005). A Figura 8 apresenta um esboço de uma Árvore de
Decisão para melhor compreensão.

Figura 8 – Esboço de uma Árvore de Decisão

Fonte: Próprio Autor.

Luz e Argenton (2013) ressaltam que o uso de Descision Tree apresenta uma des­
vantagem relacionada a sua instabilidade, devido ao fato de que, pequenas alterações na amostra
podem resultar em grandes modificações na árvore, alterando a complexidade dela. Outro pro­
blema comum ao se trabalhar com Descision Tree é o overfitting em que são realizados ajustes
excessivos produzindo um grande número de regras, podendo resultar em uma degradação do
seu poder preditivo (BRAMER, 2007, p.219).
Para contornar o problema de sobreajuste ou overfiting pode­se utilizar uma técnica
chamada de poda ou pruning que consiste em controlar o tamanho da árvore antes ou depois
do término da sua construção, sendo denominada pré­podagem e pós­podagem respectivamente
(SILVA, 2005).
32

Uma questão muito importante vinculada à implementação de um modelo de De­


cision Tree é o critério para encontrar o atributo que melhor divide os dados, e isso pode ser
realizado através do cálculo da impureza dos nós. Um dos critérios que podem ser utilizados
para se obter impureza de um determinado nó é o índice Gini e pode ser calculado subtraindo
de 1 da somatória do número de classes (c) multiplicado pela frequência relativa da classe (p)
ao quadrado em cada nó, conforme a Equação 6 (SILVA, 2005):
c
Indice Gini = 1 − ∑ p2i . (6)
i=1
Através deste índice, é possível calcular o atributo chamado de feature importances
que mede o grau de importância de uma determinado feature para a previsão de uma variável
dependente (PEDREGOSA et al., 2011).
Para a implementação do modelo de árvore de decisão, podem ser utilizados diferen­
tes algoritmos com características variadas relacionadas ao critério de parada da recursividade
da criação de nós e o método de partição de nós (DANTAS; DONADIA, 2013).
Dentre os algoritmos quem implementam as Decision Trees pode­se citar o Classi­
fication and Regression Trees ­ CART que tem como característica construir o modelo como
árvore binária, ou seja, cada nó tem exatamente dois nós derivados. Uma das vantagens do
CART é a sua facilidade em lidar com variáveis, tanto numéricas, quanto categóricas (SINGH;
GUPTA, 2014).
3.3.5.6 Random Forest
A Floresta Aleatória ou Random Forest ­ RF é um modelo de aprendizado supervisi­
onado que pode ser utilizado em tarefas de classificação, bem como para tarefas de regressão. O
RF combina a simplicidade com a aleatoriedade para tentar alcançar mais precisão. É oriundo da
combinação de um grande número de árvores de decisão, sendo uma abordagem simples, mas,
muito poderosa no contexto de previsões (YIU, 2019) que também é utilizada para prevenir o
problema de overfiting da Descision Tree (SANTANA, 2020).
Para problemas de classificação, a classe prevista é definida pela classe com maior
ocorrência entre árvores contidas na floresta, através de votos (YIU, 2019). A Figura 9 traz um
esboço do funcionamento de um modelo da RF para um problema de classificação.
Como observado na Figura 9 o modelo final gerado é composto por várias árvores
criadas com diferentes parâmetros, em que cada instância de X é dada como entrada em todas
as árvores da floresta e, após o processamento, cada árvore apresenta seu resultado parcial da
classificação. O resultado Y é obtido através do processo de votação, elegendo­se a classe com
maior frequência dentre os resultados parciais. No exemplo do esboço o resultado Y tem como
valor a “Classe B”, visto que foi a classe escolhida com maior frequência .
33

Figura 9 – Esboço de uma Floresta Aleatória

Fonte: Próprio Autor.

3.3.5.7 Neural Networks


As Redes Neurais Artificiais ­ RNA ou Neural Networks são modelos de aprendi­
zado de máquina inspirados na neurociência. As Neural Networks tentam simular o comporta­
mento de entidades básicas chamadas de neurônios, mapeando seu comportamento biológico
para um sistema artificial (RAUBER, 2005).
Para melhor compreensão do funcionamento de uma RNA é necessário, primeira­
mente, compreender o comportamento básico de um neurônio biológico, que de uma maneira
geral apresenta a seguinte estrutura e funcionamento:

Um neurônio genérico pode ser dividido em três partes: os dendritos, o soma


e o axônio [...], os dendritos são as portas de entrada por onde sinais vindos de
outros neurônios são coletados e transmitidos ao soma. O soma processa e inte­
gra esses sinais, gerando pulsos de potencial elétrico (denominados potenciais
de ação que se iniciam na região de contato entre o soma e o axônio (denomi­
nada segmento inicial do axônio). Os potenciais de ação são transmitidos ao
longo do axônio, que é a via de saída do neurônio, e atingem outros neurônios
ou órgãos efetores através de junções ou regiões de proximidade denominadas
sinapses (ROQUE, 2020, p. 1, grifo do auto).

O neurônio artificial tenta simular as características de um neurônio biológico. Apre­


senta entradas que são vinculadas a pesos que estão associados à relevância de uma determinada
entrada, depois passam por um processo de combinação linear na qual é efetuada a soma dos
pesos multiplicados pelas entradas. Esse valor resultante chamado de net é confrontado a uma
função matemática que vai determinar o sinal de saída do neurônio chamada de função de ativa­
ção (RAUBER, 2005).
A Figura 10 apresenta um esboço simplificado de um neurônio artificial.
34

Figura 10 – Esboço de um Neurônio Artificial

Fonte: Adaptado de Rauber (2005)

As RNAs podem ser organizadas em diferentes configurações de topologias, dentre


elas a chamada Multilayer Perceptron ­ MLP que é amplamente utilizada por pesquisadores
(WILAMOWSKI, 2009). Nessa arquitetura de RNA é utilizado o sistema de propagação para
frente chamado de feedforward.
No sistema de propagação feedforward os neurônios são organizados em camadas,
nas quais a saída dos neurônios de uma camada é propagada como entrada para neurônios de
outras camadas e as camadas que estão localizadas entre a camada de entrada e saída são chama­
das de camadas escondidas (RAUBER, 2005). A Figura 11 apresenta um esboço de RNA com
propagação feedforward.

Figura 11 – Esboço de uma RNA com propagação feedforward

Fonte: Adaptado de Rauber (2005)

Para o aprendizado da redes feedforward de múltiplas camadas é utilizado o método


de treinamento chamado backpropagation. Nesse método os pesos inciais são aleatórios e a
partir deles os primeiros valores de saída são gerados, após isso, tais valores de saída são com­
35

parados com os valores esperados que resultam no cálculo do erro que é propagado na rede para
que o ajuste dos pesos seja executado. Esse procedimento é realizado de maneira interativa com
a finalidade de reduzir a diferença da saída corrente e o valor esperado (TISSOT; CAMARGO;
POZO, 2012).
3.3.6 Conjunto de Treinamento, Validação e Teste
Como visto, existem várias técnicas para a criação dos modelos de aprendizado de
máquina. No entanto, os modelos de aprendizado supervisionado passam por processos que
envolvem o treinamento, ajuste e avaliação. Para tanto, os dados devem ser divididos em três
conjuntos (SANTOS et al., 2019):
• Treinamento: esse conjunto de dados se destina ao ajuste dos parâmetros do modelo (AL­
VIM et al., 2019).
• Validação: conjunto de dados utilizado para ajustar os parâmetros oriundos do conjunto
de treinamento (ALVIM et al., 2019). Através desse conjunto de dados os modelos são
avaliados e o que tem melhor resultado é escolhido (SILVA et al., 2019).
• Teste: através desse conjunto a capacidade de generalização pode ser avaliada (SILVA et
al., 2019).
Para realizar a divisão dos dados algumas técnicas podem ser aplicadas, dentre elas
existe a Holdout.
A Holdout ou validação simples é uma técnica que divide a amostra em duas partes
e uma proporção dessa amostra é utilizada como validação (CUNHA, 2019), ou seja, uma parte
das amostras é destinada ao treinamento do modelo e a outra é destinada à validação para medir a
capacidade/desempenho de predição do modelo (ALVIM et al., 2019). Geralmente nessa técnica
a parte destinada ao treinamento é maior que 50% (MONARD; BARANAUSKAS, 2003b). A
Figura 12 demonstra um exemplo de divisão de dados com 70% para treinamento e 30% para
teste.

Figura 12 – Exemplo de Holdout

Fonte: Adaptado de Villarreal et al. (2019)

É importante salientar que o Holdout pode ser utilizado, tanto no processo de divisão
de dados para validação(fase de ajuste de parâmetros), quanto no processo de teste.
3.3.7 Métodos de avaliação de modelos
Após a criação de um modelo, ele deve ser avaliado. A avaliação dos modelos é uma
parte essencial de pesquisas que aplicam técnicas de machine learning no contexto acadêmico
e no contexto industrial (RASCHKA, 2018).
36

Para Raschka (2018) há 3 principais motivos para se avaliar a performance predi­


tiva de um modelo: estimar o desempenho dos modelos em dados futuros (dados não vistos),
aumentar o desempenho através de ajustes no modelo e comparar modelos a fim de selecionar
o que possui melhor desempenho em um determinado contexto de dados.
3.3.7.1 Matriz de Confusão
A Matriz de Confusão tem o objetivo de mostrar o número de classificações corre­
tas em relação às classificações que foram preditas, sendo uma medida efetiva do modelo de
classificação. Nessa matriz o conteúdo de uma célula de cada linha representa a quantidade de
exemplos que pertencem à classe verdadeira, mas, foram classificados na classe predita (MO­
NARD; BARANAUSKAS, 2003b), consistindo em uma interpolação dos dados reais e dados
preditos pelo modelo (FRANCESCHI, 2019).
A Tabela 10 apresenta um exemplo de matriz de confusão de uma classificação
binária, ou seja, uma classificação que possui apenas dois possíveis rótulos.

Tabela 10 – Matriz de Confusão


Classe Predita
Classe Verdadeira Positiva Negativa
Positiva VP FN
Negativa FP VN
Fonte: OLIVEIRA; PRATI, 2013.

Essa tabela apresenta os seguinte valores (OLIVEIRA; PRATI, 2013):


• Verdadeiro Positivo (VP): total de exemplos de itens que foram classificados (preditos)
corretamente para a classe “positiva”, ou seja, foram classificados pertencentes à classe
“positiva” e de fato pertenciam à classe “positiva”.
• Verdadeiro Negativo (VN): quantidade de itens que foram classificados (preditos) corre­
tamente para a classe “negativa”, ou seja, foram classificados pertencentes à classe “ne­
gativa” e de fato pertenciam à classe “negativa”.
• Falso Positivo (FP): quantidade de itens que foram classificados (preditos) erroneamente
para a classe “positiva”, ou seja, foram classificados pertencentes à classe “positiva” mas,
eram pertencentes à classe “negativa”.
• Falso Negativo (FN): quantidade de itens que foram classificados erroneamente para a
classe “negativa”, ou seja, foram classificados pertencentes à classe “negativa” mas, eram
pertencentes à classe “positiva”.
Algumas importantes métricas para a avaliação de desempenho podem ser derivadas
dos valores extraídos da matriz de confusão:
• Accuracy (Acurácia):
A Acurácia também chamada de Taxa de Acerto tem o objetivo de medir a proporção
dos exemplos preditos (classificados) de maneira correta. A acurácia pode ser calculada
37

através da Equação 7 (OLIVEIRA; PRATI, 2013):


V P +V N
Accuracy = . (7)
V P +V N + FP + FN
• Taxa de Erro:
Ao contrário da Acurácia, a Taxa de Erro mede a proporção dos exemplos preditos (clas­
sificados) de maneira incorreta. A Taxa de Erro pode ser calculada através da Equação 8
(OLIVEIRA; PRATI, 2013):

Taxa de Erro = 1 − Accuracy. (8)

• Recall (Revocação, Sensibilidade ou Taxa de Verdadeiros Positivos):


O Recall indica a relação entre os exemplos “positivos” corretamente identificadas pelo
classificador como “Classe Positiva” e todas as previsões que realmente são “positivas”
mas, não necessariamente classificadas como “Classe Positiva” (OLIVEIRA; MARI­
NHO; BRITO, 2019). O Recall pode ser calculado através da Equação 9 (OLIVEIRA;
PRATI, 2013):

VP
Recall = . (9)
V P + FN
• Precision (Precisão):
A métrica de Precisão mede a proporção da predição positiva que está correta. A precisão
pode ser calculada através da Equação 10 (OLIVEIRA; PRATI, 2013):

VP
Precision = . (10)
V P + FP
• F­measure (Medida­F):
É uma métrica derivada da Matriz de confusão binária calculada pela média harmônica
ponderada dos resultados de Recall e Precision (SCHREIBER et al., 2017), na qual, o
melhor valor possível é 1 e o pior é 0 (TRIPATHY; AGRAWAL; RATH, 2015). Essa
métrica é utilizada para averiguar a confiabilidade e relevância da taxa de acurácia (SILVA,
2018). Segundo Tripathy, Agrawal e Rath (2015) a métrica F­measure de um classificador
pode ser calculada com a Equação 11:

2 ∗ Precision ∗ Recall
F − measure = . (11)
Precision + Recall
• Specificity (Especificidade ou Taxa de Verdadeiros Negativos):
A Especificidade mede a capacidade do classificador em classificar corretamente instân­
cias da “Classe Negativa” (MATOS et al., 2009). A Especificidade pode ser calculada
pela Equação 12 (CANETTA et al., 2014):

VN
Speci f icity = . (12)
FP +V N
38

• Taxa de Falsos Positivos:


Taxa de Falsos Positivos é uma métrica que representa o erro na classificação da “Classe
Negativa”, sendo assim, quanto menor o valor dessa métrica melhor. Pode­se calcular a
Taxa de Falsos Positivos através da Equação 13 (MATSUBARA, 2008):

Taxa de Falsos Positivos = 1 − Speci f icity. (13)

• Gráfico ROC ­ Receiver Operating Characteristic:


Segundo Matsubara (2008). O gráfico ROC é um gráfico de duas dimensões no qual o
eixo X representa os valores da Taxa de Verdadeiros Positivos e o eixo Y apresenta os
valores da Taxa de Falsos Positivos. Matsubara (2008) também cita 4 regiões importan­
tes do gráfico ROC: Céu ROC (Representa os bons resultados), Inferno ROC (representa
os maus resultados), Quase Sempre Neg (classifica­se quase sempre como “Classe Nega­
tiva”), Quase Sempre Pos (classifica­se quase sempre como “Classe Negativa”).
As curvas ROC utilizam muitos parâmetros como entrada resultando em uma exibição
gráfica em forma de curva sobre o plano cartesiano (SCHREIBER et al., 2017) sendo
uma alternativa visual ao uso de medidas de avaliação (PRATI; BATISTA; MONARD,
2008).
• Matthews Correlation Coefficient (Coeficiente de Correlação de Matthews)
O Matthews Correlation Coefficient ­ MCC é uma métrica indicada para avaliar a quali­
dade de classificadores em contextos binários. O MCC fornece uma métrica equilibrada
independentemente se as classes apresentarem tamanhos muito diferentes, ou seja, classes
desbalanceadas. Essa métrica retorna valores entre ­1 e 1 levando­se em consideração to­
das as interpolações obtidas pelo modelo. Quanto mais próximo do valor 1 mais próximo
de se obter uma previsão perfeita, da mesma forma que mais próximo de ­1 mais próximo
de uma previsão inversa. Quando o índice dessa métrica retorna o valor 0 é considerado
uma previsão aleatória (PEDREGOSA et al., 2011). O MCC pode ser calculado através
da Equação 14:

V P ∗V N − FP ∗ FN
MCC = √ . (14)
(V P + FP) ∗ (V P + FN) ∗ (V N + FP) ∗ (V N + FN)
39

4 TRABALHOS RELACIONADOS
Devido ao fato da existência de uma vasta gama de técnicas que podem ser apli­
cadas para a extração de conhecimento em bases de dados, esta seção busca relatar trabalhos
com objetivos semelhantes a este, porém, não sendo o objetivo do estudo realizar uma revisão
sistemática da literatura.
Foram realizadas buscas em 4 bases: ResearchGate, Google Scholar, Sciencedirect
e Large­scale Assessments in Education. Para as buscas, foram utilizados os termos: “Aprendi­
zado de Máquina”, “Ciências de Dados” e “Mineração de dados”, associados a termos de caráter
educacional: “Avaliações em Larga escala”, “Desempenho de Alunos”, “Educação” nos idio­
mas português e inglês.
Além dos trabalhos que utilizaram a base de dados fornecida pelo PISA, serão apre­
sentados trabalhos que utilizaram bases de dados de escolas e de duas outras SLAs:
• Exame Nacional do Ensino Médio ­ ENEM: uma avaliação criada em 1998 pelo Ministé­
rio da Educação ­ MEC do Brasil, com o objetivo inicial de obter indicadores da qualidade
da educação no país. Posteriormente o ENEM foi adotado por instituições como método
seletivo para o ingresso no ensino superior, inclusive fora do Brasil, como ocorre em
algumas instituições de Portugal. Atualmente, é realizado em dois dias de avaliações e
composto por provas de linguagens, códigos e suas tecnologias; ciências humanas e suas
tecnologias; ciências da natureza e suas tecnologias; e matemática e suas tecnologias, as
quais totalizam 180 questões. Além das questões objetivas a escrita de um redação tam­
bém é exigida (INEP, 2020), sempre com o intuito de abordar questões contextuais da
vivência do aluno.(CASTRO; TIEZZI, 2005).
• Cycle des Évaluations Disciplinaires Réalisées sur Échantillon ­ CEDRE: ou Ciclo de
Avaliações Disciplinares Realizadas em Amostras, inciou­se em 2003 com a avaliação de
habilidades gerais, aplicada na França no fim do ensino secundário e no fim do ensino
superior (o que permite um acompanhamento da evolução dos alunos ao longo do tempo)
com o objetivo situar os desempenhos dos alunos em escalas de nível. O CEDRE não visa
conceder diplomas ou algum tipo de atestado de nível, essa SLA visa servir de indicador
da situação educacional do aluno para que, tanto tomadores de decisão, como professores
conheçam o quadro educacional dos alunos para melhorias e mudanças no sistema de
ensino (ROCHER; BUREAU, 2014).
4.1 Descrição dos Trabalhos
Nesta seção são descritos os trabalhos com objetivos semelhantes ao desta pesquisa.
Os trabalhos, aqui, apresentados foram selecionados, primeiramente, pelo título, posteriormente
pelo seu resumo. Após isso, foram escolhidos artigos que realizaram experimentos com algorit­
mos de aprendizado de máquina e apresentaram seus resultados, ou seja, trabalhos fundamen­
talmente teóricos não foram incluídos nessa seção.
40

4.1.1 Classification of PISA 2012 mathematical literacy scores using decision­tree method:
Turkey sampling
Aksu e Güzeller (2016) realizaram seu trabalho com o objetivo de determinar quais
e em que ordem de relevância, as variáveis independentes afetam no resultados do letramento
em matemática (variável dependente) da amostra de alunos turcos que participaram do PISA
edição 2012.
Os autores analisam como os estudantes foram classificados em relação ao sucesso
(determinado a partir da média de 5 pontuações matemáticas) em relação a variáveis independen­
tes de interesse em relação ao curso de matemática: atitudes em relação à matemática, motivação,
percepção, autoeficácia, ansiedade e estudo da disciplina.
Nesse estudo, a técnica de análise Chi­squared Automatic Interaction Detection ­
CHAID que é um método de árvore de decisão foi utilizada com a justificativa de apresentar
facilmente a visualização da ordem de importância das variáveis preditivas e a classificação pode
ser feita de com base na estrutura visual do método. Os autores ressaltaram acreditar que seu
estudo se diferencia de outros pelo fato de utilizar de árvores de decisão e métodos de mineração
de dados no campo da educação.
Em sua metodologia, os autores não utilizaram instâncias da amostra com dados
faltantes (não codificados ou itens em branco), aplicando para isso o método listwise fato que
levou a amostra de 4848 estudantes ser reduzida para 1391, para a verificação dos dados perdidos
foi utilizado o software SPSS.
Nesse estudo a amostra dos 1391 alunos foi subdividida de acordo com as séries
(grades) e foi constatada uma grande semelhança com a população alvo da Turquia.
Utilizando o algoritmo de J.48 os autores obtêm um índice de 69,87% de classifica­
ção precisa. Com a aplicação de tais técnicas e métodos os autores concluem que as variáveis
independentes mais importantes para determinar o sucesso dos alunos foram autoeficácia, ati­
tude em relação ao curso e estudo da disciplina nessa ordem.
4.1.2 On the use of conventional and statistical­learning techniques for the analysis of PISA
results in Spain
Gorostiaga e Rojo­Álvarez (2016) realizaram estudos sobre dados oriundos do PISA
2009 focados nos dados do alunos espanhóis e seus respectivos desempenhos em matemática.
Os autores comparam técnicas de regressão logística, análise discriminantes lineares de Fisher
e Support Vector Machine ­ SVM, sendo utilizado com seu kernel linear e não linear, com a
finalidade de classificar os alunos segundo seu desempenho.
Para o procedimento de feature selection os autores buscaram reduzir ao menor nú­
mero de variáveis sem prejudicar o desempenho dos classificadores através da aplicação de
dois algoritmos, sendo que o primeiro é voltado para seleção de recursos de pesos lineares e o
segundo para seleção de recursos de classificadores não lineares.
O conjunto amostral utilizado era composto por 25.887 estudantes e 888 escolas,
utilizando­se variáveis relacionadas ao background pessoal do aluno juntamente com variáveis
41

em nível escolar. Os valores referentes às notas presentes no conjunto de dados foram utilizados
para classificar os alunos em relação ao seu sucesso. Escolas que não responderem ao questi­
onário foram excluídas (assim como seus alunos) da amostra, bem como, alunos com muitos
itens não respondidos, fato que, levou a amostra ser reduzida para 25.122 alunos e 870 escolas.
Para a imputação de valores faltantes, em alguns casos, foram utilizadas respostas
de colegas de escola e a técnica do vizinho mais próximo. Dois fatos bem interessantes relatados
são que a região tem papel importante sobre os resultados dos alunos e que apenas alguns tipos de
bens possuídos pela família estão relacionados ao sucesso do aluno, sendo esses bens culturais
(por exemplo: literatura clássica, livros de poesia e obras de arte).
4.1.3 Predicting math performance from raw large­scale educational assessments data: a
machine learning approach
Saarela et al. (2016) aplicaram algoritmos de aprendizado de máquina para prever o
desempenho dos alunos utilizando os itens relacionados ao questionário do aluno para o teste do
PISA edição de 2012. Foram selecionadas 53 perguntas e apenas foram utilizadas respostas de
estudantes que não tinham valores nulos. Os autores utilizaram as seguintes técnicas de extração
de atributos: Principal Component Analysis e Isomap, 4 técnicas de seleção de atributos: Fisher,
Anova, Gini e Minimal Redundancy Maximal Relevance Criterion.
Os autores utilizaram os algoritmos de predição vizinhos mais próximos, Naive
Bayes, LDA, SVM e Random Forests. Os algoritmos foram ajustados com dados dos estudantes
finlandeses e depois aplicados a todos os estudantes.
4.1.4 Mineração de Dados Educacionais nos Resultados do ENEM de 2015
Simon e Cazella (2017) criaram um modelo preditivo do desempenho a partir dos
dados referentes ao Exame Nacional do Ensino Médio ­ ENEM edição de 2015 utilizando téc­
nicas de EDM. Para isso os autores aplicam a árvore de decisão com o algoritmo J48 através do
software WEKA, utilizando para divisão dos dados entre teste e treinamento o 10­ fold cross­
validation.
Para validar os resultados foram consideradas 4 classes que eram divididas de acordo
com a pontuação média escolar, na qual, o algoritmo foi capaz de classificar corretamente em
77,02% .
As variáveis independentes com maior importância para a previsão do desempenho
foram: o tipo da escola (privada, federal, estadual e municipal) e nível socioeconômico.
4.1.5 Prevendo desempenho dos candidatos do ENEM através de dados socioeconômicos
Stearns et al. (2017b) realizaram seu trabalho aplicando Machine Learning para
a previsão das notas de Matemática do ENEM edição de 2014 utilizando dados oriundos do
questionário socieconômico do exame.
As árvores de decisão com boosting foram aplicadas através das técnicas Gradient
Boosting e AdaBoost.Os dados de alunos que faltaram ao exame foram excluídos do experi­
mento.
42

Foram aplicadas as técnicas Mean Absolute Percentage Error ­ MAPE e R Squared


­(R2 ) para servir de métricas para otimização de hiper­parâmetros que consistiu na aplicação de
uma heurística baseada em Particle Swarm Optimization­ PSO. Para a validação foi utilizada a
técnica de divisão de dados 10­Fold Cross Validation com as métricas Mean Absolute Error ­
MAE e R2 .
4.1.6 Comparing the performance of data mining methods in classifying successful students
with scientific literacy in PISA 2015
Büyükkıdık, Bakırarar e Bulut (2018) em seu trabalho utilizam técnicas de Data
Mining (mineração de dados) para classificar a alfabetização científica dos estudantes turcos
que participaram do PISA na edição de 2015.
Nesse estudo os autores comparam os algoritmos de aprendizado através dos crité­
rios de avaliação Accuracy, F­measure, Precision, Recall e ROC Area em diferentes divisões
dos dados de treinamento e teste: 80% treinamento­20% teste, 70% treinamento­30% teste e 10­
fold Cross Validation.
Os dados foram tratados a fim de completar os valores faltantes, com o valor da
moda para o valores qualitativos e a média para os quantitativos. Nesse estudo nem todas as
variáveis foram utilizadas. Para isso os autores utilizaram os métodos InfoGainAttributeEval,
GainRatioAttributeEval e ChiSquaredAttributeEval do software WEKA para selecionar e redu­
zir de 922 para 66 variáveis, antes da aplicação dos modelos.
Foram aplicados os algoritmos Multilayer Perceptron, Logistic Regression e Sup­
port Vector Machine ­ SVM. De acordo com os critérios de avaliação, os resultados foram bem
próximos, pois, o critério precisão apresentou o maior valor (0,81) na aplicação do método de
Support Vector Machine com a divisão 10­fold Cross Validation.
4.1.7 Predição do desempenho de Matemática e Suas Tecnologias do ENEM utilizando
técnicas de mineração de dados
Alves, Cechinel e Queiroga (2018) aplicaram técnicas de EDM aos dados oriundos
do ENEM 2015 com o objetivo de criar um modelo preditivo para o desempenho das escolas
das provas de matemática e suas tecnologias.
Os dados obtidos pelos autores eram compostos por 15598 instâncias e continham as
médias de desempenho agrupadas por escola, nas quais os autores categorizaram em três rótulos:
baixo (notas até 451), médio (notas maiores que 451 e menores ou iguais a 502) e alto (notas
maiores que 502).
Sobre os dados já categorizados os autores aplicaram os algoritmos J48 e Naive
Bayes através do software WEKA, utilizando a divisão de 70% dos dados para treinamento e
30% para testes de 15 variáveis escolhidas, com objetivo de classificá­los de acordo com sua
categoria de desempenho.
O algoritmo J48 teve como acurácia máxima 71.93% já o Naive Bayes teve resultado
máximo a acurácia de 68.07%. Através da árvore de decisão gerada pelo algoritmo J48 obteve­
se como variáveis mais importantes a DEPENDÊNCIA ADMINISTRATIVA, INDICADOR
43

DE NÍVEL SOCIOECONÔMICO e CATEGORIZAÇÃO TAXA DE PARTICIPAÇÃO nessa


ordem.
4.1.8 Student and school performance across countries: A machine learning approach.
Masci, Johnes e Agasisti (2018) utilizaram técnicas de estatística e aprendizado de
máquina sobre os dados do PISA 2015 de nove países (Alemanha, Austrália, Canadá, Espanha,
Estados Unidos, França, Itália, Japão e Reino Unido).
Utilizando os dados dos questionários do nível do aluno e no nível da escola, os
autores buscaram descobrir quais dessas características influenciam nos resultados dos alunos e
no value­added da escola, como tais características se relacionam entre si, como as diferenças
entre escolas influenciam nos resultados do aluno e quais variações desses resultados acontecem
entre os nove países estudados.
Para alcançar seus objetivos os autores dividem seu trabalho em duas etapas. A pri­
meira consiste na aplicação de Multilevel Regression Trees, aplicando no nível 1 características
dos alunos e no nível 2 características da escola para descobrir quais atributos dos estudantes
influenciam nos resultados e estimar o value­added (valor agregado) da escola e a segunda na
aplicação de Regression Trees and Boosting para relacionar o value­added originado da anterior
aos atributos dos dados do questionário escolar.
Nesse estudo os autores utilizaram apenas os resultados do teste de matemática no
qual os dados faltantes variavam entre 2 a 5% no questionário do aluno e no questionário da
escola cerca de 10 a 25% entre países.
Dentre os resultados obtidos é observado pelos autores uma variação da capacidade
da explicação das variáveis preditoras entre países. Em alguns países (França, Japão e Alema­
nha) as características no nível dos estudantes têm grande capacidade de explicar os resultados
de matemática, já em outros essas características não são o suficiente.
Em 5 dos 9 países analisados a característica referente ao índice socioeconômico
foi considera a variável mais importante, em 3 países a mais importante foi a correspondente a
ansiedade em relação aos testes. Apenas o Japão teve como variável mais importante a automo­
tivação.
De forma geral as características que mais influenciaram no valor agregado da es­
cola foram as relacionadas a questões socioeconômica e ao tamanho da escola. Em relação às
questões socioeconômicas, escolas com maiores proporções de alunos desfavorecidos econo­
micamente tiveram resultados de desempenho mais baixos, exceto no Japão. Em relação ao
tamanho da escola somente nos Estados Unidos e Austrália escolas com 500 e 1000 alunos
tiveram um aumento no valor agregado.
4.1.9 Eucational Data Mining: Identification of factors associated with school effectiveness
in PISA assessment
Martínez­Abad, Gamazo e Rodríguez­Conde (2020) em seu estudo buscam encon­
trar fatores relacionados à eficácia das escolas. Para isso seu trabalho é divido em duas fases,
nas quais se aplicam duas técnicas:
44

• Multilevel Modelling (modelagem multinível) que tem como objetivo a identificação das
escolas de alta e baixa eficácia.
• Educational Data Mining ­ EDM que através de algoritmos de árvores de decisão tenta
identificar fatores que influenciam na eficácia escolar.
Essas técnicas são aplicadas nas amostras dos dados providos pelo PISA 2015, so­
mente sobre os dados da Espanha. Segundo os autores, a escolha de um único país, se dá pela
intenção de se evitar efeitos relacionados a diferenças sistêmicas e socieconômicas entre países,
na qual a Espanha foi escolhida devido ao tamanho da amostra (maior que a maioria dos países
da OCDE).
Os autores não utilizam todas as amostras fornecidas, escolas com menos que 20
participantes não foram incluídas, dessa maneira, dos 32.330 estudantes e 976 escolas, foram
selecionadas 31,236 estudantes e 896 escolas espanholas.
Na primeira fase, em todas as 3 áreas (ciências, leitura e matemática) foram de­
senvolvidos 3 modelos multiníveis. Cada modelo utilizou no nível 1 variáveis relacionadas ao
aluno e no nível 2 variáveis relacionadas a questões da escola, em que foi utilizado o software
estatístico HLM 7 que permitiu o uso dos 10 valores plausíveis juntamente com seus pesos para
cada uma das 3 áreas. Esse mesmo software foi utilizado no processo de imputação dos valores
faltantes através de regression imputation.
Na fase EDM foi utilizado o software Weka 3.8.1 para aplicação do algoritmo C4.5
de árvores de decisão. Em relação à modelagem multinível os autores obtêm 12.41% em ciên­
cias, 12.26% em matemática e 12.04% em leitura de acordo com Intraclass Correlation Coeffi­
cient (ICC).
Para a validação do modelo de árvore decisão, este estudo utiliza o k­folds cross­
validation divididos em 10 subamostras para a validação, na qual se obteve cerca de 90% das
escolas classificadas corretamente, tanto para os dados de treinamento, quanto para o cross­
validation.
Os índices de validação foram utilizados pelos autores que obtiveram mais de 90%
na precisão do modelo(precision), cerca de 95% para área sob a curva ROC ( Receiver Operating
Characteristic e um kappa index próximo de 85 e o Root Relative Squared Error (RRSE) inferior
a 52%.
4.1.10 A graphically based machine learning approach to predict secondary schools perfor­
mance in Tunisia
Rebai, Ben Yahia e Essid (2020) analisaram dados da Tunísia oriundos do PISA
edição 2012, a fim de identificar fatores que influenciam no desempenho escolar. Para essa
finalidade os autores utilizaram uma abordagem baseada em Directional Distance Function ­
DDF juntamente com técnicas de Machine Learning ­ ML.
Os autores subdividem sua pesquisa em duas etapas: a primeira baseada em DDF
para produzir valores numéricos que representam a ineficácia das escolas utilizando os software
SAS, e a segunda consistindo na aplicação de técnicas de Machine Learning através de Re­
45

gression tree e Random forests (composta por 1000 árvores), utilizando os resultados da etapa
anterior como variável a ser predita através do software R.
As amostras foram reduzidas de 153 escolas para 105 devido ao descarte de instân­
cias com dados faltantes e escolas privadas (pois a pesquisa era focada em escolas públicas). A
variável que mais influenciou na eficiência escolar foi o tamanho da escola seguido pela pro­
porção de meninas matriculadas, onde baseado nesses achados os autores sugerem a criação de
políticas para a melhor distribuição de alunos em turmas menores e balancear as proporções de
meninos e meninas em sala de aula.
4.1.11 When didactics meet data science: process data analysis in largescale mathematics
assessment in France
Salles, Dos Santos e Keskpaik (2020) aplicaram EDM através de técnicas de apren­
dizado de máquina a uma amostrada de dados obtidos do CEDRE (Cycle des Évaluations Disci­
plinaires Réalisées sur Échantillon) que é um teste aplicado na França com o objetivo de medir
habilidades de alunos em matemática. Essa avaliação é realizada a cada 5 anos e em 2019 foi
aplicada pela primeira vez através do uso de computadores.
Os autores focaram seus estudos na análise de um único item interativo dessa ava­
liação chamado Tree growth (Crescimento de árvores), na qual os alunos interagem inserindo a
idade das árvores em meses em uma planilha e através de outras ferramentas gráficas.
Foram empregadas técnicas de aprendizado supervisando através de Random forests
com o objetivo de determinar em qual proporção os dados coletados do item em questão podem
explicar o desempenho dos alunos e aprendizado não supervisionado através dos algoritmos
DBSCAN (Density­based Spatial Clustering of Applications With Noise) e K­means para agru­
par os alunos através de suas estratégias em perfis de aprendizado.
Os algoritmos foram escolhidos pelo fato que são muito utilizados e fazem parte das
famílias de algoritmos clusterização mais importantes, as baseadas em densidade e as baseados
em centroide, respectivamente.
Para avaliar o desempenho do modelo de aprendizado supervisionado os autores uti­
lizaram o cálculo da área sob a curva ROC no qual teve como resultado 0,78. As características
mais importantes encontradas para a predição do sucesso ou não do aluno foram: o número de
valores testados na tabela de dados e a variação dos valores testados.
Os autores utilizam, primeiramente, o algoritmo DBSCAN visto que ele não neces­
sita informar previamente o número de clusters. Desses algoritmos foram extraídos 4 clusters e
para avaliar a clusterização o autor utiliza o K­means, que necessita do número de clusters como
argumento de entrada. Para isso foi utilizado o número 4, no qual para os clusters 3 e 4 foram
identificados os maiores usos da ferramenta lápis e menos registro de valores e para o 1 e 2 o
menor uso da ferramenta lápis e mais registro de valores, o que levou o autor a concluir que as
estratégias tomadas por alunos desse cluster eram voltadas para tentativa e erro.
46

4.1.12 Using data mining to predict secondary school student performance


Cortez e Silva (2008) analisaram dados de duas escolas portuguesas coletados atra­
vés do uso de relatórios e questionários durante o ano letivo de 2005­2006, focando nas disci­
plinas de português e matemática.
Os autores aplicam Business Intelligence / Data Mining atravéz de Decision Trees,
Random Forests, Neural Networks e Support Vector Machines, com a finalidade de encontrar
variáreis que influenciam, sobretudo, questões relacionadas a transferências de alunos e ao de­
sempenho dos deles.
O questionário utilizado continha cerca de 37 questões e foram respondidos por
788 estudantes no qual foram descartadas 111 respostas devido à falta de alguns detalhes de
identificação.
Os autores utilizaram o software R (através da biblioteca RMiner) para a aplica­
ção dos modelos com a divisão entre dados de treinamento e testes através de 10­fold cross­
validation. Os algoritmos que obtiveram melhores resultados foram o Decision Trees e Random
Forests.
47

5 MATERIAIS E MÉTODOS
Nesta seção são apresentadas as ferramentas e equipamentos utilizados para execu­
ção dos experimentos, bem como, a metodologia adotada neste trabalho.
5.1 Ferramentas para Ciência de Dados
Para se trabalhar com Ciência de Dados existe uma série de ferramentas disponíveis,
sendo elas softwares e linguagens de programação, como por exemplo, Stata, SAS, SPSS, R,
JMP, MATLAB, Júlia e Python (FILHO, 2015).
Este trabalho utilizou a linguagem de programação Python que é amplamente utili­
zada por profissionais da Ciência de Dados, sendo uma linguagem de programação de altíssimo
nível, dinamicamente tipada, orientada a objetos e que oferece uma sintaxe (corresponde como
o código que é escrito) clara (BERTOLINI et al., 2019). Além disso, esta linguagem de progra­
mação apresenta estruturas de alto nível, muitos módulos prontos e documentação abundante,
fato esse que a torna mais produtiva.
O Python possui licença General Public License ­ GLP, o qual permite que seja
incorporado até mesmo em produtos proprietários. Foi criado em 1990 no Instituto Nacional
de Pesquisa para Matemática e Ciências da Computação da Holanda por Guido van Rossum
sendo uma linguagem bem aceita por várias empresas de tecnologias, dentre elas Google, Yahoo,
Microsoft, Nokia, Disney (BORGES, 2014).
Para a abordagem deste trabalho foram utilizadas várias bibliotecas escritas em
Python, as quais, neste contexto, uma biblioteca pode ser compreendida de maneira simplifi­
cada como trechos de códigos reutilizáveis (DATAFLAIR, 2021).
O uso de bibliotecas agiliza e simplifica as tarefas relacionadas à Ciência de Da­
dos. Para este estudo foram utilizadas bibliotecas Pyreadstat (FAJARDO, 2021), Matplotlib
(MATPLOTLIB, 2021), Scikit­Learn (PEDREGOSA et al., 2011), Seaborn (WASKOM, 2021),
Pandas (PANDAS, 2021), Numpy (NUMPY, 2021), Plotly (PLOTLY, 2021).
Para expandir o potencial da linguagem Python, ela foi utilizada em conjunto com a
tecnologia Jupyter Notebook. O Jupyter Notebook é um projeto de código aberto que provê um
ambiente interativo para a manipulação de dados em diferentes contextos, podendo ser utilizado
até mesmo através de um navegador Web e ser integrado a cerca de 40 tipos de linguagens de
programação (JUPYTER, 2021).
O seguinte experimento foi realizado em um servidor Linux ­ Ubuntu 20.04.4 LTS
(Focal Fossa), com 2 processadores Intel Xeon E7530 com 6 núcleos de 12 threads cada, tota­
lizando 48 threads com frequência de 1.86 GHz e 128 GB de memória RAM.
5.2 Metodologia
As tarefas desenvolvidas neste trabalho foram baseadas nas etapas de um projeto
de Data Science incorporadas à metodologia da pesquisa com abordagem quantitativa descri­
tiva tendo em vista as características de mensuração em números e uso de técnicas estatísticas
(DALFOVO; LANA; SILVEIRA, 2008) sobre os dados obtidos do PISA 2018.
48

5.2.1 Aquisição dos Dados


O dataset que contém os dados coletados pelo PISA 2018 foi adquirido no site oficial
da OECD através da página PISA 2018 Database1 . A OECD fornece duas opções de formatos
de dados, SAS2 e SPSS3 . Optou­se pela escolha da linguagem de programação Python para
a manipulação dos dados, já que ambos os formatos são aceitáveis, mas, pela finalidade de
simplicidade foi realizado o download do dataset no formato SPSS.
5.2.2 Compreensão dos Dados
Inicialmente, observou­se que o tamanho do dataset era de 107367 linhas e 351
colunas. Foram aplicados métodos com o intuito de visualizar como os dados estavam dispostos
dentro do dataset, além de outras informações relevantes como média, desvio padrão, contagem,
valores máximos e mínimos dos dados de cada coluna.
O questionário aplicado aos professores possui várias perguntas, com diferentes va­
lores e tipos de respostas. Todas as perguntas do questionário são representadas por códigos,
como por exemplo, TC001Q01NA. Para melhor compreensão dos dados, todos os códigos fo­
ram mapeados para perguntas com auxílio do codebook 4 que é um arquivo disponibilizado pela
própria OECD que possui as descrições de cada código que compõe o dataset.
Para cada pergunta, verificou­se quais eram as possíveis respostas dos professores,
fato este o qual revelou que muitas perguntas apresentaram valores nulos e outras que não foram
respondidas por nenhum professor (representados no dataset por valores nan).
5.2.3 Análise Exploratória de Dados
As técnicas de Análise Exploratória de Dados foram aplicadas sobre a perspectiva
da estatística descritiva, através das bibliotecas matplotlib, seaborn e plotly.
Primeiramente, foram explorados dados relacionados aos resultados dos alunos no
PISA 2018, para ambos os testes de ciências e matemática. A Figura 13 apresenta a distribuição
de frequências das notas médias de cada um dos testes, bem como a plotagem dos valores das
notas médias de todos os países que participaram dessa edição.
Na Figura 13, hexágonos com cores mais escuras demonstram maiores ocorrências
em uma determinada faixa de notas, sendo que os dois testes estão em torno dos 500 pontos.
Também fica perceptível, através desta da Figura 13, a existência de uma relação linear entre
os resultados dos dois testes, visto que, a medida que a nota de ciências cresce a de matemática
também cresce, ou seja, países têm desempenho semelhante nos dois tipos de testes.
1 <https://www.oecd.org/pisa/data/2018database/>
2 <https://webfs.oecd.org/pisa2018/SAS_TCH_QQQ.zip>
3 <https://webfs.oecd.org/pisa2018/SPSS_TCH_QQQ.zip>
4 <https://www.oecd.org/pisa/data/2018database/PISA2018_CODEBOOK.XLSX>
49

Figura 13 – Distribuição e relação das notas médias de matemática e ciências ­ PISA 2018

Fonte: Próprio Autor.

Com a Figura 14, é possível notar que o intervalo interquartil dos dois testes es­
tão bem parecidos, porém, o limite mínimo para o teste de ciências é um pouco inferior ao de
matemática, indicando que a nota menor foi obtida pelo teste de ciências.

Figura 14 – Boxplot: Notas médias de ciências e matemática ­ PISA 2018

Fonte: Próprio Autor.

Devido ao fato da OCDE disponibilizar as notas médias dos países participantes da


edição 2018, optou­se, ainda, em demonstrar as notas médias pelo mundo. A Figura 15 apresenta
as notas de ciências e a Figura 16 as notas de matemática, em ambas, as cores azul e verde com
tons mais escuros expressam notas maiores e tons mais claros notas menores5 .
5 Sujeito à limitações da biblioteca plotly em reconhecer as siglas dos países/economias fornecidas pela OCDE,
onde os países em cinza não realizaram o teste ou não foram reconhecidos pelo plotly.
50

Figura 15 – Notas médias de ciências por país

Fonte: Próprio Autor.

Figura 16 – Notas médias de matemática por país

Fonte: Próprio Autor.

Através destas análises iniciais, notou­se que a América do Sul apresentou notas
inferiores se comparada à Europa e América do Norte em ambos os testes.
Além dos desempenhos dos países, foram analisadas as características dos profes­
sores coletados pelo questionário do PISA. A distribuição das idades de todos os professores
pode ser observada na Figura 17 e na Figura 18. Esta informação é segmentada por país, na
qual se nota que o Azerbaijão possui mais professores com idades maiores e o Macau com ida­
des menores, que é perceptível por apresentar uma distância interquartil menor, indicado maior
concentração de professores mais jovens na faixa dos 35 a 45 anos.
51

Figura 17 – Boxplot: Idades de professores

Fonte: Próprio Autor.

Figura 18 – Boxplot: Idades de professores por país

Fonte: Próprio Autor.

A Figura 19 busca trazer a perspectiva de idades dos professores em relação ao


gênero e é possível observar que, apesar de ambos os gêneros apresentarem o limite mínimo em
20 anos e o máximo em 70 anos, o sexo feminino apresenta sua distância interquartil localizada
com menores idades.

Figura 19 – Boxplot: Idades de professores por sexo

Fonte: Próprio Autor.


52

Analisando as características relacionadas à capacitação dos professores, notou­se


que a maioria dos países apresentam mais capacitações com tempos maiores que um ano con­
forme a Figura 20.

Figura 20 – Tempo de licenciatura ou programa de capacitação de professores

Fonte: Próprio Autor.

A Figura 21 demonstra as capacitações relacionadas a estudos em países estrangei­


ros, e foi possível observar que, somente os Emirados Árabes Unidos e Macau apresentaram a
maioria dos professores com algum tipo de estudo em países estrangeiros.

Figura 21 – Estudo em país estrangeiro

Fonte: Próprio Autor.


53

Através da Figura 22 foi possível verificar que em todos os países existe uma grande
taxa de solicitação para que os professores participem de atividades de desenvolvimento profis­
sional.

Figura 22 – Atividades de desenvolvimento profissional

Fonte: Próprio Autor.

Outra questão importante relacionada à capacitação foi observada na Figura 23 que


apresenta a autopercepção dos professores sobre a influência da escola em proporcionar uma
boa educação.

Figura 23 – Capacidade da escola em fornecer uma boa educação em relação a qualificação dos
professores

Fonte: Próprio Autor.


54

Em relação à capacitação do corpo docente, nota­se que em muitos países, os profes­


sores reponderam o questionário informando que a capacidade de fornecer uma boa educação é
prejudicada pela qualificação inadequada ou insuficiente do corpo docente.
As Figuras 24, 25, 26, 27, 28 e 29 apresentam o uso de tecnologias como instrumento
de ensino em sala de aula.

Figura 24 – Uso de Jogos digitais como ferramentas de ensino

Fonte: Próprio Autor.

Figura 25 – Uso de ferramentas de produção multimídia como ferramentas de ensino

Fonte: Próprio Autor.


55

Figura 26 – Uso de recursos de computadores como ferramentas de ensino

Fonte: Próprio Autor.

Figura 27 – Uso de redes sociais como ferramentas de ensino

Fonte: Próprio Autor.


56

Figura 28 – Uso de softwares de simulações como ferramentas de ensino

Fonte: Próprio Autor.

Figura 29 – Uso de softwares de instrução como ferramentas de ensino

Fonte: Próprio Autor.

Constata­se que, apesar dos grandes avanços tecnológicos pelo mundo, tais tecno­
logias ainda são pouco utilizadas em sala de aula, fato que contrasta com a informação dada
pela Figura 30 a qual mostra que na maioria das escolas exceto na Coreia do Sul e no Marrocos,
existem uma política em relação ao uso de dispositivos eletrônicos.
57

Figura 30 – Politica de uso de dispositivos eletronicos nas escolas

Fonte: Próprio Autor.

5.2.4 Tratamento de dados faltantes


Através das técnicas de AED aplicadas, notou­se que vários países participantes do
PISA 2018 não responderam ao questionário dos professores e vários professores dos países que
responderam ao questionário não deram resposta a todas as perguntas e sub­perguntas presentes
no dataset.
Baseando­se nos trabalhos de Saarela et al. (2016), Aksu e Güzeller (2016), Goros­
tiaga e Rojo­Álvarez (2016), Rebai, Ben Yahia e Essid (2020) e Stearns et al. (2017b) optou­se
por utilizar a técnica de eliminação para tratamento de dados faltantes.
As características que não apresentaram pelo menos um dado válido foram descarta­
das da pesquisa, fato que levou à redução em seu número de 220 para 167. Com as características
resultantes desse processo, foram calculadas a porcentagem de dados faltantes que variaram de
16% até 42%.
Além da eliminação das perguntas sem respostas, também foram eliminadas instân­
cias (linhas) que representam individualmente cada um dos professores, os quais não responde­
ram totalmente o questionário, ou que os dados não estavam presentes, reduzindo o número de
amostras de 107.367 para 41.687 instâncias.
Como resultado do processamento apresentado, o dataset resultante possuía a di­
mensão de 41.687 linhas por 167 colunas.
5.2.5 A Variável Dependente
Assim como nos trabalhos de Büyükkıdık, Bakırarar e Bulut (2018), Saarela et al.
(2016), Aksu e Güzeller (2016), Martínez­Abad, Gamazo e Rodríguez­Conde (2020), Salles,
Dos Santos e Keskpaik (2020), Simon e Cazella (2017), Masci, Johnes e Agasisti (2018), Go­
58

rostiaga e Rojo­Álvarez (2016), Alves, Cechinel e Queiroga (2018), Rebai, Ben Yahia e Essid
(2020) e Stearns et al. (2017b), optou­se por utilizar o aprendizado de máquina supervisionado.
Com a escolha desse tipo de aprendizado, emergiu a necessidade de uma variável
dependente. Para suprir essa necessidade, os dados do dataset dos professores foram cruzados
com os resultados médios de cada país através da coluna “CNT”. Para cada instância foram
atribuídas as notas médias dos testes de matemática e ciências. Os resultados médios de cada
país em matemática e ciências do PISA edição 2018 podem ser observados na Tabela 11.

Tabela 11 – Média dos resultados por país/economia


País/Economia Ciências Matemática País/Economia Ciências Matemática
Albânia 437 417 Irlanda 500 496
Alemanha 500 503 Islândia 495 475
Arábia Saudita 373 386 Israel 463 462
Argentina 379 404 Itália 487 468
Austrália 491 503 Japão 527 529
Áustria 499 490 Jordânia 400 429
B­S­J­Z (China) 591 590 Kosovo 366 365
Baku (Azerbaijão) 420 398 Letônia 496 487
Bélgica 508 499 Líbano 393 384
Bielo­Rússia 472 471 Lituânia 481 482
Bósnia e Herzegovina 406 398 Luxemburgo 483 477
Brasil 384 404 Macau (China) 558 544
Brunei Darussalam 430 431 Macedônia do Norte 394 413
Bulgária 436 424 Malásia 440 438
Canadá 512 518 Malta 472 457
Catar 414 419 Marrocos 368 377
Cazaquistão 423 397 México 409 419
Chile 417 444 Moldova 421 428
Chipre 451 439 Montenegro 430 415
Cingapura 569 551 Noruega 501 490
Colômbia 391 413 Nova Zelândia 494 508
Coréia 526 519 Panamá 353 365
Costa Rica 402 416 Peru 400 404
Croácia 464 472 Polônia 516 511
Dinamarca 509 493 Portugal 492 492
Emirados Árabes Unidos 435 434 Reino Unido 502 505
Eslovênia 509 507 República Tcheca 499 497
Espanha 481 483 República Dominicana 325 336
Estados Unidos 478 502 República Eslovaca (eslováquia) 486 464
Estônia 523 530 Romênia 430 426
Filipinas 353 357 Rússia 488 478
Finlândia 507 522 Sérvia 448 440
França 495 493 Suécia 502 499
Georgia 398 383 Suíça 515 495
Grécia 451 452 Tailândia 419 426
Holanda 519 503 Taipei Chinês 531 516
Hong Kong (China) 551 517 Turquia 454 468
Hungria 481 481 Ucrânia 453 469
Indonésia 379 396 Uruguai 418 426

Fonte: OCDE, 2019. Adaptado.

Influenciado por Büyükkıdık, Bakırarar e Bulut (2018), Saarela et al. (2016), Aksu
e Güzeller (2016), Martínez­Abad, Gamazo e Rodríguez­Conde (2020) e Salles, Dos Santos e
Keskpaik (2020) optou­se por duas classes para a modelagem de dados. As classe foram criadas
59

utilizando os níveis de proficiência fornecidos pela a OCDE, apresentados na Tabela 7 e Tabela


8 em conjunto com os resultados médios de cada país/economia.
Para ambos os testes foram criadas as classes “Baixa” e “Alta” para representar
baixo e alto desempenho respectivamente, de acordo com os nível apresentados em cada teste.
Os países resultantes após o tratamento dos valores faltantes apresentaram níveis 1a, 1b, 2 e 3
para ciências e níveis 1, 2 e 3 para matemática. Para o teste de matemática, os níveis foram
classificados conforme a Tabela 12 e para o teste de ciências conforme a Tabela 13 resultando
na rotulagem apresentada na Tabela 14.

Tabela 12 – Classes para resultados médios em matemática ­ PISA 2018


Níveis Classes
1,2 Baixo Desempenho
3 Alto Desempenho
Fonte: Próprio Autor.

Tabela 13 – Classes para resultados médios em ciências ­ PISA 2018


Níveis Classes
1a,1b Baixo Desempenho
2,3 Alto Desempenho
Fonte: Próprio Autor.

Tabela 14 – Rotulagem para resultados médios


País Níveis em Ciências Classe Níveis em Matemática Classe
Albânia 2 Alta 1 Baixa
Alemanha 3 Alta 3 Alta
Baku (Azerbaijão) 2 Alta 1 Baixa
Brasil 1a Baixa 1 Baixa
Chile 2 Alta 2 Baixa
Coréia 3 Alta 3 Alta
Emirados Árabes Unidos 2 Alta 2 Baixa
Espanha 2 Alta 3 Alta
Hong Kong (China) 3 Alta 3 Alta
Macau (China) 3 Alta 3 Alta
Malásia 2 Alta 2 Baixa
Marrocos 1a Baixa 1 Baixa
Panamá 1a Baixa 1 Baixa
Peru 1a Baixa 1 Baixa
Portugal 3 Alta 3 Alta
Reino Unido 3 Alta 3 Alta
República Dominicana 1b Baixa 1 Baixa
Taipei Chinês 3 Alta 3 Alta

Fonte: Próprio Autor.


60

Após a criação das classes para ambos os testes, verificou­se o balanceamentos entre
as classes. As quantidades de exemplos para o teste de matemática presentes em cada classe
podem ser observados na Figura 31 e para o teste de ciências na Figura 32.

Figura 31 – Quantidade de Exemplos por Classe ­ Teste de Matemática

Fonte: Próprio Autor.

Figura 32 – Quantidade de Exemplos por Classe ­ Teste de Ciências

Fonte: Próprio Autor.

5.2.6 Feature Engineering


Durante a etapa de compreensão dos dados e análise exploratória de dados, foi cons­
tatada a existência de algumas colunas redundantes, tais colunas foram removidas do dataset.
Visando selecionar os melhores atributos, bem como, simplificar o modelo gerado,
foi aplicado também o método Recursive Feature Elimination ­ RFE, que reduziu a quantidades
61

de colunas em 50% (valor padrão do método). Esta técnica foi aplicada, principalmente, pela
sua eficiência e simplicidade de implementação e também pelo fato de simplificar a base de
dados a fim de diminuir as exigências de recursos computacionais.
5.2.7 Modelagem de Dados
Objetivando extrair quais características foram influenciadoras para o desempenho
dos alunos, aplicou­se dois algoritmos de aprendizado supervisionado, o Decision Tree e o Ran­
dom Forest através da biblioteca sklearn. Os modelos foram aplicados com seus parâmetros
padrões que são disponibilizados pela sklearn que implementa o algoritmo CART e com crité­
rio de classificação Gini.
5.2.8 Avaliação dos Modelos
Para realizar os testes de avaliação dos modelos, foi empregada a técnica Holdout
com 70% dos dados para treinamento e 30% teste. Inicialmente, os modelos foram avaliados
com as métricas Precision, Recall, F1­score e Accuracy, porém foi constatado através das Figu­
ras 31 e 32 que em ambos os testes, as classes eram desbalanceadas. Então, optou­se ou utilizar
a métrica Matthews Correlation Coefficient, que conforme descrito na Subseção 3.3.7, é uma
boa maneira de avaliar modelos binários com classes desbalanceadas.
62

6 RESULTADOS
Conforme a metodologia descrita no capítulo anterior, foram aplicados os modelos
de Decision Tree e Random Forest e avaliados com as métricas Precision Recall, F1­score,
Accuracy e Matthews Correlation Coefficient. Os resultados das métricas foram obtidos com a
técnica Holdout, para ambos os testes de matemática e ciências.
Através do modelo com melhor desempenho, foram extraídas as 10 características
dos professores que mais influenciaram no desempenho dos alunos de acordo com a metodologia
adotada.
6.1 Avaliação dos Modelos
As métricas obtidas com a técnica Holdout para o teste de matemática estão descritas
nas Tabelas 15 e 16.

Tabela 15 – Métricas Decision Tree para Matemática ­ Holdout


Classes Precision Recall F1­score
Alta 0,78 0,78 0,78
Baixa 0,82 0,82 0,82
Fonte: Próprio Autor.

Tabela 16 – Métricas Random Forest para Matemática ­ Holdout


Classes Precision Recall F1­score
Alta 0,87 0,88 0,87
Baixa 0,90 0,89 0,89
Fonte: Próprio Autor.

Para o teste de ciências, os resultados obtidos podem ser observados nas Tabelas 17
e 18. .

Tabela 17 – Métricas Decision Tree para Ciências ­ Holdout


Classes Precision Recall F1­score
Alta 0,87 0,86 0,87
Baixa 0,64 0,65 0,65
Fonte: Próprio Autor.

Tabela 18 – Métricas Random Forest para Ciências ­ Holdout


Classes Precision Recall F1­score
Alta 0,89 0,97 0,93
Baixa 0,89 0,68 0,77

Fonte: Próprio Autor.


63

Para a finalidade de comparação, a Tabela 19 apresenta as taxas de acurácia e a


Tabela 20 apresenta os valores obtidos com o cálculo do MCC.

Tabela 19 – Comparação de Desempenho pela Acurácia ­ Holdout


Teste Decision Tree Random Forest
Matemática 0,80 0,88
Ciências 0,81 0,89

Fonte: Próprio Autor.

Tabela 20 – Comparação de Desempenho pelo MCC ­ Holdout


Teste Decision Tree Random Forest
Matemática 0,58 0,76
Ciências 0,49 0,71

Fonte: Próprio Autor.

6.2 Feature Importances


Além das métricas derivadas da matriz de confusão do modelo, foram extraídas
informações sobre a importância de cada uma das colunas para a previsão da variável dependente
do modelo de melhor desempenho Random Forest, através do atributo Feature Importances. As
10 colunas com os maiores índices Feature Importances podem ser observadas na Tabela 21.

Tabela 21 – 10 Maiores Feature Importance


Ordem Código Matemática Código Ciências
1º TC199Q05HA 0,068371024901402 TC176Q01HA 0,046247116379706
2º TC199Q02HA 0,048743764979535 TC020Q01NA 0,045514541051944
3º TC054Q02NA 0,042547678271421 TC188Q01HA 0,031589324509043
4º TC199Q01HA 0,034659458058947 TC198Q08HA 0,025777161572669
5º TC176Q01HA 0,028382624676363 TC169Q03HA 0,024983794886848
6º TC018Q10NA 0,026516967878654 TC186Q01HA 0,023369302485541
7º TC018Q01NA 0,026456136018306 TC002Q01NA 0,022185794795445
8º TC018Q04NA 0,023901193002088 TC007Q02NA 0,020993471656112
9º TC199Q03HA 0,022490097653305 TC169Q11HA 0,020788578047038
10º TC046Q07NA 0,0224704884969 TC046Q07NA 0,020759967015817
Fonte: Próprio Autor.
64

Para melhor compreensão, os códigos são apresentados abaixo, com os respectivos


mapeamentos, para os significados dos itens do questionário por ordem de importância e sepa­
rados pelo tipo do teste.
Para matemática:
1°. TC199Q05HA: Motivar os estudantes com baixo interesse nos trabalhos escolares.
2°. TC199Q02HA: Ajudar os estudantes a valorizar o aprendizado.
3°. TC054Q02NA: Frequência de aplicação de testes padronizados.
4°. TC199Q01HA: Fazer os estudantes acreditarem que podem ter bons resultados escolares.
5°. TC176Q01HA: Frequência de atividade de leitura ­ Ler E­mails.
6°. TC018Q10NA: Religião e/ou ética foi incluído no curso de licenciatura ou em outro pro­
grama de qualificação profissional.
7°. TC018Q01NA: Inclusão ou exclusão de leitura, escrita e literatura no curso de licenciatura
ou programa de capacitação de professores ou em outra qualificação profissional
8°. TC018Q04NA: Inclusão ou exclusão do tópico Tecnologia no curso de licenciatura ou
programa de capacitação de Professores ou em outra qualificação profissional.
9°. TC199Q03HA: Nas aulas, até que ponto o professor pode: elaborar boas questões para
seus estudantes.
10°. TC046Q07NA: Frequência com que o professor frequenta conferências da equipe.
Para ciências:
1°. TC176Q01HA: Frequência de atividade de leitura: ler e­mails.
2°. TC020Q01NA: Programa de qualificação (por ex. aperfeiçoamento ou especialização).
3°. TC188Q01HA: Estudo em um país diferente do pais do teste.
4°. TC198Q08HA: Percepção sobre a valorização da profissão de professor pela sociedade.
5°. TC169Q03HA: Frequência de uso de processadores de textos ou softwares de apresenta­
ções como ferramentas de ensino.
6°. TC186Q01HA: País que o professor nasceu em relação ao país que o teste foi aplicado.
7°. TC002Q01NA: Idade do professor.
8°. TC007Q02NA: Tempo em que o professor trabalha na escola em que o teste está sendo
aplicado.
9°. TC169Q11HA: Frequência de uso de recursos de informações no computador (p. ex.,
sites, wikis, enciclopédias) como ferramentas de ensino no ano letivo.
10°. TC046Q07NA: Frequência com que o professor frequenta conferências da equipe.
65

7 CONCLUSÕES
O presente estudo aplicou técnicas da Ciência de Dados sobre dados contextuais
dos professores coletados pela Avaliação em Larga Escala PISA edição 2018. Observou­se
a existência de várias possibilidades de caminhos para a condução do processo de Ciência de
Dados. Devido a essa vasta quantidade de técnicas passíveis de serem aplicadas em cada uma das
etapas do processo, os trabalhos correlacionados foram fundamentais para nortearem a escolha
das técnicas aplicadas contextualizadas à área da educação.
A etapa de compreensão dos dados foi primordial para entender a estruturação e dis­
posição desses dados e verificar como as informações foram gravadas na base de dados. Através
dessa etapa, foi possível identificar que vários itens não apresentaram nenhum dado dos profes­
sores participantes, e que entre os itens com algum tipo de resposta a quantidade de valores
faltantes atingiu até 44%. Após o tratamento de dados faltantes, foi identificado que, dos 79
países/economias participantes dessa edição do PISA apenas 18 apresentaram professores que
responderam os itens resultantes.
A seleção de atributos foi realizada aplicando­se a técnica RFE, que reduziu a quan­
tidade de atributos de 167 para 83, fato que, resultou na diminuição da complexidade do modelo
que é muito importante para otimização do uso de recursos computacionais.
Na etapa de modelagem dos dados foram aplicados os algoritmos de Decision Tree e
Randon Forest, com a técnica Holdout para a divisão de dados entre treinamento e teste. A partir
das matrizes de confusão geradas, para cada algoritmo aplicado foram extraídas as métricas
Precision Recall, F1­score, Acurácia e MCC visto que foi identificado que as classes para ambos
os testes eram desbalanceadas.
Através da métrica Precision foi possível avaliar a proporção em que o algoritmo
previu corretamente a classe alta em relação a todas as amostras que foram classificadas como
de alto desempenho, sendo que de todas as tentativas de previsão da classe alta o algoritmo
Randon Forest obteve os melhores resultados acertando cerca de 87% para matemática e 89%
para ciências da mesma forma que para as classes rotuladas com baixo desempenho obteve 90%
para matemática e 89% para ciências.
Com a métrica Recall, foi possível verificar a proporção de previsão correta para
alto desempenho em relação a todas as amostras que seriam realmente pertencentes à classe alta,
na qual na aplicação para o teste de matemática no Randon Forest obteve­se uma proporção de
89% para matemática e 97% para o teste de Ciências. Para as previsões de baixo desempenho
a taxa de Recall obteve resultados menores se comparados à classe alta, sendo de 89% para
matemática e 68% para ciências.
Em razão de que o F1­score é calculado a partir da média harmônica ponderada
das métricas Precision e Recall. Os melhores resultados dessa métrica também foram obtidos
através da Algoritmo Random Forest, sendo de 88% para matemática e 97% para ciências a
partir da perspectiva da classe de alto desempenho e 89% e 68% com a perspectiva da classe
baixo desempenho.
66

A taxa de acurácia avaliou a taxa de acerto geral dos modelos, medindo proporções
de acerto de todas as classes a serem previstas (desejável que esteja o mais próximo de 1 possí­
vel), apresentando os melhores resultados com a aplicação do algoritmo Random Forest sendo
de 88% para matemática e 89% para ciências.
Devido ao fato da abordagem de classificação binária e a constatação do desbalan­
çamento das classes, o MCC foi fundamental para avaliar a qualidade dos classificadores. Os
melhores resultados para o MCC foram obtidos também com o algoritmo Random Forest, sendo
de 0,76 para matemática e 0,71 para ciências. Levando­se em consideração que a escala para o
MCC varia de ­1 a 1, sendo 1 uma classificação perfeita, conclui­se que o modelo gerado pelo
Random Forest apresentou ter uma boa qualidade de previsão.
Ainda, através das métricas apresentadas, foi possível concluir, também, que os mo­
delos gerados têm melhores resultados para a previsão das classes de alto desempenho do que
das classes de baixo desempenho, ou seja, as chances de o modelo apresentar um predição cor­
reta para classes de alto desempenho é maior.
Com a aplicação dos algoritmos foi possível extrair as características mais influen­
ciadoras para a predição de desempenho do alunos. Foram apresentadas as 10 mais influencia­
doras do algoritmo que teve melhor taxa de acurácia e MCC para ambos os testes de matemática
e ciências.
Dentre as características encontradas, concluiu­se que para o teste de matemática as
principais características estão contextualizadas na valorização e motivação do aprendizado dos
alunos por parte dos professores e para ciências características relacionadas à capacitação do
professor, fato confirmado pela Figura 23 que demonstra a percepção por parte dos professores
de como capacidade de fornecer uma boa educação é prejudicada pela qualificação inadequada
ou insuficiente do corpo docente.
Para ambos os testes ainda foram encontradas características no contexto da tecnolo­
gia e relacionadas a idade do professor. Um possibilidade é de que essas características estejam
atreladas entre si até certo ponto, devido ao fato de que novas gerações de professores já vieram
ambientadas ao uso de tecnologias.
Com isso o presente trabalho cumpre seu propósito apresentando as suas descobertas
em relação às características dos professores que mais tiveram influência no desempenho dos
alunos.
7.1 Trabalhos Futuros
Com a flexibilidade que a Ciência de Dados nos trás, sugere­se para trabalhos fu­
turos a aplicação de diferentes técnicas nas etapas do projeto, por exemplo, metodologias de
de imputação de valores faltantes diferentes, técnicas de divisão de dados, aplicação de outros
modelos de Machine Learning bem como outras técnicas de seleção de atributos. Também se
sugere para trabalhos futuros o uso de uma variável dependente distinta, extrapolando seu con­
texto binário ou até mesmo uma mudança de abordagem para que o problema seja tratado com
regressão e não classificação.
67

REFERÊNCIAS
AGUIAR, G. a. S. Estudo Comparativo entre Brasil e Portugal , sobre Diferenças nas
Ênfases Curriculares de Matemática , a partir da Análise do Funcionamento Diferencial
do Item ( DIF ) do PISA 2003. Tese (Doutorado) — PUC­Rio, 2008.
AKSU, G.; GÜZELLER, C. O. Classification of PISA 2012 Mathematical Literacy Scores
Using Decision­Tree Method: Turkey Sampling. TED EĞİTİM VE BİLİM, v. 41, n. 185,
p. 101–122, jun 2016. ISSN 1300­1337. Disponível em: <http://egitimvebilim.ted.org.tr/
index.php/EB/article/view/4766>.
ALMEIDA, T. B. et al. Seleção de atributos usando abordagem Wrapper para classificação
hierárquica multirrótulo. Dissertação (Mestrado) — Universidade Tecnológica Federal do
Paraná, 2018.
ALTO, V. Visualizing SVM with Python. 2019. Disponível em: <https://medium.com/swlh/
visualizing­svm­with­python­4b4b238a7a92>. Acesso em: 13 de mai. de 2022.
ALVES, M. G. As dimensões formal, não­formal e informal em educação: visibilidade,
relevância e reinvenção na pesquisa e ação educativas. Medi@ ções, v. 2, n. 2, p. 115–132,
2014.
ALVES, R. D.; CECHINEL, C.; QUEIROGA, E. Predição do desempenho de Matemática
e Suas Tecnologias do ENEM utilizando técnicas de Mineração De Dados. In: Anais dos
Workshops do VII Congresso Brasileiro de Informática na Educação (CBIE 2018). [s.n.],
2018. v. 1, n. Cbie, p. 469. Disponível em: <http://br­ie.org/pub/index.php/wcbie/article/view/
8271>.
ALVIM, J. P. N. et al. Aplicação web para geração de modelos de automatizados de aprendizado
de máquina. Universidade Federal de Uberlândia, 2019.
ARAUJO, M. d. L. H. S. Avaliação Internacional: Concepções Inerentes Ao Pisa E Seus
Resultados No Brasil. XXVI Simpósio Brasileiro de Política e Administração da Educação,
p. 1–12, 2013.
ARAÚJO, R. M. d. Aprendizado de máquina em sistemas complexos multiagentes: estudo de
caso em um ambiente sob racionalidade limitada. 2004.
BAKKER, A.; BIEHLER, R.; KONOLD, C. Should young students learn about box plots.
Curricular development in statistics education: International Association for Statistical
Education, p. 163–173, 2004.
BERTOLINI, C.; PARREIRA, F. J.; CUNHA, G. B. d.; MACEDO, R. T. Linguagem de
programação i. Brasil, 2019.
BIANCHI, R. A. d. C. Uso de heurísticas para a aceleração do aprendizado por reforço.
Tese (Doutorado) — Universidade de São Paulo, 2004.
BORGES, L. E. Python para desenvolvedores: aborda Python 3.3. [S.l.]: Novatec Editora,
2014.
BORGONOVI, F.; CHOI, A.; PACCAGNELLA, M. The evolution of gender gaps in numeracy
and literacy between childhood and young adulthood. Economics of Education Review,
Elsevier Ltd, v. 82, n. November 2019, p. 102119, 2021. ISSN 02727757. Disponível em:
<https://doi.org/10.1016/j.econedurev.2021.102119>.
68

BRAMER, M. Avoiding overfitting of decision trees. Principles of data mining, Springer, p.


119–134, 2007.

BRASIL. PNA: Política Nacional de Alfabetização. Brasília. Brasília: MEC, SEALF, 2019.
54 p. ISBN 9786581002008.

BÜYÜKKIDIK, S.; BAKIRARAR, B.; BULUT, O. Comparing the performance of data


mining methods in classifying successful students with scientific literacy in pisa 2015. 2018.

CAMPETTI, P. H. d. M.; DORNELES, B. V. Uma revisão integrativa e exploratória da


literatura para os termos numeralização, numeramento e numeracia. Bolema: Boletim de
Educação Matemática, SciELO Brasil, v. 36, p. 308–331, 2022.

CANETTA, E.; RICHES, A.; BORGER, E.; HERRINGTON, S.; DHOLAKIA, K.; ADYA,
A. K. Discrimination of bladder cancer cells from normal urothelial cells with high specificity
and sensitivity: Combined application of atomic force microscopy and modulated Raman
spectroscopy. Acta Biomaterialia, Acta Materialia Inc., v. 10, n. 5, p. 2043–2055, 2014. ISSN
18787568. Disponível em: <http://dx.doi.org/10.1016/j.actbio.2013.12.057>.

CARVALHO, L. M. PISA, POLÍTICA E CONHECIMENTO EM EDUCAÇÃO. Educação


& Sociedade, v. 37, n. 136, p. 601–607, sep 2016. ISSN 0101­7330. Disponível em:
<http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101­73302016000300601&lng=
pt&tlng=pt>.

CASCAIS, M. d. G. A.; TERÁN, A. F. Educação formal, informal e não formal na educação


em ciências. Ciência em tela, v. 7, n. 2, p. 1–10, 2014.

CASTRO, M. H. G. D.; TIEZZI, S. A reforma do ensino médio e a implantação do


Enem no Brasil 1. Os desafios da educação no Brasil, p. 115–148, 2005. Disponível em:
<http://www.schwartzman.org.br/simon/desafios/4ensinomedio.pdf>.

CAVIQUE, L. Big data e data science. Boletim da APDIO, Associação Portuguesa de


Investigação Operacional, p. 11–14, 2014.

CAVIQUE, L. Uma nova taxonomia em data science. Maximus Report, GoBusiness Finance,
p. 92–93, 2014.

CORTEZ, P.; SILVA, A. Using data mining to predict secondary school student performance.
15th European Concurrent Engineering Conference 2008, ECEC 2008 ­ 5th Future
Business Technology Conference, FUBUTEC 2008, v. 2003, n. 2000, p. 5–12, 2008.

CUNHA, J. P. Z. Um estudo comparativo das técnicas de validação cruzada aplicadas a


modelos mistos. Tese (Doutorado) — Universidade de São Paulo, 2019.

CURTY, R. G.; CERVANTES, B. M. N. Data science: Ciência orientada a dados. Informação


& Informação, v. 21, n. 2, p. 1–4, 2016.

DALFOVO, M. S.; LANA, R. A.; SILVEIRA, A. Métodos quantitativos e qualitativos: um


resgate teórico. Revista interdisciplinar científica aplicada, v. 2, n. 3, p. 1–13, 2008.

DANTAS, D.; DONADIA, E. Comparação entre as técnicas de regressão logística, árvore de


decisão, bagging e random forest aplicadas a um estudo de concessão de crédito. Universidade
Federal Do Paraná, n. Trabalho de conclusão de curso apresentado, p. 18–20, 2013.
69

DATAFLAIR. Python Libraries – Python Standard Library & List of Important Libraries.
2021. Disponível em: <https://data­flair.training/blogs/python­libraries/>. Acesso em: 27 de
set. de 2021.

DOURADO, L. F.; OLIVEIRA, J. F. de; SANTOS, C. de A. A qualidade da educação conceitos


e definições. Textos para discussão, n. 24, p. 69–69, 2007.

FAJARDO, O. Pyreadstat’s Documentation. 2021. Disponível em: <https:


//ofajardo.github.io/pyreadstat_documentation/_build/html/index.html>. Acesso em:
27 de set. de 2021.

FARIA, G.; ROMERO, R. A. F. Navegação De Robôs Móveis Utilizando Aprendizado Por


Reforço E Lógica Fuzzy. 2002. 219–230 p.

FIGUEIRA, C. V. Modelos de regressão logística. 2006.

FILHO, A. D. P. C. Uso de big data em saúde no brasil: perspectivas para um futuro próximo.
Epidemiologia e Serviços de Saúde, SciELO Public Health, v. 24, p. 325–332, 2015.

FILHO, D. B. F.; JÚNIOR, J. A. S. Desvendando os mistérios do coeficiente de correlação de


pearson (r). Revista Política Hoje, v. 18, n. 1, p. 115–146, 2009.

FRANCESCHI, P. R. d. Modelagens preditivas de churn: o caso do banco do brasil.


Universidade do Vale do Rio dos Sinos, 2019.

GOHN, M. d. G. Educação não­formal, participação da sociedade civil e estruturas colegiadas


nas escolas. Ensaio: avaliação e políticas públicas em educação, SciELO Brasil, v. 14, p.
27–38, 2006.

GONZALEZ, L. d. A. Regressão logística e suas aplicações. Universidade Federal do


Maranhão, 2018.

GOROSTIAGA, A.; ROJO­ÁLVAREZ, J. L. On the use of conventional and statistical­


learning techniques for the analysis of PISA results in Spain. Neurocomputing, Elsevier,
v. 171, p. 625–637, 2016. ISSN 18728286. Disponível em: <http://dx.doi.org/10.1016/
j.neucom.2015.07.001>.

HARTWIG, F.; DEARING, B. E. Exploratory data analysis. [S.l.]: Sage, 1979.

HOYOS, R. de; ESTRADA, R.; VARGAS, M. J. What do test scores really capture?
Evidence from a large­scale student assessment in Mexico. World Development, Elsevier
Ltd, v. 146, p. 105524, oct 2021. ISSN 0305750X. Disponível em: <https://doi.org/10.1016/
j.worlddev.2021.105524https://linkinghub.elsevier.com/retrieve/pii/S0305750X21001364>.

IAVE. PISA. 2021. Disponível em: <https://iave.pt/estudo­internacional/pisa/>. Acesso em:


27 de set. de 2021.

INEP. Programa Internacional de Avaliação de Estudantes (Pisa). 2015. Disponível em:


<https://http://inep.gov.br/pisa>. Acesso em: 6 maio 2019.

INEP. Brasil no PISA 2015: análises e reflexões sobre o desempenho dos estudantes
brasileiros. São Paulo: [s.n.], 2016. Disponível em: <http://download.inep.gov.br/
acoes_internacionais/pisa/resultados/2015/pisa2015_completo_final_baixa.pdf>. Acesso em:
27­042020.
70

INEP. Pisa 2018 revela baixo desempenho escolar em leitura, matemática e ciências
no Brasil. 2019. Disponível em: <http://portal.inep.gov.br/artigo/­/asset_publisher/
B4AQV9zFY7Bv/content/pisa­2018­revela­baixo­desempenho­escolar­em­leitura­
matematica­e­ciencias­no­brasil/21206>. Acesso em: 16 de jun. de 2021.

INEP. Como selecionar as melhores features para seu modelo de Machine Learning. 2020.
Disponível em: <Histórico>. Acesso em: 03 de mai. de 2022.

INEP. Relatório Brasil no PISA 2018. Brasília­DF: Instituto Nacional de Estudos e Pesquisas
Educacionais Anísio Teixeira, 2020. v. 53. 185 p. ISSN 1098­6596. ISBN 978­65­5801­039­5.
Disponível em: <http://download.inep.gov.br/acoes_internacionais/pisa/documentos/2019/
relatorio_PISA_2018_preliminar.pdf>.

INEP, M. d. E. Programa Internacional de Avaliação de Estudantes (Pisa). 2015. Disponível


em: <http://inep.gov.br/pisa>. Acesso em: 25 abr. 2019.

INEP, M. d. E. Programa Internacional de Avaliação de Estudantes (Pisa). 2019. Disponível


em: <http://inep.gov.br/pisa>. Acesso em: 09 set. 2020.

INEP, M. d. E. Relatório Brasil no Pisa: Versão preliminar, 2018. Brasília­DF, 2019. 154 p.
Disponível em: <http://download.inep.gov.br/acoes_internacionais/pisa/documentos/2019/
relatorio_PISA_2018_preliminar.pdf>.

INEP, M. d. E. Exame Nacional do Ensino Médio (Pisa). 2020. Disponível em:


<http://portal.inep.gov.br/web/guest/enem>. Acesso em: 25 jun. 2020.

JUPYTER. The Jupyter Notebook. 2021. Disponível em: <https://jupyter.org/index.html>.


Acesso em: 06 de set. de 2021.

KUMAR, N. Introduction to Support Vector Machines (SVMs). 2021. Disponível em:


<https://www.marktechpost.com/2021/03/25/introduction­to­support­vector­machines­
svms/>. Acesso em: 13 de mai. de 2022.

KÜRZL, H. Exploratory data analysis: recent advances for the interpretation of geochemical
data. Journal of Geochemical Exploration, v. 30, n. 1­3, p. 309–322, 1988. ISSN 03756742.

LORENA, A. C.; CARVALHO, A. C. de. Uma introdução às support vector machines. Revista
de Informática Teórica e Aplicada, v. 14, n. 2, p. 43–67, 2007.

LUZ, J.; ARGENTON, P. Árvore de Regressão para Dados Censurados e Correlacionados.


78 p. Dissertação (Mestrado) — Universidade Estadual de Campinas, 2013.

MAIA, P. F.; JUSTI, R. Desenvolvimento de habilidades no ensino de ciências e o processo de


avaliação: análise da coerência. Ciência & Educação (Bauru), v. 14, n. 3, p. 431–450, 2008.
ISSN 1516­7313.

MALHEIROS, L. Detecção de posição e quedas corporais baseado em k­means clustering


ethreshold. 2017.

MARTÍNEZ­ABAD, F.; GAMAZO, A.; RODRÍGUEZ­CONDE, M. J. Educational Data


Mining: Identification of factors associated with school effectiveness in PISA assessment.
Studies in Educational Evaluation, v. 66, n. December 2019, 2020. ISSN 0191491X.
71

MARTINS, E. S. A etimologia de alguns vocábulos referentes à educação. Revista Olhares &


Trilhas. Rio de Janeiro, n. 6, 2005.
MASCI, C.; JOHNES, G.; AGASISTI, T. Student and school performance across
countries: A machine learning approach. European Journal of Operational Research,
Elsevier B.V., v. 269, n. 3, p. 1072–1085, 2018. ISSN 03772217. Disponível em:
<https://doi.org/10.1016/j.ejor.2018.02.031>.
MATOS, P. F.; LOMBARDI, L. d. O.; CIFERRI, R. R.; PARDO, T. A.; CIFERRI, C. D.;
VIEIRA, M. T. Relatório técnico “métricas de avaliaçao”. Universidade Federal de Sao
Carlos, 2009.
MATPLOTLIB. Matplotlib: Visualization with Python. 2021. Disponível em: <https:
//matplotlib.org/>. Acesso em: 27 de set. de 2021.
MATSUBARA, E. T. Relações entre ranking, análise ROC e calibração em aprendizado de
máquina. Tese (Doutorado) — Universidade de São Paulo, São Carlos, oct 2008. Disponível
em: <http://www.teses.usp.br/teses/disponiveis/55/55134/tde­04032009­114050/>.
MEDIUM. Ciclo de vida de um projeto de Data Science. 2018. Disponível em:
<https://medium.com/techbloghotmart/afinal­como­se­desenvolve­um­projeto­de­data­
science­233472996c34>. Acesso em: 16 de mai. de 2019.
MEDIUM. Ciclo de vida de um projeto de Data Science. 2020. Disponível em:
<https://medium.com/@lauradamaceno/regress\%C3\%A3o­linear­6a7f247c3e29>. Acesso
em: 04 de mai. de 2022.
MEDRI, W. Análise exploratória de dados. http://www. uel. br/pos/estatisticaedu­
cacao/textos_d idaticos/especializacao_estatistica. pdf Acesso em, v. 15, p. 05–13,
2011.
MICROSOFT. Preparar dados para aprendizado de máquina aprimorado. 2022.
Disponível em: <https://docs.microsoft.com/pt­br/azure/architecture/data­science­process/
prepare­data>. Acesso em: 02 de abri. de 2022.
MONARD, M. C.; BARANAUSKAS, J. A. Capítulo 5: Indução de Regras e Árvores de
Decisão. Sistemas Inteligentes Fundamentos e Aplicações, n. m, p. 57–74, 2003. Disponível
em: <http://labic.icmc.usp.br/publicacao/406>.
MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre Aprendizado de Máquina.
Sistemas inteligentes: fundamentos e aplicações, p. 89–114, 2003.
MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre aprendizado de máquina. In:
. Sistemas Inteligentes Fundamentos e Aplicações. 1. ed. Barueri­SP: Manole Ltda,
2003. p. 89–114. ISBN 85­204­168.
MULLIS, I. V.; MARTIN, M. O. TIMSS 2019 Assessment Frameworks. [S.l.]: ERIC, 2017.
NARGESIAN, F.; SAMULOWITZ, H.; KHURANA, U.; KHALIL, E. B.; TURAGA, D.
Learning Feature Engineering for Classification. In: Proceedings of the Twenty­Sixth
International Joint Conference on Artificial Intelligence. California: International Joint
Conferences on Artificial Intelligence Organization, 2017. v. 0, n. August, p. 2529–2535. ISBN
9780999241103. ISSN 10450823. Disponível em: <https://www.ijcai.org/proceedings/2017/
352>.
72

NUMPY. What is NumPy? 2021. Disponível em: <https://numpy.org/doc/stable/user/


whatisnumpy.html>. Acesso em: 27 de set. de 2021.

OCDE. PISA 2018 Results COMBINED EXECUTIVE SUMMARIES. OCDE, OECD, I, II e


II, 2019. Disponível em: <https://www.oecd­ilibrary.org/education/what­students­know­and­
can­do_g222d18af­en>.

OECD. “How PISA results are reported: What is a PISA score?”, in PISA 2018 Results
(Volume I): What Students Know and Can Do. In: . Paris: OECD Publishing, 2019. I, cap. 2, p.
41–47.

OECD. Where: Global reach. 2021. Disponível em: <https://www.oecd.org/about/members­


and­partners/>. Acesso em: 28 de set. de 2021.

OLIVEIRA, G. d.; PRATI, R. Ajuste de parâmetros em algoritmos de aprendizado de máquina


utilizando transferência de aprendizado. X Encontro Nacional de Inteligência Artificial e
Computacional (ENIAC), p. 3, 2013.

OLIVEIRA, T. S.; MARINHO, D. S.; BRITO, P. F. Avaliação do Módulo de Identificação


da Polaridade Geral dos Comentários do TripAdvisor®. Congresso de Computação e
Tecnologias da Informação, v. 1, n. 21, p. 35–44, 2019.

PACHECO, F.; RANGEL, C.; AGUILAR, J.; CERRADA, M.; ALTAMIRANDA, J.


Methodological framework for data processing based on the data science paradigm. In: IEEE.
2014 XL Latin American Computing Conference (CLEI). [S.l.], 2014. p. 1–12.

PANDAS. About pandas. 2021. Disponível em: <https://pandas.pydata.org/about/


index.html>. Acesso em: 27 de set. de 2021.

PARMEZAN, A. R. S.; LEE, H. D.; SPOLAÔR, N.; CHUNG, W. F. Avaliação de Métodos


para Seleção de Atributos Importantes para Aprendizado de Máquina Supervisionado
no Processo de Mineração de Dados. [S.l.]: dez, 2012.

PAULA, E. Análise condicionada da demanda de energia elétrica: aplicação a um caso real.


Rio de Janeiro, 2006.

PEDREGOSA, F.; VAROQUAUX, G.; GRAMFORT, A.; MICHEL, V.; THIRION,


B.; GRISEL, O.; BLONDEL, M.; PRETTENHOFER, P.; WEISS, R.; DUBOURG, V.;
VANDERPLAS, J.; PASSOS, A.; COURNAPEAU, D.; BRUCHER, M.; PERROT, M.;
DUCHESNAY, E. Scikit­learn: Machine learning in Python. Journal of Machine Learning
Research, v. 12, p. 2825–2830, 2011.

PETTERSSON, D.; MOLSTAD, C. E. PROFESSORES DO PISA: A ESPERANÇA E A


REALIZAÇÃO DA EDUCAÇÃO. [S.l.], 2016. v. 37, n. 136, 629–645 p. Disponível em:
<http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101­73302016000300629&lng=
pt&tlng=pt>.

PLOTLY. Plotly Open Source Graphing Libraries. 2021. Disponível em: <https:
//plotly.com/graphing­libraries/>. Acesso em: 05 de nov. de 2021.

PRATI, R.; BATISTA, G.; MONARD, M. Curvas roc para avaliação de classificadores.
Revista IEEE América Latina, v. 6, n. 2, p. 215–222, 2008.
73

RANGEL, M. d. M. Categorização automática de conjuntos de dados de portais de dados


abertos utilizando aprendizado de máquina supervisionado. Universidade Federal Fluminense,
2019.

RASCHKA, S. Model Evaluation, Model Selection, and Algorithm Selection in Machine


Learning. nov 2018. Disponível em: <http://arxiv.org/abs/1811.12808>.

RAUBER, T. W. Redes neurais artificiais. Universidade Federal do Espírito Santo, v. 29,


2005.

REBAI, S.; Ben Yahia, F.; ESSID, H. A graphically based machine learning approach
to predict secondary schools performance in Tunisia. Socio­Economic Planning
Sciences, Elsevier, v. 70, n. June 2019, p. 100724, 2020. ISSN 00380121. Disponível em:
<https://doi.org/10.1016/j.seps.2019.06.009>.

RIBEIRO, C. H. C. Aprendizado por Reforço. V Escola de Redes Neurais, p. 28–72, 1999.

ROCHER, E. D. S. K. M. L. J.­M. P. T.; BUREAU. CEDRE Cycle des Evaluations


Disciplinaires R’ealis’ees sur Echantillons Rapport Technique. [S.l.], 2014. 1–61 p.

ROKACH, L.; MAIMON, O. Top­Down Induction of Decision Trees Classifiers—A


Survey. IEEE Transactions on Systems, Man and Cybernetics, Part C (Applications
and Reviews), v. 35, n. 4, p. 476–487, nov 2005. ISSN 1094­6977. Disponível em:
<http://ieeexplore.ieee.org/document/1522531/>.

ROMANELLI, R. C. O vocabulário indo­europeu e seu desenvolvimento semântico. [S.l.]:


Editeur inconnu, 1964.

ROQUE, A. Elementos Básicos de Neurociência. p. 1–17, 2020.

ROSA, K. D. da; MARTINS, M. C. O letramento em ciências como objetivo para o ensino de


ciências. Sitientibus Série Ciências Físicas, v. 3, p. 10–17, 2007.

ROZA, B. E.; PEGORARO, M. A. G. Classificador de phishing utilizando algoritmo de naive


bayes. 004, 2020.

SAARELA, M.; YENER, B.; ZAKI, M. J.; KÄRKKÄINEN, T. Predicting Math Performance
from Raw Large­Scale Educational Assessments Data: A Machine Learning Approach. v. 48,
n. 1, p. 1–8, 2016.

SALLES, F.; Dos Santos, R.; KESKPAIK, S. When didactics meet data science:
process data analysis in large­scale mathematics assessment in France. Large­
scale Assessments in Education, Springer US, v. 8, n. 1, p. 7, dec 2020. ISSN
2196­0739. Disponível em: <https://doi.org/10.1186/s40536­020­00085­yhttps://
largescaleassessmentsineducation.springeropen.com/articles/10.1186/s40536­020­00085­y>.

SANTANA, F. B. de. Floresta Aleatória Para Desenvolvimento De Modelos Multivariados


De Classificação E Regressão Em Química Analítica. 139 p. Tese (Doutorado) —
UNIVERSIDADE ESTADUAL DE CAMPINAS, 2020.

SANTOS, C. N. dos. Aprendizado de máquina na identificação de sintagmas nominais: o


caso do português brasileiro. Tese (Doutorado) — Instituto Militar de Engenharia, 2005.
74

SANTOS, H. G. d.; NASCIMENTO, C. F. d.; IZBICKI, R.; DUARTE, Y. A. d. O.; FILHO, P.


C.; DIAS, A. Machine learning para análises preditivas em saúde: exemplo de aplicação para
predizer óbito em idosos de são paulo, brasil. Cadernos de Saúde Pública, SciELO Public
Health, v. 35, p. e00050818, 2019.

SAUPE, R.; BUDÓ, M. d. L. D. Pedagogia interdisciplinar:”educare”(educação e cuidado)


como objeto fronteiriço em saúde. Texto & Contexto­Enfermagem, SciELO Brasil, v. 15, p.
326–333, 2006.

SCHLEICHER, A. PISA 2018 insights and interpretations. OECD Pu­


blishing, p. 64, 2019. Disponível em: <https://www.oecd.org/pisa/
PISA2018InsightsandInterpretationsFINALPDF.pdf>.

SCHREIBER, J. N. C.; BESKOW, A. L.; MÜLLER, J. C. T.; NARA, E. O. B.; SILVA, J. I. D.;
REUTER, J. W. Técnicas de validação de dados para sistemas inteligentes: Uma abordagem
do software sdbayes. 2017.

SILVA, L. Uma aplicação de árvores de decisão, redes neurais e knn para a identificação
de modelos arma não sazonais e sazonais. Rio de Janeiro. 145p. Tese de Doutorado­
Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de
Janeiro, 2005.

SILVA, L. C. et al. Aprendizado de máquina com treinamento continuado aplicado à previsão


de demanda de curto prazo: o caso do restaurante universitário da universidade federal de
uberlândia. Universidade Federal de Uberlândia, 2019.

SILVA, L. M. O. da. Uma Aplicação de Árvores de Decisão, Redes Neurais e KNN para a
Identificação de Modelos ARMA Não­Sazonais e Sazonais. Tese (Doutorado) — PUC­Rio,
2005.

SILVA, R. O. B. da; CAPELA, J. M.; CAPELA, M. V. Estudo de distribuições de probabilidade:


Simulação e aplicação. Proceeding Series of the Brazilian Society of Computational and
Applied Mathematics, v. 2, n. 1, 2014.

SILVA, T. A. Como interpretar as métricas Precisão, Revocação, Acurácia e Medida­F.


2018. Disponível em: <https://tiago.blog.br/precisao­revocacao­acuracia­e­medida­f/>.
Acesso em: 18 de mai. de 2022.

SIMON, A.; CAZELLA, S. C. Mineração de Dados Educacionais nos Resultados do ENEM


de 2015. n. Cbie, p. 754–763, 2017.

SINGH, S.; GUPTA, P. Comparative study id3, cart and c4. 5 decision tree algorithm: a
survey. International Journal of Advanced Information Science and Technology (IJAIST),
Citeseer, v. 27, n. 27, p. 97–103, 2014.

SOUZA, N. A. d. Aumentando o poder preditivo de classificadores lineares através de


particionamento por classe. Universidade Federal de São Carlos, 2018.

STEARNS, B.; RANGEL, F.; FIRMINO, F.; RANGEL, F.; OLIVEIRA, J. Prevendo
desempenho dos candidatos do enem através de dados socioeconômicos. In: SBC. 36º
Concurso de Trabalhos de Iniciação Científica (CTIC 2017). [S.l.], 2017. v. 36, n. 1/2017.
75

STEARNS, B.; RANGEL, F.; FIRMINO, F.; RANGEL, F.; OLIVEIRA, J. Prevendo
Desempenho dos Candidatos do ENEM Através de Dados Socioeconômicos. Congresso da
Sociedade Brasileira de Computação, p. 2522–2530, 2017.

THURLOW, M. Large Scale Assessment and Accountability and Students with Special Needs.
In: International Encyclopedia of Education. Elsevier, 2010. p. 752–758. Disponível em:
<https://linkinghub.elsevier.com/retrieve/pii/B9780080448947011581>.

TISSOT, H. C.; CAMARGO, L. C.; POZO, A. T. Treinamento de redes neurais feedforward:


comparativo dos algoritmos backpropagation e differential evolution. In: Brazilian
Conference on Intelligent Systems. [S.l.: s.n.], 2012.

TRIPATHY, A.; AGRAWAL, A.; RATH, S. K. Classification of Sentimental Reviews


Using Machine Learning Techniques. Procedia Computer Science, Elsevier Masson SAS,
v. 57, p. 821–829, 2015. ISSN 18770509. Disponível em: <http://dx.doi.org/10.1016/
j.procs.2015.07.523>.

VASCONCELLOS, P. Como selecionar as melhores features para seu modelo de Machine


Learning. 2019. Disponível em: <https://paulovasconcellos.com.br/como­selecionar­as­
melhores­features­para­seu­modelo­de­machine­learning­2e9df83d062a>. Acesso em: 16 de
nov. de 2021.

VILLARREAL, J.; LóPEZ, C. U.; DIAZ, J.; NAVARRO, A. Secure learning para detección de
android malware. 06 2019.

WASKOM, M. seaborn: statistical data visualization. 2021. Disponível em: <https:


//seaborn.pydata.org/>. Acesso em: 27 de set. de 2021.

WEBB, G. I. Encyclopedia of Machine Learning and Data Mining. Boston, MA: Springer
US, 2016. ISBN 978­1­4899­7502­7. Disponível em: <https://link.springer.com/10.1007/978­
1­4899­7502­7>.

WERLE, F. O. C. Avaliação em larga escala: foco na escola. [S.l.]: Oikos Editora, 2010.

WILAMOWSKI, B. Neural network architectures and learning algorithms. IEEE Industrial


Electronics Magazine, v. 3, n. 4, p. 56–63, dec 2009. ISSN 1932­4529. Disponível em:
<http://ieeexplore.ieee.org/document/5352485/>.

WITTEN, I. H.; FRANK, E.; HALL, M. A.; PAL, C. J. Data mining: Practical machine
learning tools and techniques. In: . Data Mining: Practical machine learning tools and
techniques. 4. ed. Cambridge­MA,United States: Morgan Kaufmann, 2016. p. 56–65.

YIU, T. Understanding Random Forest. How the Algorithm Works and Why it Is… | by
Tony Yiu | Towards Data Science. 2019. Disponível em: <https://towardsdatascience.com/
understanding­random­forest­58381e0602d2>. Acesso em: 27 de jul. de 2021.

ZHANG, H. The optimality of naive bayes. Faculty of Computer Science ­ University of


New Brunswick, v. 1, n. 2, p. 6, 2004.

ZHENG, A.; CASARI, A. Feature engineering for machine learning: principles and
techniques for data scientists. [S.l.]: ”O’Reilly Media, Inc.”, 2018.
76

Você também pode gostar