Escolar Documentos
Profissional Documentos
Cultura Documentos
Diamantina
2022
Rochelly Fernandes Andrade
Diamantina
2022
RESUMO
A educação está presente e ligada a várias áreas de interesse público. Sabendose dessa impor
tância, Avaliações em Larga Escala são aplicadas em diversos países, objetivando servirem de
indicadores desses quadros educacionais, bem como, monitorar as habilidades cognitivas rela
cionadas à literacia e à numeracia. O presente estudo aplicou técnicas de Ciência de Dados,
uma área multidisciplinar, que envolve, principalmente aprendizado de máquina e estatística,
sobre dados coletados pelo questionário aplicado aos professores durante a Avaliação em Larga
Escala do Programa Internacional de Avaliação de Estudantes, edição 2018. O trabalho buscou
identificar quais características, coletadas pelo questionário aplicado aos professores, têm mais
impacto sobre o desempenho dos alunos nas avaliações de matemática e ciências. O trabalho
aplicou dois modelos de aprendizado supervisionado, o Decision Tree e o Random Forest, nos
quais a variável dependente foi elaborada com base nas notas médias dos países participantes
e nos níveis de proficiência. Os modelos foram aplicados implementando o algoritmo CART
com critério de classificação Gini, na qual os dados foram divididos através da técnica Holdout
com 70% dos dados para treinamento e 30%. A seleção de atributos foi realizada aplicando o
método Recursive Feature Elimination, que reduziu a quantidade de atributos de 167 para 83.
As instâncias com dados faltantes não foram utilizadas nesta pesquisa. O Matthews Correlation
CoefficientMCC avaliou a qualidade geral dos modelos sendo utilizado como principal meio
de comparação de desempenho de classificação, tendo em vista a constatação de desbalancea
mento das classes. Com o MCC observouse que, de maneira geral o Random Forest obteve
os melhores desempenhos com 0,76 para o teste de matemática e 0,71 para ciências. Com o
modelo gerado pelo algoritmo Random Forest, identificaramse as principais características in
fluenciadoras de desempenho, em que se destacaram características relacionadas à tecnologia
e, principalmente ao incentivo dado aos alunos pelos professores relacionados à motivação e
valorização do aprendizado e capacitação dos professores.
FN Falso Negativo
FP Falso Positivo
IA Inteligência Artificial
ML Machine Learning
RF Random Forest
VN Verdadeiro Negativo
VP Verdadeiro Positivo
SUMÁRIO
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3 REFERENCIAL TEÓRICO . . . . . . . . . . . . . . . . . . . . . . . . 12
3.1 A Educação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Programme for International Student Assessment PISA . . . . . . . . 14
3.2.1 OCDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.2 PISA edição 2018 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.3 Brasil no PISA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.3.1 Resultados Brasileiros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.3.2 Níveis de Desempenhos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Ciência de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3.1 Préprocessamento de Dados . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3.2 Análise exploratória de dados . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.3 Feature engineering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.4 Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3.5 Modelos de Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . 25
3.3.5.1 Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3.5.2 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.5.3 Logistic Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.5.4 Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.5.5 Decision Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.5.6 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.5.7 Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.6 Conjunto de Treinamento, Validação e Teste . . . . . . . . . . . . . . . . 35
3.3.7 Métodos de avaliação de modelos . . . . . . . . . . . . . . . . . . . . . . 35
3.3.7.1 Matriz de Confusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . . 39
4.1 Descrição dos Trabalhos . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1.1 Classification of PISA 2012 mathematical literacy scores using decision
tree method: Turkey sampling . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.2 On the use of conventional and statisticallearning techniques for the
analysis of PISA results in Spain . . . . . . . . . . . . . . . . . . . . . . . 40
4.1.3 Predicting math performance from raw largescale educational assess
ments data: a machine learning approach . . . . . . . . . . . . . . . . . . 41
9
5 MATERIAIS E MÉTODOS . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.1 Ferramentas para Ciência de Dados . . . . . . . . . . . . . . . . . . . . 47
5.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.2.1 Aquisição dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2.2 Compreensão dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2.3 Análise Exploratória de Dados . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2.4 Tratamento de dados faltantes . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.5 A Variável Dependente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.6 Feature Engineering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2.7 Modelagem de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2.8 Avaliação dos Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.1 Avaliação dos Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.2 Feature Importances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
7 CONCLUSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
7.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
10
1 INTRODUÇÃO
A educação está presente e ligada a várias áreas de interesse coletivo.Sabendose
dessa importância, Avaliações em Larga Escala ou LargeScale Assessments LSAs são apli
cadas em diversos países, objetivandose identificar tais cenários educacionais, bem como mo
nitorar as habilidades cognitivas relacionadas à literacia e à numeracia (HOYOS; ESTRADA;
VARGAS, 2021).
Para o Brasil, assim como outros países, é de suma importância compreender a real
situação de seus sistemas educacionais para promover mudanças que possam visar a melhoria da
educação. O Programa Internacional de Avaliação de Alunos ou Programme for International
Student Assessment PISA promovido pela Organização para a Cooperação e Desenvolvimento
Econômico OCDE (Organisation for Economic Cooperation and Development OECD) que
é aplicado em diversos países, possui exatamente o objetivo de produzir indicadores de quadros
educacionais dos países participantes (INEP, 2015).
Além das avaliações em ciências, leitura e matemática, o PISA realiza coletas de
dados relacionados aos alunos, escolas e professores, bem como, variáveis demográficas e soci
oeconômicas através de questionários (INEP, 2016). Os dados coletados sãos disponibilizados
pela OCDE para a realização de estudos, em que técnicas e tecnologias possam ser utilizadas
sobre tais dados para extração de informações relevantes sobre fatores determinantes de desem
penho, bem como outros insigts relacionados à educação.
Segundo INEP (2019) os resultados do Brasil no PISA 2018 são preocupantes, pois,
nas três áreas de conhecimento avaliadas, apresentouse uma baixa proficiência, comparando
se aos 78 países participantes do PISA. O ano avaliado identificou que 68,1% dos estudantes
em matemática, 55% em ciências e 50% em leitura não possuem o nível básico necessário para
exercício pleno da cidadania.
Tais resultados, indicam o grave cenário educacional que o Brasil enfrenta nas três
áreas de conhecimento. Nesse sentido, pesquisas para a melhoria desses resultados são impres
cindíveis. Tendo em vista tal necessidade, este trabalho se propõe à utilização de técnicas da
Ciência de Dados, para a extração de conhecimento dos dados oriundos do PISA 2018, com o
intuito de identificar características do questionário contextual, aplicado aos professores, que
tem relevância sobre os resultados dos alunos nas avaliações de matemática e ciências.
11
2 OBJETIVOS
Este trabalho tem como objetivo descobrir quais características coletadas pelo questi
onário, aplicado aos professores no PISA edição 2018, têm mais influência sobre o desempenho
dos alunos nas avaliações de matemática e ciências através da aplicação de técnicas da Ciência
de Dados.
Os resultados dessa pesquisa têm o intuito de servir de base para elaboração e/ou
otimização de políticas educacionais do Brasil, em uma tentativa de contribuição para a melhoria
do quadro atual da educação brasileira.
Dessa maneira, este estudo busca responder à seguinte questão:
• Quais variáveis dos dados coletados pelo questionário dos professores mais impactam no
desempenho em matemática e ciência dos alunos que foram avaliados pelo PISA 2018?
2.1 Objetivos Específicos
Para que o objetivo geral seja alcançado este trabalho visa contemplar os seguintes
objetivos específicos:
• Apresentar definições relacionadas ao teste do PISA e à Ciência de Dados.
• Relatar a situação dos resultados do Brasil mediante ao PISA 2018.
• Apresentar alguns trabalhos relacionados à temática dessa pesquisa.
• Aplicar técnicas da Ciência de Dados aos dados obtidos pelo questionário respondido
pelos professores no PISA edição 2018.
• Analisar e interpretar os resultados obtidos com as técnicas da Ciência de Dados.
• Identificar as características que mais influenciam no desempenho dos alunos no PISA
nos testes de matemática e ciências.
12
3 REFERENCIAL TEÓRICO
Para melhor compreensão da metodologia adotada neste trabalho, este capítulo
busca apresentar uma base teórica acerca dos conceitos relacionados ao contexto da Educação,
PISA e Ciência de dados.
3.1 A Educação
A educação é uma prática social que se mantém presente em vários cenários e cir
cunstâncias, da vida do ser humano (DOURADO; OLIVEIRA; SANTOS, 2007). A palavra
educação é derivada do verbo educar que em latim é educare, palavra essa, que é formada pelos
termos e ou ex equivalendo a “de dentro de, para fora” e o ducere que significa “tira”, “levar”
(SAUPE; BUDÓ, 2006), “conduzir” ou “guiar”, em que o uso da palavra educare em latim de
signava o sentido de “criar”, “nutrir” e “fazer crescer” (MARTINS, 2005 apud ROMANELLI,
1964).
Sob uma perspectiva etimológica, educação pode ser entendida como processo de
retirar da pessoa algo que está presente nela, sendo o processo de desenvolvimento de um indi
víduo com aquilo já presente nele, porém, este significado do terno evoluiu através do tempo
(SAUPE; BUDÓ, 2006). De modo geral, a educação tem o propósito de preparar o ser humano
para se desenvolver ao longo da vida em diversos aspectos e contextos (CASCAIS; TERÁN,
2014).
O conceito de educação não se restringe ao contexto escolar, Gohn (2006, p.28) cita
a existência de três tipos de educação sendo, a educação formal, informal e não formal. A autora
faz a seguinte diferenciação, entre elas:
Por muito tempo a educação, informal e nãoformal não tiveram sua devida impor
tância e valorização reconhecida, fato esse que vem mudando e, desde a última metade do século
XX, vem ganhando a visibilidade visto que são parte crucial na vida e no desenvolvimento do
ser humano (ALVES, 2014).
Um termo comumente vinculado à Educação é o termo alfabetização que, segundo
Brasil (2019) muitas vezes é usado erroneamente causando confusões, visto que deriva do al
fabeto, porém, costuma ser interpretado como aprendizagem inicial. A Política Nacional de
Alfabetização PNA define Alfabetização como “o ensino das habilidades de leitura e de es
crita em um sistema alfabético”(BRASIL, 2019, p.18).
Devido ao fato de que a alfabetização está ligada a sistemas de linguagem que têm
por base somente o alfabeto, o termo se torna pouco abrangente, então, para se referir a outros
sistemas de escrita mesmo que não seja o alfabético, como por exemplo o ideográfico, cujo
termo Literacia é mais adequado (BRASIL, 2019, p.18). .
13
A Literacia pode ser interpretada como uma série de fatores como habilidades e
conhecimentos que envolvem a leitura e escrita, sendo fundamental para o exercício pleno da
cidadania. A Literacia é dividida em 3 níveis (BRASIL, 2019):
• Literacia Básica também chamada de literacia emergente, envolve a aquisição de conhe
cimento para desenvolvimento de habilidade fundamentais para a alfabetização.
• Literacia intermediária habilidades mais avançadas como ortografia, compreensão de
texto e leitura oral.
• Literacia disciplinar habilidade direcionada a conteúdos educacionais específicos.
A partir da Literacia surgiu a “Literacia matemática” visto que no processo de es
colarização também era necessário o desenvolvimento de habilidades em matemática, que em
inglês numerical literacy foi popularizado como “numeracy” (BRASIL, 2019). Em português
o termo foi traduzido como numeralização, numeramento e numeracia (CAMPETTI; DORNE
LES, 2022).
Segundo Brasil (2019, p.24), a numeracia “não se limita à habilidade de usar nú
meros para contar, mas, se refere antes à habilidade de usar a compreensão e as habilidades
matemáticas para solucionar problemas e encontrar respostas para as demandas da vida cotidi
ana”.
Borgonovi, Choi e Paccagnella (2021) citam que numeracia e literacia são habili
dades fundamentais que influenciam diretamente em questões salariais do mercado de trabalho
moderno, reforçando, assim, a importância de se estar atento a tais questões cognitivas.
Ainda, a partir da palavra em inglês literacy surgiu o termo Letramento (ROSA;
MARTINS, 2007). O conceito de letramento vai além das habilidades de ler e escrever, visto
que engloba a sua aplicação em práticas sociais.
Para avaliação a consolidação do letramento em diversos cenários por muitas vezes
são utilizadas as chamadas Avaliações em Larga Escala. Podese definir como Avaliações em
Larga Escala ou Largescale Assessments LSAs testes e/ou questionários aplicados a um grande
número de estudantes simultaneamente (THURLOW, 2010). No Brasil, há várias modalidades
de Avaliações em Larga Escala focadas em diferentes contextos, dentre essas estão (WERLE,
2010):
• Avaliação Nacional da Educação Básica ANEB;
• Avaliação Nacional do Rendimento Escolar Anresc;
• Exame Nacional de Certificação de Competências de Jovens e Adultos ENCCEJA;
• Prova Brasil;
• Exame Nacional de Ensino Médio ENEM;
• Provinha Brasil.
Fora do contexto brasileiro, outros países utilizam das LSAs como indicadores de
progresso de quadros educacionais como por exemplo o National Assessement of Education
Progress – NAEP nos Estados Unidos (MAIA; JUSTI, 2008) e o Cycle des Évaluations Disci
plinaires Réalisées sur Échantillon CEDRE na França (ROCHER; BUREAU, 2014).
14
mundo que está em constante transformação, avaliando, então, a capacidade para a participação
efetiva do aluno na sociedade.
Cada vez mais, gestores utilizam resultados de pesquisa com o PISA para tomadas
de decisão referente à educação, como por exemplo, o Plano Nacional de Educação (PNE) para
o estabelecimento de metas de melhoria de desempenho dos alunos (INEP, 2016).
3.2.1 OCDE
A Organização para a Cooperação e Desenvolvimento Econômico OCDE foi cri
ada em 1960 por 18 países europeus e dois países norteamericanos (Estados Unidos e Canadá)
com o objetivo de unir forças na dedicação ao desenvolvimento econômico. Atualmente é com
posta por 38 países, conforme apresenta a Tabela 2.
Tabela 5 – Resultados médios do Brasil x resultados médios dos países membros da OCDE PISA
2018
Média Brasil Média OCDE
Matemática 384 492
Leitura 413 487
Ciências 404 489
etc, ou seja, qualquer registro que possa atrapalhar a etapas posteriores. Nessa etapa é
importante compreender como os dados estão estruturados, notações, simbologias, mape
amento de chave valor, etc (WITTEN et al., 2016).
• Análise exploratória de dados: são aplicadas técnicas estatísticas de grande variedade
gráfica, quantitativas e qualitativa a fim de resumir os dados para análise, interpretação e
extração de conclusões (MEDRI, 2011).
• Feature Engineering: nessa etapa o cientista de dados analisa quais informações podem
ser retiradas ou agrupadas com o objetivo de simplificar a base de dados. Algumas ca
racterísticas podem ser eleitas para representar um conjunto de outras (STEARNS et al.,
2017a).
• Modelagem de dados: são implementados e aplicados modelos estatísticos e de apren
dizado de máquina (por exemplo, modelos de classificação e clusterização) para validar
uma hipóteses (MEDIUM, 2018).
• Apresentação das descobertas: os resultados devem ser apresentados de maneira clara e
compreensível, tendo em conta que, um dos determinantes do sucesso da ciência de dados
é a boa comunicação com o público alvo.
• Utilização do conhecimento: essa é a fase final do projeto de ciência de dados. Aqui o
conhecimento que foi adquirido é aplicado em um determinado contexto para solucionar
problemas que foram especificados na primeira etapa do projeto.
Para melhor compreensão, a Figura 1 apresenta as etapas que podem compor o pro
cesso de um projeto de Ciência de Dados.
• Filtro: essa técnica não usa um algoritmo de classificação para selecionar os melhores
atributos, mas sim, alguns critérios que refletem características da própria base de dados
para “filtrar”as melhores features (PARMEZAN et al., 2012).
• Embedded (Incorporado): nessa abordagem os atributos são selecionados durante a fase
de treinamento do modelo, no qual de modo geral, cada algoritmo apresenta sua própria
técnica de seleção de atributos(ALMEIDA et al., 2018).
• Recursive Feature Elimination RFE que seleciona recursivamente as melhores features
através de índices de importância ou correlação de atributos extraídos de um determinado
modelo de aprendizado de máquina que é passado como parâmetro. Outro parâmetro
necessário é a quantidade de features esperada como resultado. A escolha de ambos os
parâmetros fica a critério do utilizador da técnica. Nessa abordagem, o algoritmo irá exe
cutar o processo de treinamento do modelo e remoção das features menos importantes
várias vezes até que a quantidade seja igual a quantidade recebida como parâmetro (VAS
CONCELLOS, 2019). Uma desvantagem dessa técnica é seu alto custo computacional,
visto que o modelo é treinado várias vezes para a remoção das features.
Para Nargesian et al. (2017), a Feature Engineering é uma etapa que aprimora o
desempenho da modelagem de dados, sendo uma tarefa central que precede a aprendizagem da
máquina envolvendo aplicação de funções de transformação que geram novos recursos, que por
sua vez levam ao aprimoramento do modelo. Essas técnicas podem ser utilizadas ainda para
diminuir a complexidade dos modelos diminuindo, assim, requisitos computacionais exigidos.
3.3.4 Aprendizado de Máquina
Aprendizado de Máquina é uma área de estudo da Inteligência Artificial ( um ramo
da ciência da computação que se refere amplamente à qualquer comportamento de uma máquina,
ou sistema que imita o comportamento humano) com foco em desenvolver técnicas de aprendi
zado computacional. Para tanto, são utilizados sistemas de aprendizado, que são softwares que
tomam decisões a partir de experiências acumuladas de problemas anteriormente solucionados
(SANTOS, 2005).
O Aprendizado de Máquina ou Machine Learning é amplamente utilizado em mui
tas áreas que utilizam recursos computacionais, como por exemplo, na área de classificação,
reconhecimento de padrões e jogos (BIANCHI, 2004). Além disso os sistemas de aprendizado
podem ser ser utilizados com a finalidade de reproduzir ou simular outros tipos de aprendizados,
dentre eles o aprendizado humano (ARAÚJO, 2004).
Uma atividade importante para ajudar a melhorar a qualidade dos resultados é a
escolha em número e qualidade dos exemplos(exemplos que não retratam a realidade) que são a
base de aprendizado, uma má escolha de tais exemplos pode gerar resultados que não retratam
a realidade da previsão, podendo gerar overfitting ou underfitting.
Em casos de overfitting os resultados para o grupo de treinamento é excelente, mas,
para os dados de teste é ruim. Já para o underfitting o resultado do modelo é ruim na própria
fase de treinamento (MALHEIROS, 2017).
25
y = a + bx. (1)
Uma regressão linear pode ser dada de duas formas: simples quando há somente
uma variável independente e múltipla quando há mais de uma variável independente, podendo
ser aplicada tanto em problemas de regressão, quando em problemas de classificação (MEDIUM,
2020).
A aplicação desse algoritmo é indicada quando existe uma correlação linear rele
vante entre as variáveis. Essa correlação pode ser mensurada através do Coeficiente de Corre
lação de Pearson que determina a relação entre os valores de x e os valores de y, variando de
entre 1 e 1 (MEDIUM, 2020). O Coeficiente de Correlação de Pearson r é dado pela equação
(FILHO; JÚNIOR, 2009)
1 xi − x̄ yi − ȳ
r=
n−1 ∑(
sx
)(
sy
). (2)
não é afetado pela quantidade de exemplos de classificação, mas, somente pela quantidade de
atributos.
Outra característica muito interessante desse algoritmo é seu comportamento diante
da base de dados com dados faltantes. Quando um atributo de uma instância está faltando os
atributos de outras instâncias são utilizados, fato que resulta em uma degradação suave no de
sempenho (WEBB, 2016).
A técnica foi baseada no teorema de Bayes do matemático Thomas Bayes e segue
equação (ROZA; PEGORARO, 2020)
P(B|A)P(A)
(A|B) = . (3)
P(B)
Na Equação 3 temos:
• P(A|B): Probabilidade do evento A ocorrer dado que o evento B ocorreu.
• P(B|A): Probabilidade do evento B ocorrer dado que o evento A ocorreu.
• P(A): Probabilidade do evento A ocorrer.
• P(B): Probabilidade do evento B ocorrer.
Sob uma perspectiva de um problema de classificação podemos entender o Teorema
de Bayes com a equação (ZHANG, 2004)
p(E|c)p(c)
p(c|E) = . (4)
p(E)
Dessa maneira, na Equação 4, E representa uma dupla de atributos (x1 , x2 , ..., xn ) na
qual xi é o valor da variável dependente X, e c é o valor da classe, ou seja, da variável dependente.
Partindose do pressuposto de que a base de dados de um determinado problema já
esteja classificada, o funcionamento do algoritmo inicia o treinamento com o cálculo da frequên
cia dos atributos em relação às classes e com essa informação é calculada a probabilidade de
um determinado valor de X pertencer uma determinada classe de Y . A classe que tiver maior
probabilidade em relação ao atributo de X é a classe escolhida pelo classificador (ROZA; PE
GORARO, 2020).
3.3.5.3 Logistic Regression
Apesar do nome, o modelo de Logistic Regression ou Regressão Logística não tem a
finalidade de prever um valor numérico, mas sim, um rótulo ou classe, sendo assim um algoritmo
de classificação e não de regressão.
Para esse tipo de modelo, as classes podem ser definidas de acordo com contexto
do problema em questão, no qual a variável dependente pode ser de natureza nominal ou ordi
nal. Quando existe uma certa ordem ou grau na variável dependente a natureza do problema é
ordinal, quando não existe tal ordem a variável é de natureza nominal (FIGUEIRA, 2006). Um
exemplo de variável dependente de natureza ordinal seria o grau ou estágio de uma determinada
doença e um exemplo de natureza nominal seria a variável dependente utilizada para determinar
a existência, ou não, de uma doença.
28
A Regressão Logística pode ser univariada, quando o problema apresenta duas clas
ses a serem preditas e um único atributo como variável independente, ou múltipla, na qual o
problema em questão possui mais de um atributo como variável independente (GONZALEZ,
2018).
Esse algoritmo é geralmente aplicado a problemas binários (duas classes), nos quais
em problemas com mais de duas classes é necessário realizar uma adaptação das classes para
a aplicação desse técnica, fazendo com que a variável dependente Y siga a distribuição de Ber
noulli (GONZALEZ, 2018).
A distribuição de Bernoulli ocorre quando o processo aleatório dá origem a apenas
dois valores discretos e (SILVA; CAPELA; CAPELA, 2014). Um exemplo dessa distribuição
seria
1, em caso de êxito;
Y= (5)
0, em caso de falha.
Após isso os dados são separados conforme a Figura 7 e depois é realizada uma
transformação inversa. Baseado na nova divisão dos dados, o modelo classifica as novas entra
das.
Luz e Argenton (2013) ressaltam que o uso de Descision Tree apresenta uma des
vantagem relacionada a sua instabilidade, devido ao fato de que, pequenas alterações na amostra
podem resultar em grandes modificações na árvore, alterando a complexidade dela. Outro pro
blema comum ao se trabalhar com Descision Tree é o overfitting em que são realizados ajustes
excessivos produzindo um grande número de regras, podendo resultar em uma degradação do
seu poder preditivo (BRAMER, 2007, p.219).
Para contornar o problema de sobreajuste ou overfiting podese utilizar uma técnica
chamada de poda ou pruning que consiste em controlar o tamanho da árvore antes ou depois
do término da sua construção, sendo denominada prépodagem e póspodagem respectivamente
(SILVA, 2005).
32
parados com os valores esperados que resultam no cálculo do erro que é propagado na rede para
que o ajuste dos pesos seja executado. Esse procedimento é realizado de maneira interativa com
a finalidade de reduzir a diferença da saída corrente e o valor esperado (TISSOT; CAMARGO;
POZO, 2012).
3.3.6 Conjunto de Treinamento, Validação e Teste
Como visto, existem várias técnicas para a criação dos modelos de aprendizado de
máquina. No entanto, os modelos de aprendizado supervisionado passam por processos que
envolvem o treinamento, ajuste e avaliação. Para tanto, os dados devem ser divididos em três
conjuntos (SANTOS et al., 2019):
• Treinamento: esse conjunto de dados se destina ao ajuste dos parâmetros do modelo (AL
VIM et al., 2019).
• Validação: conjunto de dados utilizado para ajustar os parâmetros oriundos do conjunto
de treinamento (ALVIM et al., 2019). Através desse conjunto de dados os modelos são
avaliados e o que tem melhor resultado é escolhido (SILVA et al., 2019).
• Teste: através desse conjunto a capacidade de generalização pode ser avaliada (SILVA et
al., 2019).
Para realizar a divisão dos dados algumas técnicas podem ser aplicadas, dentre elas
existe a Holdout.
A Holdout ou validação simples é uma técnica que divide a amostra em duas partes
e uma proporção dessa amostra é utilizada como validação (CUNHA, 2019), ou seja, uma parte
das amostras é destinada ao treinamento do modelo e a outra é destinada à validação para medir a
capacidade/desempenho de predição do modelo (ALVIM et al., 2019). Geralmente nessa técnica
a parte destinada ao treinamento é maior que 50% (MONARD; BARANAUSKAS, 2003b). A
Figura 12 demonstra um exemplo de divisão de dados com 70% para treinamento e 30% para
teste.
É importante salientar que o Holdout pode ser utilizado, tanto no processo de divisão
de dados para validação(fase de ajuste de parâmetros), quanto no processo de teste.
3.3.7 Métodos de avaliação de modelos
Após a criação de um modelo, ele deve ser avaliado. A avaliação dos modelos é uma
parte essencial de pesquisas que aplicam técnicas de machine learning no contexto acadêmico
e no contexto industrial (RASCHKA, 2018).
36
VP
Recall = . (9)
V P + FN
• Precision (Precisão):
A métrica de Precisão mede a proporção da predição positiva que está correta. A precisão
pode ser calculada através da Equação 10 (OLIVEIRA; PRATI, 2013):
VP
Precision = . (10)
V P + FP
• Fmeasure (MedidaF):
É uma métrica derivada da Matriz de confusão binária calculada pela média harmônica
ponderada dos resultados de Recall e Precision (SCHREIBER et al., 2017), na qual, o
melhor valor possível é 1 e o pior é 0 (TRIPATHY; AGRAWAL; RATH, 2015). Essa
métrica é utilizada para averiguar a confiabilidade e relevância da taxa de acurácia (SILVA,
2018). Segundo Tripathy, Agrawal e Rath (2015) a métrica Fmeasure de um classificador
pode ser calculada com a Equação 11:
2 ∗ Precision ∗ Recall
F − measure = . (11)
Precision + Recall
• Specificity (Especificidade ou Taxa de Verdadeiros Negativos):
A Especificidade mede a capacidade do classificador em classificar corretamente instân
cias da “Classe Negativa” (MATOS et al., 2009). A Especificidade pode ser calculada
pela Equação 12 (CANETTA et al., 2014):
VN
Speci f icity = . (12)
FP +V N
38
V P ∗V N − FP ∗ FN
MCC = √ . (14)
(V P + FP) ∗ (V P + FN) ∗ (V N + FP) ∗ (V N + FN)
39
4 TRABALHOS RELACIONADOS
Devido ao fato da existência de uma vasta gama de técnicas que podem ser apli
cadas para a extração de conhecimento em bases de dados, esta seção busca relatar trabalhos
com objetivos semelhantes a este, porém, não sendo o objetivo do estudo realizar uma revisão
sistemática da literatura.
Foram realizadas buscas em 4 bases: ResearchGate, Google Scholar, Sciencedirect
e Largescale Assessments in Education. Para as buscas, foram utilizados os termos: “Aprendi
zado de Máquina”, “Ciências de Dados” e “Mineração de dados”, associados a termos de caráter
educacional: “Avaliações em Larga escala”, “Desempenho de Alunos”, “Educação” nos idio
mas português e inglês.
Além dos trabalhos que utilizaram a base de dados fornecida pelo PISA, serão apre
sentados trabalhos que utilizaram bases de dados de escolas e de duas outras SLAs:
• Exame Nacional do Ensino Médio ENEM: uma avaliação criada em 1998 pelo Ministé
rio da Educação MEC do Brasil, com o objetivo inicial de obter indicadores da qualidade
da educação no país. Posteriormente o ENEM foi adotado por instituições como método
seletivo para o ingresso no ensino superior, inclusive fora do Brasil, como ocorre em
algumas instituições de Portugal. Atualmente, é realizado em dois dias de avaliações e
composto por provas de linguagens, códigos e suas tecnologias; ciências humanas e suas
tecnologias; ciências da natureza e suas tecnologias; e matemática e suas tecnologias, as
quais totalizam 180 questões. Além das questões objetivas a escrita de um redação tam
bém é exigida (INEP, 2020), sempre com o intuito de abordar questões contextuais da
vivência do aluno.(CASTRO; TIEZZI, 2005).
• Cycle des Évaluations Disciplinaires Réalisées sur Échantillon CEDRE: ou Ciclo de
Avaliações Disciplinares Realizadas em Amostras, inciouse em 2003 com a avaliação de
habilidades gerais, aplicada na França no fim do ensino secundário e no fim do ensino
superior (o que permite um acompanhamento da evolução dos alunos ao longo do tempo)
com o objetivo situar os desempenhos dos alunos em escalas de nível. O CEDRE não visa
conceder diplomas ou algum tipo de atestado de nível, essa SLA visa servir de indicador
da situação educacional do aluno para que, tanto tomadores de decisão, como professores
conheçam o quadro educacional dos alunos para melhorias e mudanças no sistema de
ensino (ROCHER; BUREAU, 2014).
4.1 Descrição dos Trabalhos
Nesta seção são descritos os trabalhos com objetivos semelhantes ao desta pesquisa.
Os trabalhos, aqui, apresentados foram selecionados, primeiramente, pelo título, posteriormente
pelo seu resumo. Após isso, foram escolhidos artigos que realizaram experimentos com algorit
mos de aprendizado de máquina e apresentaram seus resultados, ou seja, trabalhos fundamen
talmente teóricos não foram incluídos nessa seção.
40
4.1.1 Classification of PISA 2012 mathematical literacy scores using decisiontree method:
Turkey sampling
Aksu e Güzeller (2016) realizaram seu trabalho com o objetivo de determinar quais
e em que ordem de relevância, as variáveis independentes afetam no resultados do letramento
em matemática (variável dependente) da amostra de alunos turcos que participaram do PISA
edição 2012.
Os autores analisam como os estudantes foram classificados em relação ao sucesso
(determinado a partir da média de 5 pontuações matemáticas) em relação a variáveis independen
tes de interesse em relação ao curso de matemática: atitudes em relação à matemática, motivação,
percepção, autoeficácia, ansiedade e estudo da disciplina.
Nesse estudo, a técnica de análise Chisquared Automatic Interaction Detection
CHAID que é um método de árvore de decisão foi utilizada com a justificativa de apresentar
facilmente a visualização da ordem de importância das variáveis preditivas e a classificação pode
ser feita de com base na estrutura visual do método. Os autores ressaltaram acreditar que seu
estudo se diferencia de outros pelo fato de utilizar de árvores de decisão e métodos de mineração
de dados no campo da educação.
Em sua metodologia, os autores não utilizaram instâncias da amostra com dados
faltantes (não codificados ou itens em branco), aplicando para isso o método listwise fato que
levou a amostra de 4848 estudantes ser reduzida para 1391, para a verificação dos dados perdidos
foi utilizado o software SPSS.
Nesse estudo a amostra dos 1391 alunos foi subdividida de acordo com as séries
(grades) e foi constatada uma grande semelhança com a população alvo da Turquia.
Utilizando o algoritmo de J.48 os autores obtêm um índice de 69,87% de classifica
ção precisa. Com a aplicação de tais técnicas e métodos os autores concluem que as variáveis
independentes mais importantes para determinar o sucesso dos alunos foram autoeficácia, ati
tude em relação ao curso e estudo da disciplina nessa ordem.
4.1.2 On the use of conventional and statisticallearning techniques for the analysis of PISA
results in Spain
Gorostiaga e RojoÁlvarez (2016) realizaram estudos sobre dados oriundos do PISA
2009 focados nos dados do alunos espanhóis e seus respectivos desempenhos em matemática.
Os autores comparam técnicas de regressão logística, análise discriminantes lineares de Fisher
e Support Vector Machine SVM, sendo utilizado com seu kernel linear e não linear, com a
finalidade de classificar os alunos segundo seu desempenho.
Para o procedimento de feature selection os autores buscaram reduzir ao menor nú
mero de variáveis sem prejudicar o desempenho dos classificadores através da aplicação de
dois algoritmos, sendo que o primeiro é voltado para seleção de recursos de pesos lineares e o
segundo para seleção de recursos de classificadores não lineares.
O conjunto amostral utilizado era composto por 25.887 estudantes e 888 escolas,
utilizandose variáveis relacionadas ao background pessoal do aluno juntamente com variáveis
41
em nível escolar. Os valores referentes às notas presentes no conjunto de dados foram utilizados
para classificar os alunos em relação ao seu sucesso. Escolas que não responderem ao questi
onário foram excluídas (assim como seus alunos) da amostra, bem como, alunos com muitos
itens não respondidos, fato que, levou a amostra ser reduzida para 25.122 alunos e 870 escolas.
Para a imputação de valores faltantes, em alguns casos, foram utilizadas respostas
de colegas de escola e a técnica do vizinho mais próximo. Dois fatos bem interessantes relatados
são que a região tem papel importante sobre os resultados dos alunos e que apenas alguns tipos de
bens possuídos pela família estão relacionados ao sucesso do aluno, sendo esses bens culturais
(por exemplo: literatura clássica, livros de poesia e obras de arte).
4.1.3 Predicting math performance from raw largescale educational assessments data: a
machine learning approach
Saarela et al. (2016) aplicaram algoritmos de aprendizado de máquina para prever o
desempenho dos alunos utilizando os itens relacionados ao questionário do aluno para o teste do
PISA edição de 2012. Foram selecionadas 53 perguntas e apenas foram utilizadas respostas de
estudantes que não tinham valores nulos. Os autores utilizaram as seguintes técnicas de extração
de atributos: Principal Component Analysis e Isomap, 4 técnicas de seleção de atributos: Fisher,
Anova, Gini e Minimal Redundancy Maximal Relevance Criterion.
Os autores utilizaram os algoritmos de predição vizinhos mais próximos, Naive
Bayes, LDA, SVM e Random Forests. Os algoritmos foram ajustados com dados dos estudantes
finlandeses e depois aplicados a todos os estudantes.
4.1.4 Mineração de Dados Educacionais nos Resultados do ENEM de 2015
Simon e Cazella (2017) criaram um modelo preditivo do desempenho a partir dos
dados referentes ao Exame Nacional do Ensino Médio ENEM edição de 2015 utilizando téc
nicas de EDM. Para isso os autores aplicam a árvore de decisão com o algoritmo J48 através do
software WEKA, utilizando para divisão dos dados entre teste e treinamento o 10 fold cross
validation.
Para validar os resultados foram consideradas 4 classes que eram divididas de acordo
com a pontuação média escolar, na qual, o algoritmo foi capaz de classificar corretamente em
77,02% .
As variáveis independentes com maior importância para a previsão do desempenho
foram: o tipo da escola (privada, federal, estadual e municipal) e nível socioeconômico.
4.1.5 Prevendo desempenho dos candidatos do ENEM através de dados socioeconômicos
Stearns et al. (2017b) realizaram seu trabalho aplicando Machine Learning para
a previsão das notas de Matemática do ENEM edição de 2014 utilizando dados oriundos do
questionário socieconômico do exame.
As árvores de decisão com boosting foram aplicadas através das técnicas Gradient
Boosting e AdaBoost.Os dados de alunos que faltaram ao exame foram excluídos do experi
mento.
42
• Multilevel Modelling (modelagem multinível) que tem como objetivo a identificação das
escolas de alta e baixa eficácia.
• Educational Data Mining EDM que através de algoritmos de árvores de decisão tenta
identificar fatores que influenciam na eficácia escolar.
Essas técnicas são aplicadas nas amostras dos dados providos pelo PISA 2015, so
mente sobre os dados da Espanha. Segundo os autores, a escolha de um único país, se dá pela
intenção de se evitar efeitos relacionados a diferenças sistêmicas e socieconômicas entre países,
na qual a Espanha foi escolhida devido ao tamanho da amostra (maior que a maioria dos países
da OCDE).
Os autores não utilizam todas as amostras fornecidas, escolas com menos que 20
participantes não foram incluídas, dessa maneira, dos 32.330 estudantes e 976 escolas, foram
selecionadas 31,236 estudantes e 896 escolas espanholas.
Na primeira fase, em todas as 3 áreas (ciências, leitura e matemática) foram de
senvolvidos 3 modelos multiníveis. Cada modelo utilizou no nível 1 variáveis relacionadas ao
aluno e no nível 2 variáveis relacionadas a questões da escola, em que foi utilizado o software
estatístico HLM 7 que permitiu o uso dos 10 valores plausíveis juntamente com seus pesos para
cada uma das 3 áreas. Esse mesmo software foi utilizado no processo de imputação dos valores
faltantes através de regression imputation.
Na fase EDM foi utilizado o software Weka 3.8.1 para aplicação do algoritmo C4.5
de árvores de decisão. Em relação à modelagem multinível os autores obtêm 12.41% em ciên
cias, 12.26% em matemática e 12.04% em leitura de acordo com Intraclass Correlation Coeffi
cient (ICC).
Para a validação do modelo de árvore decisão, este estudo utiliza o kfolds cross
validation divididos em 10 subamostras para a validação, na qual se obteve cerca de 90% das
escolas classificadas corretamente, tanto para os dados de treinamento, quanto para o cross
validation.
Os índices de validação foram utilizados pelos autores que obtiveram mais de 90%
na precisão do modelo(precision), cerca de 95% para área sob a curva ROC ( Receiver Operating
Characteristic e um kappa index próximo de 85 e o Root Relative Squared Error (RRSE) inferior
a 52%.
4.1.10 A graphically based machine learning approach to predict secondary schools perfor
mance in Tunisia
Rebai, Ben Yahia e Essid (2020) analisaram dados da Tunísia oriundos do PISA
edição 2012, a fim de identificar fatores que influenciam no desempenho escolar. Para essa
finalidade os autores utilizaram uma abordagem baseada em Directional Distance Function
DDF juntamente com técnicas de Machine Learning ML.
Os autores subdividem sua pesquisa em duas etapas: a primeira baseada em DDF
para produzir valores numéricos que representam a ineficácia das escolas utilizando os software
SAS, e a segunda consistindo na aplicação de técnicas de Machine Learning através de Re
45
gression tree e Random forests (composta por 1000 árvores), utilizando os resultados da etapa
anterior como variável a ser predita através do software R.
As amostras foram reduzidas de 153 escolas para 105 devido ao descarte de instân
cias com dados faltantes e escolas privadas (pois a pesquisa era focada em escolas públicas). A
variável que mais influenciou na eficiência escolar foi o tamanho da escola seguido pela pro
porção de meninas matriculadas, onde baseado nesses achados os autores sugerem a criação de
políticas para a melhor distribuição de alunos em turmas menores e balancear as proporções de
meninos e meninas em sala de aula.
4.1.11 When didactics meet data science: process data analysis in largescale mathematics
assessment in France
Salles, Dos Santos e Keskpaik (2020) aplicaram EDM através de técnicas de apren
dizado de máquina a uma amostrada de dados obtidos do CEDRE (Cycle des Évaluations Disci
plinaires Réalisées sur Échantillon) que é um teste aplicado na França com o objetivo de medir
habilidades de alunos em matemática. Essa avaliação é realizada a cada 5 anos e em 2019 foi
aplicada pela primeira vez através do uso de computadores.
Os autores focaram seus estudos na análise de um único item interativo dessa ava
liação chamado Tree growth (Crescimento de árvores), na qual os alunos interagem inserindo a
idade das árvores em meses em uma planilha e através de outras ferramentas gráficas.
Foram empregadas técnicas de aprendizado supervisando através de Random forests
com o objetivo de determinar em qual proporção os dados coletados do item em questão podem
explicar o desempenho dos alunos e aprendizado não supervisionado através dos algoritmos
DBSCAN (Densitybased Spatial Clustering of Applications With Noise) e Kmeans para agru
par os alunos através de suas estratégias em perfis de aprendizado.
Os algoritmos foram escolhidos pelo fato que são muito utilizados e fazem parte das
famílias de algoritmos clusterização mais importantes, as baseadas em densidade e as baseados
em centroide, respectivamente.
Para avaliar o desempenho do modelo de aprendizado supervisionado os autores uti
lizaram o cálculo da área sob a curva ROC no qual teve como resultado 0,78. As características
mais importantes encontradas para a predição do sucesso ou não do aluno foram: o número de
valores testados na tabela de dados e a variação dos valores testados.
Os autores utilizam, primeiramente, o algoritmo DBSCAN visto que ele não neces
sita informar previamente o número de clusters. Desses algoritmos foram extraídos 4 clusters e
para avaliar a clusterização o autor utiliza o Kmeans, que necessita do número de clusters como
argumento de entrada. Para isso foi utilizado o número 4, no qual para os clusters 3 e 4 foram
identificados os maiores usos da ferramenta lápis e menos registro de valores e para o 1 e 2 o
menor uso da ferramenta lápis e mais registro de valores, o que levou o autor a concluir que as
estratégias tomadas por alunos desse cluster eram voltadas para tentativa e erro.
46
5 MATERIAIS E MÉTODOS
Nesta seção são apresentadas as ferramentas e equipamentos utilizados para execu
ção dos experimentos, bem como, a metodologia adotada neste trabalho.
5.1 Ferramentas para Ciência de Dados
Para se trabalhar com Ciência de Dados existe uma série de ferramentas disponíveis,
sendo elas softwares e linguagens de programação, como por exemplo, Stata, SAS, SPSS, R,
JMP, MATLAB, Júlia e Python (FILHO, 2015).
Este trabalho utilizou a linguagem de programação Python que é amplamente utili
zada por profissionais da Ciência de Dados, sendo uma linguagem de programação de altíssimo
nível, dinamicamente tipada, orientada a objetos e que oferece uma sintaxe (corresponde como
o código que é escrito) clara (BERTOLINI et al., 2019). Além disso, esta linguagem de progra
mação apresenta estruturas de alto nível, muitos módulos prontos e documentação abundante,
fato esse que a torna mais produtiva.
O Python possui licença General Public License GLP, o qual permite que seja
incorporado até mesmo em produtos proprietários. Foi criado em 1990 no Instituto Nacional
de Pesquisa para Matemática e Ciências da Computação da Holanda por Guido van Rossum
sendo uma linguagem bem aceita por várias empresas de tecnologias, dentre elas Google, Yahoo,
Microsoft, Nokia, Disney (BORGES, 2014).
Para a abordagem deste trabalho foram utilizadas várias bibliotecas escritas em
Python, as quais, neste contexto, uma biblioteca pode ser compreendida de maneira simplifi
cada como trechos de códigos reutilizáveis (DATAFLAIR, 2021).
O uso de bibliotecas agiliza e simplifica as tarefas relacionadas à Ciência de Da
dos. Para este estudo foram utilizadas bibliotecas Pyreadstat (FAJARDO, 2021), Matplotlib
(MATPLOTLIB, 2021), ScikitLearn (PEDREGOSA et al., 2011), Seaborn (WASKOM, 2021),
Pandas (PANDAS, 2021), Numpy (NUMPY, 2021), Plotly (PLOTLY, 2021).
Para expandir o potencial da linguagem Python, ela foi utilizada em conjunto com a
tecnologia Jupyter Notebook. O Jupyter Notebook é um projeto de código aberto que provê um
ambiente interativo para a manipulação de dados em diferentes contextos, podendo ser utilizado
até mesmo através de um navegador Web e ser integrado a cerca de 40 tipos de linguagens de
programação (JUPYTER, 2021).
O seguinte experimento foi realizado em um servidor Linux Ubuntu 20.04.4 LTS
(Focal Fossa), com 2 processadores Intel Xeon E7530 com 6 núcleos de 12 threads cada, tota
lizando 48 threads com frequência de 1.86 GHz e 128 GB de memória RAM.
5.2 Metodologia
As tarefas desenvolvidas neste trabalho foram baseadas nas etapas de um projeto
de Data Science incorporadas à metodologia da pesquisa com abordagem quantitativa descri
tiva tendo em vista as características de mensuração em números e uso de técnicas estatísticas
(DALFOVO; LANA; SILVEIRA, 2008) sobre os dados obtidos do PISA 2018.
48
Figura 13 – Distribuição e relação das notas médias de matemática e ciências PISA 2018
Com a Figura 14, é possível notar que o intervalo interquartil dos dois testes es
tão bem parecidos, porém, o limite mínimo para o teste de ciências é um pouco inferior ao de
matemática, indicando que a nota menor foi obtida pelo teste de ciências.
Através destas análises iniciais, notouse que a América do Sul apresentou notas
inferiores se comparada à Europa e América do Norte em ambos os testes.
Além dos desempenhos dos países, foram analisadas as características dos profes
sores coletados pelo questionário do PISA. A distribuição das idades de todos os professores
pode ser observada na Figura 17 e na Figura 18. Esta informação é segmentada por país, na
qual se nota que o Azerbaijão possui mais professores com idades maiores e o Macau com ida
des menores, que é perceptível por apresentar uma distância interquartil menor, indicado maior
concentração de professores mais jovens na faixa dos 35 a 45 anos.
51
Através da Figura 22 foi possível verificar que em todos os países existe uma grande
taxa de solicitação para que os professores participem de atividades de desenvolvimento profis
sional.
Figura 23 – Capacidade da escola em fornecer uma boa educação em relação a qualificação dos
professores
Constatase que, apesar dos grandes avanços tecnológicos pelo mundo, tais tecno
logias ainda são pouco utilizadas em sala de aula, fato que contrasta com a informação dada
pela Figura 30 a qual mostra que na maioria das escolas exceto na Coreia do Sul e no Marrocos,
existem uma política em relação ao uso de dispositivos eletrônicos.
57
rostiaga e RojoÁlvarez (2016), Alves, Cechinel e Queiroga (2018), Rebai, Ben Yahia e Essid
(2020) e Stearns et al. (2017b), optouse por utilizar o aprendizado de máquina supervisionado.
Com a escolha desse tipo de aprendizado, emergiu a necessidade de uma variável
dependente. Para suprir essa necessidade, os dados do dataset dos professores foram cruzados
com os resultados médios de cada país através da coluna “CNT”. Para cada instância foram
atribuídas as notas médias dos testes de matemática e ciências. Os resultados médios de cada
país em matemática e ciências do PISA edição 2018 podem ser observados na Tabela 11.
Influenciado por Büyükkıdık, Bakırarar e Bulut (2018), Saarela et al. (2016), Aksu
e Güzeller (2016), MartínezAbad, Gamazo e RodríguezConde (2020) e Salles, Dos Santos e
Keskpaik (2020) optouse por duas classes para a modelagem de dados. As classe foram criadas
59
Após a criação das classes para ambos os testes, verificouse o balanceamentos entre
as classes. As quantidades de exemplos para o teste de matemática presentes em cada classe
podem ser observados na Figura 31 e para o teste de ciências na Figura 32.
de colunas em 50% (valor padrão do método). Esta técnica foi aplicada, principalmente, pela
sua eficiência e simplicidade de implementação e também pelo fato de simplificar a base de
dados a fim de diminuir as exigências de recursos computacionais.
5.2.7 Modelagem de Dados
Objetivando extrair quais características foram influenciadoras para o desempenho
dos alunos, aplicouse dois algoritmos de aprendizado supervisionado, o Decision Tree e o Ran
dom Forest através da biblioteca sklearn. Os modelos foram aplicados com seus parâmetros
padrões que são disponibilizados pela sklearn que implementa o algoritmo CART e com crité
rio de classificação Gini.
5.2.8 Avaliação dos Modelos
Para realizar os testes de avaliação dos modelos, foi empregada a técnica Holdout
com 70% dos dados para treinamento e 30% teste. Inicialmente, os modelos foram avaliados
com as métricas Precision, Recall, F1score e Accuracy, porém foi constatado através das Figu
ras 31 e 32 que em ambos os testes, as classes eram desbalanceadas. Então, optouse ou utilizar
a métrica Matthews Correlation Coefficient, que conforme descrito na Subseção 3.3.7, é uma
boa maneira de avaliar modelos binários com classes desbalanceadas.
62
6 RESULTADOS
Conforme a metodologia descrita no capítulo anterior, foram aplicados os modelos
de Decision Tree e Random Forest e avaliados com as métricas Precision Recall, F1score,
Accuracy e Matthews Correlation Coefficient. Os resultados das métricas foram obtidos com a
técnica Holdout, para ambos os testes de matemática e ciências.
Através do modelo com melhor desempenho, foram extraídas as 10 características
dos professores que mais influenciaram no desempenho dos alunos de acordo com a metodologia
adotada.
6.1 Avaliação dos Modelos
As métricas obtidas com a técnica Holdout para o teste de matemática estão descritas
nas Tabelas 15 e 16.
Para o teste de ciências, os resultados obtidos podem ser observados nas Tabelas 17
e 18. .
7 CONCLUSÕES
O presente estudo aplicou técnicas da Ciência de Dados sobre dados contextuais
dos professores coletados pela Avaliação em Larga Escala PISA edição 2018. Observouse
a existência de várias possibilidades de caminhos para a condução do processo de Ciência de
Dados. Devido a essa vasta quantidade de técnicas passíveis de serem aplicadas em cada uma das
etapas do processo, os trabalhos correlacionados foram fundamentais para nortearem a escolha
das técnicas aplicadas contextualizadas à área da educação.
A etapa de compreensão dos dados foi primordial para entender a estruturação e dis
posição desses dados e verificar como as informações foram gravadas na base de dados. Através
dessa etapa, foi possível identificar que vários itens não apresentaram nenhum dado dos profes
sores participantes, e que entre os itens com algum tipo de resposta a quantidade de valores
faltantes atingiu até 44%. Após o tratamento de dados faltantes, foi identificado que, dos 79
países/economias participantes dessa edição do PISA apenas 18 apresentaram professores que
responderam os itens resultantes.
A seleção de atributos foi realizada aplicandose a técnica RFE, que reduziu a quan
tidade de atributos de 167 para 83, fato que, resultou na diminuição da complexidade do modelo
que é muito importante para otimização do uso de recursos computacionais.
Na etapa de modelagem dos dados foram aplicados os algoritmos de Decision Tree e
Randon Forest, com a técnica Holdout para a divisão de dados entre treinamento e teste. A partir
das matrizes de confusão geradas, para cada algoritmo aplicado foram extraídas as métricas
Precision Recall, F1score, Acurácia e MCC visto que foi identificado que as classes para ambos
os testes eram desbalanceadas.
Através da métrica Precision foi possível avaliar a proporção em que o algoritmo
previu corretamente a classe alta em relação a todas as amostras que foram classificadas como
de alto desempenho, sendo que de todas as tentativas de previsão da classe alta o algoritmo
Randon Forest obteve os melhores resultados acertando cerca de 87% para matemática e 89%
para ciências da mesma forma que para as classes rotuladas com baixo desempenho obteve 90%
para matemática e 89% para ciências.
Com a métrica Recall, foi possível verificar a proporção de previsão correta para
alto desempenho em relação a todas as amostras que seriam realmente pertencentes à classe alta,
na qual na aplicação para o teste de matemática no Randon Forest obtevese uma proporção de
89% para matemática e 97% para o teste de Ciências. Para as previsões de baixo desempenho
a taxa de Recall obteve resultados menores se comparados à classe alta, sendo de 89% para
matemática e 68% para ciências.
Em razão de que o F1score é calculado a partir da média harmônica ponderada
das métricas Precision e Recall. Os melhores resultados dessa métrica também foram obtidos
através da Algoritmo Random Forest, sendo de 88% para matemática e 97% para ciências a
partir da perspectiva da classe de alto desempenho e 89% e 68% com a perspectiva da classe
baixo desempenho.
66
A taxa de acurácia avaliou a taxa de acerto geral dos modelos, medindo proporções
de acerto de todas as classes a serem previstas (desejável que esteja o mais próximo de 1 possí
vel), apresentando os melhores resultados com a aplicação do algoritmo Random Forest sendo
de 88% para matemática e 89% para ciências.
Devido ao fato da abordagem de classificação binária e a constatação do desbalan
çamento das classes, o MCC foi fundamental para avaliar a qualidade dos classificadores. Os
melhores resultados para o MCC foram obtidos também com o algoritmo Random Forest, sendo
de 0,76 para matemática e 0,71 para ciências. Levandose em consideração que a escala para o
MCC varia de 1 a 1, sendo 1 uma classificação perfeita, concluise que o modelo gerado pelo
Random Forest apresentou ter uma boa qualidade de previsão.
Ainda, através das métricas apresentadas, foi possível concluir, também, que os mo
delos gerados têm melhores resultados para a previsão das classes de alto desempenho do que
das classes de baixo desempenho, ou seja, as chances de o modelo apresentar um predição cor
reta para classes de alto desempenho é maior.
Com a aplicação dos algoritmos foi possível extrair as características mais influen
ciadoras para a predição de desempenho do alunos. Foram apresentadas as 10 mais influencia
doras do algoritmo que teve melhor taxa de acurácia e MCC para ambos os testes de matemática
e ciências.
Dentre as características encontradas, concluiuse que para o teste de matemática as
principais características estão contextualizadas na valorização e motivação do aprendizado dos
alunos por parte dos professores e para ciências características relacionadas à capacitação do
professor, fato confirmado pela Figura 23 que demonstra a percepção por parte dos professores
de como capacidade de fornecer uma boa educação é prejudicada pela qualificação inadequada
ou insuficiente do corpo docente.
Para ambos os testes ainda foram encontradas características no contexto da tecnolo
gia e relacionadas a idade do professor. Um possibilidade é de que essas características estejam
atreladas entre si até certo ponto, devido ao fato de que novas gerações de professores já vieram
ambientadas ao uso de tecnologias.
Com isso o presente trabalho cumpre seu propósito apresentando as suas descobertas
em relação às características dos professores que mais tiveram influência no desempenho dos
alunos.
7.1 Trabalhos Futuros
Com a flexibilidade que a Ciência de Dados nos trás, sugerese para trabalhos fu
turos a aplicação de diferentes técnicas nas etapas do projeto, por exemplo, metodologias de
de imputação de valores faltantes diferentes, técnicas de divisão de dados, aplicação de outros
modelos de Machine Learning bem como outras técnicas de seleção de atributos. Também se
sugere para trabalhos futuros o uso de uma variável dependente distinta, extrapolando seu con
texto binário ou até mesmo uma mudança de abordagem para que o problema seja tratado com
regressão e não classificação.
67
REFERÊNCIAS
AGUIAR, G. a. S. Estudo Comparativo entre Brasil e Portugal , sobre Diferenças nas
Ênfases Curriculares de Matemática , a partir da Análise do Funcionamento Diferencial
do Item ( DIF ) do PISA 2003. Tese (Doutorado) — PUCRio, 2008.
AKSU, G.; GÜZELLER, C. O. Classification of PISA 2012 Mathematical Literacy Scores
Using DecisionTree Method: Turkey Sampling. TED EĞİTİM VE BİLİM, v. 41, n. 185,
p. 101–122, jun 2016. ISSN 13001337. Disponível em: <http://egitimvebilim.ted.org.tr/
index.php/EB/article/view/4766>.
ALMEIDA, T. B. et al. Seleção de atributos usando abordagem Wrapper para classificação
hierárquica multirrótulo. Dissertação (Mestrado) — Universidade Tecnológica Federal do
Paraná, 2018.
ALTO, V. Visualizing SVM with Python. 2019. Disponível em: <https://medium.com/swlh/
visualizingsvmwithpython4b4b238a7a92>. Acesso em: 13 de mai. de 2022.
ALVES, M. G. As dimensões formal, nãoformal e informal em educação: visibilidade,
relevância e reinvenção na pesquisa e ação educativas. Medi@ ções, v. 2, n. 2, p. 115–132,
2014.
ALVES, R. D.; CECHINEL, C.; QUEIROGA, E. Predição do desempenho de Matemática
e Suas Tecnologias do ENEM utilizando técnicas de Mineração De Dados. In: Anais dos
Workshops do VII Congresso Brasileiro de Informática na Educação (CBIE 2018). [s.n.],
2018. v. 1, n. Cbie, p. 469. Disponível em: <http://brie.org/pub/index.php/wcbie/article/view/
8271>.
ALVIM, J. P. N. et al. Aplicação web para geração de modelos de automatizados de aprendizado
de máquina. Universidade Federal de Uberlândia, 2019.
ARAUJO, M. d. L. H. S. Avaliação Internacional: Concepções Inerentes Ao Pisa E Seus
Resultados No Brasil. XXVI Simpósio Brasileiro de Política e Administração da Educação,
p. 1–12, 2013.
ARAÚJO, R. M. d. Aprendizado de máquina em sistemas complexos multiagentes: estudo de
caso em um ambiente sob racionalidade limitada. 2004.
BAKKER, A.; BIEHLER, R.; KONOLD, C. Should young students learn about box plots.
Curricular development in statistics education: International Association for Statistical
Education, p. 163–173, 2004.
BERTOLINI, C.; PARREIRA, F. J.; CUNHA, G. B. d.; MACEDO, R. T. Linguagem de
programação i. Brasil, 2019.
BIANCHI, R. A. d. C. Uso de heurísticas para a aceleração do aprendizado por reforço.
Tese (Doutorado) — Universidade de São Paulo, 2004.
BORGES, L. E. Python para desenvolvedores: aborda Python 3.3. [S.l.]: Novatec Editora,
2014.
BORGONOVI, F.; CHOI, A.; PACCAGNELLA, M. The evolution of gender gaps in numeracy
and literacy between childhood and young adulthood. Economics of Education Review,
Elsevier Ltd, v. 82, n. November 2019, p. 102119, 2021. ISSN 02727757. Disponível em:
<https://doi.org/10.1016/j.econedurev.2021.102119>.
68
BRASIL. PNA: Política Nacional de Alfabetização. Brasília. Brasília: MEC, SEALF, 2019.
54 p. ISBN 9786581002008.
CANETTA, E.; RICHES, A.; BORGER, E.; HERRINGTON, S.; DHOLAKIA, K.; ADYA,
A. K. Discrimination of bladder cancer cells from normal urothelial cells with high specificity
and sensitivity: Combined application of atomic force microscopy and modulated Raman
spectroscopy. Acta Biomaterialia, Acta Materialia Inc., v. 10, n. 5, p. 2043–2055, 2014. ISSN
18787568. Disponível em: <http://dx.doi.org/10.1016/j.actbio.2013.12.057>.
CAVIQUE, L. Uma nova taxonomia em data science. Maximus Report, GoBusiness Finance,
p. 92–93, 2014.
CORTEZ, P.; SILVA, A. Using data mining to predict secondary school student performance.
15th European Concurrent Engineering Conference 2008, ECEC 2008 5th Future
Business Technology Conference, FUBUTEC 2008, v. 2003, n. 2000, p. 5–12, 2008.
DATAFLAIR. Python Libraries – Python Standard Library & List of Important Libraries.
2021. Disponível em: <https://dataflair.training/blogs/pythonlibraries/>. Acesso em: 27 de
set. de 2021.
FILHO, A. D. P. C. Uso de big data em saúde no brasil: perspectivas para um futuro próximo.
Epidemiologia e Serviços de Saúde, SciELO Public Health, v. 24, p. 325–332, 2015.
HOYOS, R. de; ESTRADA, R.; VARGAS, M. J. What do test scores really capture?
Evidence from a largescale student assessment in Mexico. World Development, Elsevier
Ltd, v. 146, p. 105524, oct 2021. ISSN 0305750X. Disponível em: <https://doi.org/10.1016/
j.worlddev.2021.105524https://linkinghub.elsevier.com/retrieve/pii/S0305750X21001364>.
INEP. Brasil no PISA 2015: análises e reflexões sobre o desempenho dos estudantes
brasileiros. São Paulo: [s.n.], 2016. Disponível em: <http://download.inep.gov.br/
acoes_internacionais/pisa/resultados/2015/pisa2015_completo_final_baixa.pdf>. Acesso em:
27042020.
70
INEP. Pisa 2018 revela baixo desempenho escolar em leitura, matemática e ciências
no Brasil. 2019. Disponível em: <http://portal.inep.gov.br/artigo//asset_publisher/
B4AQV9zFY7Bv/content/pisa2018revelabaixodesempenhoescolaremleitura
matematicaecienciasnobrasil/21206>. Acesso em: 16 de jun. de 2021.
INEP. Como selecionar as melhores features para seu modelo de Machine Learning. 2020.
Disponível em: <Histórico>. Acesso em: 03 de mai. de 2022.
INEP. Relatório Brasil no PISA 2018. BrasíliaDF: Instituto Nacional de Estudos e Pesquisas
Educacionais Anísio Teixeira, 2020. v. 53. 185 p. ISSN 10986596. ISBN 9786558010395.
Disponível em: <http://download.inep.gov.br/acoes_internacionais/pisa/documentos/2019/
relatorio_PISA_2018_preliminar.pdf>.
INEP, M. d. E. Relatório Brasil no Pisa: Versão preliminar, 2018. BrasíliaDF, 2019. 154 p.
Disponível em: <http://download.inep.gov.br/acoes_internacionais/pisa/documentos/2019/
relatorio_PISA_2018_preliminar.pdf>.
KÜRZL, H. Exploratory data analysis: recent advances for the interpretation of geochemical
data. Journal of Geochemical Exploration, v. 30, n. 13, p. 309–322, 1988. ISSN 03756742.
LORENA, A. C.; CARVALHO, A. C. de. Uma introdução às support vector machines. Revista
de Informática Teórica e Aplicada, v. 14, n. 2, p. 43–67, 2007.
OECD. “How PISA results are reported: What is a PISA score?”, in PISA 2018 Results
(Volume I): What Students Know and Can Do. In: . Paris: OECD Publishing, 2019. I, cap. 2, p.
41–47.
PLOTLY. Plotly Open Source Graphing Libraries. 2021. Disponível em: <https:
//plotly.com/graphinglibraries/>. Acesso em: 05 de nov. de 2021.
PRATI, R.; BATISTA, G.; MONARD, M. Curvas roc para avaliação de classificadores.
Revista IEEE América Latina, v. 6, n. 2, p. 215–222, 2008.
73
REBAI, S.; Ben Yahia, F.; ESSID, H. A graphically based machine learning approach
to predict secondary schools performance in Tunisia. SocioEconomic Planning
Sciences, Elsevier, v. 70, n. June 2019, p. 100724, 2020. ISSN 00380121. Disponível em:
<https://doi.org/10.1016/j.seps.2019.06.009>.
SAARELA, M.; YENER, B.; ZAKI, M. J.; KÄRKKÄINEN, T. Predicting Math Performance
from Raw LargeScale Educational Assessments Data: A Machine Learning Approach. v. 48,
n. 1, p. 1–8, 2016.
SALLES, F.; Dos Santos, R.; KESKPAIK, S. When didactics meet data science:
process data analysis in largescale mathematics assessment in France. Large
scale Assessments in Education, Springer US, v. 8, n. 1, p. 7, dec 2020. ISSN
21960739. Disponível em: <https://doi.org/10.1186/s4053602000085yhttps://
largescaleassessmentsineducation.springeropen.com/articles/10.1186/s4053602000085y>.
SCHREIBER, J. N. C.; BESKOW, A. L.; MÜLLER, J. C. T.; NARA, E. O. B.; SILVA, J. I. D.;
REUTER, J. W. Técnicas de validação de dados para sistemas inteligentes: Uma abordagem
do software sdbayes. 2017.
SILVA, L. Uma aplicação de árvores de decisão, redes neurais e knn para a identificação
de modelos arma não sazonais e sazonais. Rio de Janeiro. 145p. Tese de Doutorado
Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de
Janeiro, 2005.
SILVA, L. M. O. da. Uma Aplicação de Árvores de Decisão, Redes Neurais e KNN para a
Identificação de Modelos ARMA NãoSazonais e Sazonais. Tese (Doutorado) — PUCRio,
2005.
SINGH, S.; GUPTA, P. Comparative study id3, cart and c4. 5 decision tree algorithm: a
survey. International Journal of Advanced Information Science and Technology (IJAIST),
Citeseer, v. 27, n. 27, p. 97–103, 2014.
STEARNS, B.; RANGEL, F.; FIRMINO, F.; RANGEL, F.; OLIVEIRA, J. Prevendo
desempenho dos candidatos do enem através de dados socioeconômicos. In: SBC. 36º
Concurso de Trabalhos de Iniciação Científica (CTIC 2017). [S.l.], 2017. v. 36, n. 1/2017.
75
STEARNS, B.; RANGEL, F.; FIRMINO, F.; RANGEL, F.; OLIVEIRA, J. Prevendo
Desempenho dos Candidatos do ENEM Através de Dados Socioeconômicos. Congresso da
Sociedade Brasileira de Computação, p. 2522–2530, 2017.
THURLOW, M. Large Scale Assessment and Accountability and Students with Special Needs.
In: International Encyclopedia of Education. Elsevier, 2010. p. 752–758. Disponível em:
<https://linkinghub.elsevier.com/retrieve/pii/B9780080448947011581>.
VILLARREAL, J.; LóPEZ, C. U.; DIAZ, J.; NAVARRO, A. Secure learning para detección de
android malware. 06 2019.
WEBB, G. I. Encyclopedia of Machine Learning and Data Mining. Boston, MA: Springer
US, 2016. ISBN 9781489975027. Disponível em: <https://link.springer.com/10.1007/978
1489975027>.
WERLE, F. O. C. Avaliação em larga escala: foco na escola. [S.l.]: Oikos Editora, 2010.
WITTEN, I. H.; FRANK, E.; HALL, M. A.; PAL, C. J. Data mining: Practical machine
learning tools and techniques. In: . Data Mining: Practical machine learning tools and
techniques. 4. ed. CambridgeMA,United States: Morgan Kaufmann, 2016. p. 56–65.
YIU, T. Understanding Random Forest. How the Algorithm Works and Why it Is… | by
Tony Yiu | Towards Data Science. 2019. Disponível em: <https://towardsdatascience.com/
understandingrandomforest58381e0602d2>. Acesso em: 27 de jul. de 2021.
ZHENG, A.; CASARI, A. Feature engineering for machine learning: principles and
techniques for data scientists. [S.l.]: ”O’Reilly Media, Inc.”, 2018.
76