Você está na página 1de 21

I

UNIVERSIDADE LICUNGO

FACULDADE DE CIÊNCIAS E TECNOLOGIAS

Licenciatura em Estatísticas e Gestão de Informação

Faham Saranque

Analise factorial da pauta dos alunos da 8ª classe da


Escola Secundaria Geral de Coalane

Quelimane

2022
2

Faham Saranque

Analise factorial da pauta dos alunos da 8ª classe da


Escola Secundaria Geral de Coalane

Trabalho apresentado ao curso de


Licenciatura em Estatística e Gestão de
Informação do Departamento de Ciências e
Tecnologias, como requisito para obtenção da
nota avaliativa.

Docente: Mcs. Nasma Da Glória Langa


Langa

Quelimane

2022
3

Índice

Lista de tabelas.................................................................................................................................4

Lista de quadros................................................................................................................................4

1.Introdução......................................................................................................................................5

1.1.Objectivos...................................................................................................................................5

1.1.1.Objectivo Geral.......................................................................................................................5

1.1.2.Objectivos Específicos............................................................................................................5

1.2.Metodologia................................................................................................................................5

2.Analise exploratória dos dados......................................................................................................6

2.1.Teste de normalidade das notas dos alunos da 8ª classe...........................................................10

2.2.Correlação das disciplinas........................................................................................................11

3.Conclusão....................................................................................................................................17

4.Bibliografia..................................................................................................................................18
4

Lista de tabelas
Tabela 1: Resumo de processamento do caso..................................................................................6
Tabela 2:Descritivos.........................................................................................................................7
Tabela 3:Testes de Normalidade....................................................................................................10
Tabela 4: Testes de Normalidade dos dados padronizados............................................................11
Tabela 5: Correlações.....................................................................................................................11
Tabela 6: Teste de KMO e Bartlett.................................................................................................12

Lista de quadros
Quadro 1: Box-plot das disciplinas..................................................................................................8
5

1. Introdução

O presente trabalho é uma aplicação da cadeira analise de dados I, que tem como o
principal objectivo de verificar a relação das notas nas disciplinas dos estudantes da 8ª classe e
agrupa-los, para isso, foi feita uma analise exploratória das notas, em que foi possível extrair os
descritivos, o teste de normalidade, os box-plots, de seguida, foi feita a analise de correlação
linear de pearson, e por fim foi feita a analise factorial.

De acordo com Favero, et all (2011, p.236), a analise factorial (AF) é uma técnica
multivariada que busca identificar um numero relativamente pequeno de factores comum que
podem ser utilizados para representar relações entre um grande numero de variáveis inter-
relacionadas.

1.1. Objectivos
1.1.1. Objectivo Geral
 Aplicar as técnicas estudadas na Analise Factorial da Disciplina de Análise de Dados I
para descrever e analisar a distribuição de notas dos estudantes da 8ª classe da ESG-
Coalane.
1.1.2. Objectivos Específicos

Para o alcance do objectivo cima definido foram traçados os seguintes objectivos


específicos:

 Fazer Análise exploratória dos dados e interpretar os resultados;


 Determinar a matriz de co-variâncias e correlações e interprete os resultados obtidos;
 Testar a normalidade dos dados.
 Fazer a análise factorial.

1.2. Metodologia

Para a análise de dados proveniente da distribuição de notas dos estudantes dos alunos da
8ª classe, baseou-se com ajuda do pacote SPSS, as saídas foram copiadas para o Microsoft Word
para a devida interpretação.
6
7

2. Analise exploratória dos dados


O presente relatório é reflexo sobre uma base de dados das notas dos alunos da 8a classe
da Escola secundaria geral de Coalane, onde a pauta é composta por 9 disciplinas nomeadamente:
Português, Inglês, Francês, Geografia, Biologia, Física, Matemática, Química e Educação visual.
Pretende-se saber se os alunos que tem positivas em uma das disciplinas de ciências, pode
ter positiva em toda a secção, e o mesmo caso aconteça para a secção de letras.
Como mostra a tabela abaixo, o número de alunos é composto por 30 alunos.
Tabela 1: Resumo de processamento do caso

Casos

Válido Ausente Total


N Porcentagem N Porcentagem N Porcentagem

Portugues 30 100,0% 0 0,0% 30 100,0%


Ingles 30 100,0% 0 0,0% 30 100,0%
Frances 30 100,0% 0 0,0% 30 100,0%
Geografia 30 100,0% 0 0,0% 30 100,0%
Biologia 30 100,0% 0 0,0% 30 100,0%
Fisica 30 100,0% 0 0,0% 30 100,0%
Matematica 30 100,0% 0 0,0% 30 100,0%
Quimica 30 100,0% 0 0,0% 30 100,0%
Ed_V 30 100,0% 0 0,0% 30 100,0%

A tabela 2 abaixo mostra os descritivos dos alunos, onde, para a disciplina de português,
inglês, francês, geografia, física e matemática apresenta a media 11, as disciplinas de biologia,
química e educação visual, apresentam nota media de todos os estudantes igual a 10 valores.
O desvio-padrão das disciplinas de português e educação visual é igual a 2, sendo assim,
indica que cada nota dessas disciplinas distanciam-se da media em 2 valores, as restantes
disciplinas apresentam o desvio-padrão igual a 1, assim cada nota dessas disciplinas distanciam-
se da media em 1 valor.
As disciplinas de francês e matemática apresentam uma assimetria acima de 0, sendo
assim, as notas apresentam uma distribuição assimétrica positiva, já as restantes disciplinas
apresentam uma assimetria igual a 0, sendo assim, os dados estão distribuídos de uma forma
simétrica, isso quer dizer que a media é igual a mediana e igual a moda.
8

Tabela 2:Descritivos

Estatística

Port Ingles Frances Geografia Biologia Fisica Mat. Quimica Ed_V

Média 11,0000 11,0000 11,0000 11,0000 10,0000 11,0000 11,0333 10,0000 10,0000
95% Intervalo de Confiança para Limite inferior 10,0000 10,0000 10,0000 10,0000 10,0000 10,0000 10,0000 10,0000 9,0000
Média Limite superior 12,0683 11,0000 11,0000 11,0000 11,0000 11,0000 11,0000 11,0000 11,0000
5% da média aparada 11,0000 11,0000 11,0000 11,0926 10,0000 11,0556 11,0370 10,0000 10,0000
Mediana 11,0000 11,0000 11,0000 11,0000 10,0000 10,0000 11,0000 10,0000 10,0000
Variância 5,000 3,000 3,000 2,000 1,000 3,000 3,000 3,000 4,000
Desvio Padrão 2,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 2,00000
Mínimo 7,00 7,00 8,00 9,00 9,00 9,00 7,00 8,00 7,00
Máximo 15,00 15,00 14,00 14,00 14,00 14,00 15,00 14,00 15,00
Intervalo 8,00 8,00 6,00 5,00 5,00 5,00 8,00 6,00 8,00
Intervalo interquartile 4,00 3,00 3,00 3,00 2,00 3,00 3,00 4,00 3,00
Assimetria ,000 ,000 ,073 ,000 ,000 ,000 ,095 ,000 ,000
Curtose -1,000 ,000 -1,000 -1,000 ,000 -1,000 ,000 -1,000 ,000

O quadro 1, apresenta os box-plot das disciplinas dos alunos da 8a classe, sendo assim, nota-se que nao houve nenhum estudante com
nota atipica ou mesmo, for a do desvio inter-quartilico.
9

Quadro 1: Box-plot das disciplinas

Portugues
Ingles Frances

Geografia
Biologia Fisica
10

Matemtica Educacao Visual


Quimica
11

2.1. Teste de normalidade das notas dos alunos da 8ª classe

Saabe-se que a analise factorial é sensível a normalidade, sedo assim, devemos testar a
normalidade das notas, para isso, levantamos as seguintes hipóteses:

Ho: As disciplinas da pauta dos estudantes da 8ª classe seguem uma distribuição normal;

H1: Pelo menos uma disciplina da pauta dos estudantes da 8ª classe, não segue uma
distribuição normal.

Olhando para a tabela 3, notamos que no teste de kolmogorov-Smirnov e Shapiro-Wilk,


temos pelo menos uma disciplina que não segue uma distribuição normal, sendo assim, podemos
generalizar para todos os dados a um nível de significância de 5%. Por isso que seremos
obrigados a padronizar os dados para prosseguir com a AF.

Tabela 3:Testes de Normalidade

Testes de Normalidade

Kolmogorov-Smirnova Shapiro-Wilk

Estatística df Sig. Estatística df Sig.

Portugues .214 30 .001 .914 30 .019


Ingles .130 30 .200* .962 30 .349
Frances .176 30 .019 .918 30 .024
Geografia .184 30 .011 .904 30 .011
Biologia .340 30 .000 .813 30 .000
Fisica .264 30 .000 .860 30 .001
Matematica .166 30 .033 .958 30 .2790
Quimica .221 30 .001 .869 30 .002
Ed_V .226 30 .000 .939 30 .087

*. Este é um limite inferior da significância verdadeira.


a. Correlação de Significância de Lilliefors

x−μ
Apos padronizrmos os dados a partir da formula z= , obtemos novamente a tabela de
σ
normalidade, apresentados na tabela 4, notamos que não houve diferença com os dados não
padronizados, logo, como AF é sensível a normalidade, sera difícil prosseguir com a AF. Mas o
teste que confirma é o teste de Bartlet e de KMO.
12

Tabela 4: Testes de Normalidade dos dados padronizados

Testes de Normalidade

Kolmogorov-Smirnova Shapiro-Wilk

Estatística df Sig. Estatística df Sig.

Portugues .214 30 .001 .914 30 .019


Ingles .130 30 .200 *
.962 30 .349
Frances .176 30 .019 .918 30 .024
Geografia .184 30 .011 .904 30 .011
Biologia .340 30 .000 .813 30 .000
Fisica .264 30 .000 .860 30 .001
Matematica .166 30 .033 .958 30 .279
Quimica .221 30 .001 .869 30 .002
Ed_V .226 30 .000 .939 30 .087

*. Este é um limite inferior da significância verdadeira.


a. Correlação de Significância de Lilliefors

2.2. Correlação das disciplinas

Olhando para a tabela 5, notamos que existem fortes relações ou dependência entre as
disciplinas, isto porque esxitem correlações de pearson com pelo menos igual a 0,3, para algumas
variáveis, visto que valor mínimo que deve apresentar em pelo menos duas variáveis tem que ser
de 0,300. Logo não confirma o que foi dito no teste de normalidade acima, há indícios de ser
possível prosseguir com a analise factorial, para o caso confirmativo, faremos o teste de Bartlet e
de KMO.

Tabela 5: Correlações

Matriz de correlaçõesa

Port. Ing. Fra. Geog. Bio. Fis. Mat. Qui. Ed_V

Correlação Portugues 1.000 .778 .609 .630 -.546 -.577 -.633 -.622 -.524

Ingles .778 1.000 .528 .712 -.433 -.666 -.618 -.795 -.604

Frances .609 .528 1.000 .704 -.328 -.445 -.333 -.528 -.284

Geografia .630 .712 .704 1.000 -.301 -.453 -.293 -.541 -.187

Biologia -.546 -.433 -.328 -.301 1.000 .646 .678 .545 .625

Fisica -.577 -.666 -.445 -.453 .646 1.000 .830 .861 .812

Matematica -.633 -.618 -.333 -.293 .678 .830 1.000 .770 .794

Quimica -.622 -.795 -.528 -.541 .545 .861 .770 1.000 .774
13

Ed_V -.524 -.604 -.284 -.187 .625 .812 .794 .774 1.000
Olhando para a tebela 6, notamos que a medida de Kaiser_Meyer-Olkin de adequaao de
amostragem é superior a 0,5, logo será possível prosseguir com a AF.

Tabela 6: Teste de KMO e Bartlett

Teste de KMO e Bartlett

Medida Kaiser-Meyer-Olkin de adequação de amostragem. .830


Teste de esfericidade de Aprox. Qui-quadrado 224.061
Bartlett df 36

Sig. .000

A tabela 7 abaixo é utilizada para explicitar a adequação da utilização da AF, sendo assim,
a matriz anti-imagem de mostra que nenhuma variável será eliminada do modelo, isto porque na
diagonal da matriz anti-imagem das correlações apresenta valores acima de 0,5.

Tabela 7: Matris anti-imagem

Matrizes anti-imagem

Port Ing. Fra. Geo. Bio. Fisica Mat. Qui. Ed_V

Covariância Portugues .247 -.096 -.113 -.016 .074 -.025 .077 -.048 .008
anti-imagem Ingles -.096 .155 .082 -.097 -.061 -.025 -.002 .064 .050

Frances -.113 .082 .393 -.134 -.019 -.006 -.033 .062 .020

Geografia -.016 -.097 -.134 .218 .054 .057 -.048 .005 -.105

Biologia .074 -.061 -.019 .054 .447 -.030 -.067 .020 -.068

Fisica -.025 -.025 -.006 .057 -.030 .150 -.065 -.055 -.062

Matematic
.077 -.002 -.033 -.048 -.067 -.065 .199 -.033 -.014
a

Quimica -.048 .064 .062 .005 .020 -.055 -.033 .142 -.034

Ed_V .008 .050 .020 -.105 -.068 -.062 -.014 -.034 .194
Correlação anti- Portugues .829 a
-.488 -.364 -.071 .223 -.130 .349 -.256 .036
imagem Ingles -.488 .778 a
.333 -.525 -.231 -.164 -.009 .431 .286

Frances -.364 .333 .779a -.459 -.046 -.025 -.119 .263 .071

Geografia -.071 -.525 -.459 .694 a


.173 .312 -.230 .031 -.509
14

Biologia .223 -.231 -.046 .173 .897a -.115 -.225 .080 -.232

Fisica -.130 -.164 -.025 .312 -.115 .867a -.377 -.374 -.361

Matematic
.349 -.009 -.119 -.230 -.225 -.377 .887a -.198 -.072
a

Quimica -.256 .431 .263 .031 .080 -.374 -.198 .874a -.207

Ed_V .036 .286 .071 -.509 -.232 -.361 -.072 -.207 .840a

a. Medidas de adequação de amostragem (MSA)

Na tabela 8, notamos que todas as variáveis possuem fortes extrações. Assim, a decisão de não
excluirmos as variáveis, fica mais elevadas. Se existisses alguma disciplina com extração muito
próxima a zero, teríamos que excluir do modelo.
Tabela 8: Comunalidades

Comunalidades

  Inicial Extracao
Portugues 1.000 0.738741
Ingles 1.000 0.792915
Frances 1.000 0.733652
Geografia 1.000 0.87468
Biologia 1.000 0.600207
Fisica 1.000 0.855999
Matematica
1.000
0.861471
Quimica 1.000 0.834441
Ed_V 1.000 0.863301
Método de Extração: Análise de
Componente Principal.

Com base na regra de retenção de valores superiores a 1, conforme apresenta tabela 9, notamos
que foram retidos dois factores que conseguem explicar 79,505% da variância dos dados
originais. A tabela ainda apresenta o percentual da variância explicada por factor antes e depois
da rotação.
15

Tabela 9: Variância total explicada

Variância total explicada

Valores próprios iniciais Somas rotativas de carregamentos ao quadrado

Componente Total % de variância % cumulativa Total % de variância % cumulativa

1 5.740 63.776 63.776 4.134 45.938 45.938


2 1.416 15.729 79.505 3.021 33.567 79.505
3 .563 6.256 85.760
4 .437 4.854 90.614
5 .327 3.635 94.248
6 .211 2.350 96.598
7 .130 1.449 98.046
8 .101 1.127 99.174
9 .074 .826 100.000

Método de Extração: Análise de Componente Principal.

A figura 1 abaixo, corrobora com a retenção de apenas dois factores, conforme a tabela 9.

Figura 1: Grafico de cotovelo


16

Olhando para a matriz de componente rotativa, notamos que as disciplinas de letras


(português, inglês, francês e geografia) estão fortimente correlacionadas com a segunda
componente e as disciplinas de ciências (Matemática, Biologia, Física, Química e Educação
visual) estão fortimente correlacionadas com a primeira componente, isto é, as disciplinas de
ciências tem uma relação em comum, quem entende uma disciplina de ciência, possivelmente
entendera as outras disciplinas de ciências e assim acontecera com as disciplinas de letras.

Tabela 10: Matriz de componente rotativa


Matriz de componente rotativaa

Componente

1 2

Portugues -.499 .700


Ingles -.541 .707
Frances -.161 .841
Geografia -.108 .929
Biologia .751 -.192
Fisica .858 -.346
Matematica .903 -.216
Quimica .769 -.493
Ed_V .922 -.116

Método de Extração: Análise de


Componente Principal.
Método de Rotação: Varimax com
Normalização de Kaiser.
a. Rotação convergida em 3 iterações.

Olhando para a figura 2 abaixo, notamos que corrobora com o que foi dito na tabela acima.
17

Figura 2: Parcela no componente em espaco rotacionado


18

3. Conclusão

Contudo, o grupo chegou as conclusões que a analise factorial é uma técnica estatística
multivariada de interdependência que visa a resolução dos dados e à criação de indicadores que
representam variáveis originais. Neste caso se pressupõe que as variáveis originais sejam
correlacionas e compartilhem uma ou mais componentes, para o nosso estudo, mostrou que
existiram correlações entre as disciplinas. Uma outra forma que se usou para verificar se essa
premissa por meio da analise da matriz de correlações é confiável, fez-se o teste de esfericidade
de Bartlett e da estatística de KMO, que mostrou-se adequado para prosseguir com a analise
factorial. Concluímos que as disciplinas de ciências tem uma relação em comum, quem entende
uma disciplina de ciência, possivelmente entendera as outras disciplinas de ciências e assim
acontecera com as disciplinas de letras.
19

4. Bibliografia
FAVERO, L. P., BELFIORE, P., SILVA, f. L., & CHAN, B. L. (2011). Analise de dados:
Modelagem multivariada para tomada de decisoes . Sao Paulo: Camps.
20

Apêndice
21

Pautas dos alunos da 8ª classe da Escola Secundaria Geral de Coalane

Portugue France Geografi Biologi Matematic Quimic


Alunos s Ingles s a a Fisica a a Ed_V
1 9 10 9 10 12 13 14 13 10
2 12 13 12 14 10 9 10 10 10
3 12 12 14 13 10 10 11 10 10
4 11 12 10 11 10 10 11 10 10
5 13 12 14 13 10 10 10 11 10
6 10 10 10 11 12 14 15 13 15
7 15 12 13 14 10 10 9 10 11
8 9 11 10 11 10 11 12 11 12
9 10 11 9 9 10 9 8 10 8
10 9 10 10 9 9 9 9 10 7
11 13 11 9 9 9 9 7 9 8
12 10 10 10 11 13 14 13 14 15
13 9 10 11 9 12 13 14 12 12
14 9 10 9 10 12 14 13 14 13
15 8 9 8 10 12 12 13 12 13
16 14 13 12 13 10 11 10 9 10
17 13 13 10 12 11 10 10 11 10
18 13 13 13 13 10 9 10 9 10
19 11 13 14 12 10 10 10 9 10
20 13 15 13 14 10 10 9 8 10
21 13 11 14 13 10 10 11 9 9
22 14 13 13 12 10 10 11 9 9
23 13 14 12 12 12 9 10 9 7
24 13 12 13 10 12 10 9 9 9
25 9 9 9 9 10 14 12 14 11
26 14 13 12 11 10 12 9 10 9
27 9 8 11 9 12 13 13 14 14
28 7 7 12 10 12 13 13 14 14
29 7 10 9 10 14 13 13 12 13
30 14 11 11 10 10 12 12 14 12

Você também pode gostar