Você está na página 1de 33

ESTATÍSTICA

MULTIVARIADA
Relatório – Grupo C2

Professora Cristina Nunes

Relatório realizado por:

Carla Manuel | 13350

Carlota Matias | 13356

Natacha Soares | 13368

Raquel Alves | 13335

2021/2022
PUBLICIDADE E MARKETING – TURNO C
ESCOLA SUPERIOR DE COMUNICAÇÃO SOCIAL – INSTITUTO POLITÉCNICO DE LISBOA
Índice
Índice de Gráficos......................................................................................................................1
Índice de Tabelas........................................................................................................................1
Introdução..................................................................................................................................1
Capítulo I – Caracterização da Amostra (variáveis sociodemográficas)...............................2
Capítulo II – Análise Fatorial....................................................................................................4
2.1. Perguntas Utilizadas........................................................................................................4
2.2. Análise dos outliers..........................................................................................................4
2.3. Adequabilidade dos dados à aplicação de uma A.F......................................................4
2.4. Caracterização da Solução proposta..............................................................................4
2.4.1. Avalização da qualidade da solução........................................................................4
2.4.2. Identificação dos fatores a construir.......................................................................5
Capítulo III – Análise de Fiabilidade........................................................................................5
Capítulo IV – Segmentação.......................................................................................................8
4.1. Modelo hierárquico.........................................................................................................8
4.2. Modelo não hierárquico................................................................................................18
Capítulo V – Caracterização dos Segmentos..........................................................................18
5.1. Análise descritiva...........................................................................................................18
5.2. Explorar diferenças entre os segmentos......................................................................21
Testes de Comparação de Mann-Whitney......................................................................21
5.3. Análise de Correspondência Simples...........................................................................23
Conclusão..................................................................................................................................28

Índice de Gráficos

Índice de Tabelas

Introdução

1
Capítulo I – Caracterização da Amostra (variáveis
sociodemográficas)
Género

Figura 1 - Gráfico circular representativo da variável Género

A amostra é constituída por 28,46% indivíduos do género masculino e 71,54% do


género feminino.

Idade

Trabalhador Estudante

2
Figura 2 - Gráfico circular representativo da variável Trabalhador Estudante

Podemos observar que a grande maioria dos indivíduos da amostra não são
trabalhadores estudantes.

Nota de Ingresso

Regime

Figura 3 - gráfico circular representativo da variável Regime

A maioria dos respondentes entrou em Regime Diurno (68,08%).

Ano

3
Figura 4 - Gráfico de barras representativo da variável Ano

A maioria dos inquiridos pertence à categoria “1º” da variável Ano. Apenas 2,3%
pertence à categoria “3º”.

Capítulo II – Análise Fatorial


Antes de se realizar a Análise Fatorial, deve-se verificar se as correlações entre as
variáveis são elevadas e, portanto, são efetuados três testes: a Análise da Matriz de
Correlações, o Teste de Esfericidade de Bartlett e a Medida de Adequação de Kaiser-
Mayer-Olkin (KMO).

Aplicação do Teste de Correlação

1) Identificação do teste: Para estudar a existência de correlação entre as


variáveis (quantitativas ou de escala) aplicaremos o teste de Spearman.
2) Definição de hipóteses:

H0: Não existe correlação entre as variáveis i e j, com i e j = Stress 1 a Stress 15.

H1: Existe correlação entre as variáveis i e j, com i e j = Stress 1 a Stress 15.

3) Estatística de teste / p-Value

4
Tabela 1 - Tabela representativa das correlações entre as variáveis Stress 1 a Stress 15

Foram efetuados 105 testes, sendo que se verificou haver correlação em 85 deles, o
que corresponde a 80,95%.
5
Aplicação do teste de Bartlett e KMO

1) Identificação do teste: Para verificar a adequabilidade dos dados a uma análise


fatorial aplica-se o teste de Bartlett.
2) Definição das hipóteses

H0: A matriz de correlação é igual à matriz identidade.

H1: A matriz de correlação é diferente da matriz identidade.

3) Estatística de Teste / p-Value

Tabela 2 - Teste de KMO e Bartlett

4) Decisão

p-Value = 0,000 → Rejeita-se a hipótese nula.

5) Conclusão

Para um nível de confiança a 95%, é possível concluir que existe adequabilidade dos
dados para efetuar uma Análise Fatorial.

KMO

Valor de KMO = 0,877

Para o valor de KMO encontrado é possível concluir que existe uma adequabilidade
boa.

Tendo em conta os 3 indicadores anteriores, conclui-se que é possível a aplicação de


uma Análise Fatorial. Surge a questão: Quantos fatores devem ser criados?

6
Regra de Kaiser

Tabela 3 - Variância total explicada (3 fatores)

Devem ser considerados tantos fatores quanto os que possuem autovalores iniciais
superiores a 1, com uma percentagem cumulativa superior a 70%.

2.1. Perguntas Utilizadas

2.2. Análise dos outliers

2.3. Adequabilidade dos dados à aplicação de uma A.F.

2.4. Caracterização da Solução proposta

2.4.1. Avalização da qualidade da solução

2.4.2. Identificação dos fatores a construir

7
Capítulo III – Análise de Fiabilidade
Teste de Alfa Cronbach

Fator 1 – Interesse no estudo

Tabela 4 - Estatísticas de confiabilidade do Fator 1

Valor de Alfa de Cronbach = 0,896 → A fiabilidade é muito boa.

Tabela 5 - Estatísticas de item-total do Fator 1

O valor do Alfa de Cronbach é superior aos valores de todos os itens representados,


portanto não se exclui nenhum item para obter um valor mais elevado.

Fator 2 – Cansaço do estudo

8
Tabela 6 - Estatísticas de confiabilidade do Fator 2

Valor de Alfa de Cronbach = 0,852 → A fiabilidade é muito boa.

Tabela 7 - Estatísticas de item-total do Fator 2

O valor do Alfa de Cronbach é superior aos valores de todos os itens representados,


portanto não se exclui nenhum item para obter um valor mais elevado.

Fator 3 – Emprenho relativamente ao estudo

9
Tabela 8 - Estatísticas de confiabilidade do Fator 3

Valor de Alfa de Cronbach = 0,784 → A fiabilidade é boa.

Tabela 9 - Estatísticas de item-total do Fator 3

O valor do Alfa de Cronbach é superior aos valores de todos os itens representados,


portanto não se exclui nenhum item para obter um valor mais elevado.

Fator 4 – Estímulos para o estudo

Visto que este fator tem apenas uma variável, não se aplica o Teste do Alfa de
Cronbach.

Fator 5 – Resolução de problemas relacionados com o estudo

Visto que este fator tem apenas uma variável, não se aplica o Teste do Alfa de
Cronbach.

10
Capítulo IV – Segmentação
4.1. Modelo hierárquico
Prosseguir-se-á, agora, à apresentação das soluções ótimas identificadas nos
dendrogramas realizados. Logo de seguida serão apresentadas as soluções não
ótimas mas possíveis.

Soluções ótimas

1) Método: Ligação entre grupos (within-groups linkage)


› Percentagem de casos: 8%
› Dimensão da subamostra: 11 casos
› Linha de corte: 23
› Nº de grupos: 2

Figura 5 - Representação de Grupos e Linha de corte do Dendrograma 1

11
2) Método: Armazenamento em Cluster Mediano
› Percentagem de casos: 12%
› Dimensão da subamostra: 29 casos
› Linha de corte: 24
› Nº de grupos: 2

Figura 6 - Representação de Grupos e Linha de corte do Dendrograma 2

12
3) Método: Ligação de grupos (Within-groups linkage)
› Percentagem de casos: 9%
› Dimensão da subamostra: 27 casos
› Linha de corte: 24
› Nº de grupos: 2

Figura 7 - Representação de Grupos e Linha de Corte do Dendrograma 3

13
4) Método: Vizinho mais afastado
› Percentagem de casos: 8%
› Dimensão da subamostra: 11 casos
› Linha de corte: 23
› Nº de grupos: 2

Figura 8 - Representação de Grupos e Linha de Corte do Dendrograma 4

14
5) Método: Ligação entre grupos (Between-groups linkage)
› Percentagem de casos: 9%
› Dimensão da subamostra: 27 casos
› Linha de corte: 24
› Nº de grupos: 2

Figura 9 - Representação de Grupos e Linha de corte do Dendrograma 5

15
6) Método: Vizinho mais próximo
› Percentagem de casos: 7%
› Dimensão da subamostra: 22 casos
› Linha de corte: 23
› Nº de grupos: 2

Figura 10 - Representação de Grupos e Linha de corte do Dendrograma 6

16
Soluções possíveis mas não ótimas

7) Método: Ward
› Percentagem de casos: 7%
› Dimensão da subamostra: 20
› Linha de corte: 21
› Nº de grupos: 2

Figura 11 - Representação de Grupos e Linha de corte do Dendrograma 7

17
8) Método: Vizinho mais afastado
› Percentagem de casos: 9%
› Dimensão da subamostra: 27
› Linha de corte: 20
› Nº de grupos: 2

Figura 12 - Representação de Grupos e Linha de corte do Dendrograma 8

18
9) Método: Ward
› Percentagem de casos: 11%
› Dimensão da subamostra: 33 casos
› Linha de corte: 21
› Nº de grupos: 2

Figura 13 - Representação de Grupos e Linha de corte do Dendrograma 9

19
10) Método: Ward
› Percentagem de casos: 9%
› Dimensão da subamostra: 28 casos
› Linha de corte: 20
› Nº de grupos: 2

Figura 14 - Representação de Grupos e Linha de corte do Dendrograma 10

20
4.2. Modelo não hierárquico
Tabela 10 - Número de casos em cada cluster

Tabela 11 - Dimensão dos segmentos

Dimensão Percentagem
Segmento 1 70 26,92%
Segmento 2 190 73,08%

Capítulo V – Caracterização dos Segmentos


5.1. Análise descritiva
De seguida, será feita uma análise dos 2 Clusters definidos, relativamente às variáveis
Género, Idade, Trabalhador Estudante e Nota de Ingresso.

Género

Figura 15 - Gráficos circulares relativos à variável Género nos Clusters 1 e 2, respetivamente

21
Pode-se observar que existe uma predominância do género feminino nos dois
segmentos, apesar deste género se destacar mais no Cluster 2, com uma
percentagem de 75,26%.

Idade

Tabela 12 - Estatísticas relativas aos Clusters 1 e 2 consoante a variável Idade

Analisando a tabela apresentada, é possível observar que tanto para o Cluster 1 como
para o Cluster 2, 50% dos inquiridos afirmou ter pelo menos 19 anos. Contudo,
surgiram diferenças ao nível do terceiro quartil: 75% das pessoas do primeiro Cluster
têm pelo menos 22 anos; e 75% das pessoas do segundo Cluster têm pelo menos 21
anos.

Ao nível de máximos e mínimos, não se constatam muitas diferenças: a idade máxima


dos dois Clusters é 40 anos, a idade mínima do primeiro Cluster é 18 anos e a idade
mínima do segundo Cluster é 19 anos.

Por fim, para o Cluster 1, é possível notar que o coeficiente de variação é de 0,20. Por
sua vez, para o Cluster 2, o coeficiente de variação tem um valor de 0,1768. Assim,
pode-se afirmar que o coeficiente de variação do Cluster 1 é maior do que o do Cluster
2.

22
Trabalhador Estudante

Figura 16 - Gráficos circulares relativos à variável Trabalhador Estudante nos Clusters 1 e 2, respetivamente

Com estes gráficos, conclui-se que poucos inquiridos são trabalhadores estudantes
tanto no Cluster 1 como no Cluster 2. No entanto, o Cluster 1 tem uma maior
percentagem de respostas ‘Sim’ a esta variável, com 35,7% de trabalhadores
estudantes.

Notas de Ingresso

23
Tabela 13 - Estatísticas relativas aos Clusters 1 e 2 consoante a variável Notas de Ingresso

Relativamente ao Cluster 1 constata-se que a média das notas de ingresso é de


158,08, enquanto o Cluster 2 apresenta uma média mais elevada, de 161,32.

Para além disto, através da análise dos percentis podemos perceber que, no geral,
os inquiridos do Cluster 2 obtiveram notas de ingresso mais elevadas que os do
Cluster 1. Isto comprova-se, por exemplo, quando se observa que 25% dos
inquiridos do Cluster 1 tiveram pelo menos 152 como nota de ingresso, enquanto
25% dos inquiridos do Cluster 2 tiveram pelo menos 156. O mesmo se observa no
segundo quartil: no primeiro Cluster 50% dos inquiridos teve pelo menos 162 como
nota de ingresso, e, no segundo Cluster, 50% teve pelo menos 163. Se virmos o 3º
quartil, podemos até observar que 75% dos inquiridos do Cluster 1 tiveram pelo
menos 164,75 como nota de ingresso, e do Cluster 2 tiveram pelo menos 170.

Importa ainda realçar que o mínimo do primeiro Cluster é inferior ao do segundo


Cluster, ao contrário do máximo, que é maior no segundo.

Acrescenta-se ainda que, para o Cluster 1, é possível notar que o coeficiente de


variação é de 0,0777. Por sua vez, para o Cluster 2, o coeficiente de variação tem
um valor de 0,0835. Assim, pode-se afirmar que o coeficiente de variação do
Cluster 2 é maior do que o do Cluster 1.

5.2. Explorar diferenças entre os segmentos


24
Testes de Comparação de Mann-Whitney
Fator 1 – Comparar os “interesses no estudo” por Cluster

1) Identificação do teste: Para comparar os interesses no estudo por Cluster


aplicaremos o teste de Mann-Whitney.
2) Definição de hipóteses:

H0: A distribuição dos interesses no estudo (Fator 1) é a mesma para todos os


clusters.

H1: A distribuição dos interesses no estudo (Fator 1) é diferente entre os clusters.

3) Estatística de teste:

Tabela 14 - Resumo de Teste de Hipóteses de Mann-Whitney para o Fator 1

p-Value = 0,297

4) Decisão

p-Value = 0,297 > Alfa = 0,05 → Não se rejeita a hipótese nula.

5) Conclusão

Para um nível de confiança de 95% podemos afirmar que a distribuição dos interesses
no estudo é a mesma para todos os clusters.

25
Fator 2 – Comparar o “cansaço do estudo” por Cluster

1) Identificação do teste: Para comparar o cansaço do estudo por clusters


aplicaremos o teste de Mann-Whitney.
2) Definição de Hipóteses:

H0: A distribuição do cansaço do estudo (Fator 2) é a mesma para todos os clusters.

H1: A distribuição do cansaço do estudo (Fator 2) é diferente para todos os clusters.

3) Estatística de Teste:

Tabela 15 - Resumo de Teste de Hipóteses de Mann-Whitney para o Fator 2

p-Value = 0,668

4) Decisão

p-Value = 0,668 > alfa = 0,05 → Não se rejeita a hipótese nula.

5) Conclusão

Para um nível de confiança de 95%, podemos afirmar que o cansaço do estudo é o


mesmo para todos os clusters.

26
5.3. Análise de Correspondência Simples
Para a realização da Análise de Correspondência Simples, devem ser efetuados
testes de Qui-Quadrado, de forma a avaliar se as variáveis serão ou não
independentes (e, portanto, se se pode realizar a análise).

Depois de realizados os testes de Qui-Quadrado para as variáveis “Sinto-me cada vez


mais cético relativamente à utilidade potencial dos meus estudos” e “Tenho dúvidas
sobre o significado dos meus estudos” para o Fator 1 (as duas mais importantes para
este Fator) e para as variáveis “Os meus estudos deixam-me completamente
esgotado” e “Os meus estudos deixam-me emocionalmente exausto” para o Fator 2
(as duas mais importantes para este Fator), constatou-se que as variáveis eram
independentes e, como tal, não seria possível realizar as Análises de Correspondência
Simples. Desta forma, optou-se por formar novos Clusters, de maneira a possibilitar a
Análise.

Assim, foram criados 3 Clusters: o primeiro Cluster com percentagem igual a 40,38%,
o segundo Cluster com percentagem igual a 20,77% e o terceiro Cluster com
percentagem igual a 38,85%.

Tabela 16 - Número de casos em cada novo Cluster

Tabela 17 - Dimensão dos novos segmentos

Dimensão Percentagem
Segmento 1 105 40,38%
Segmento 2 54 20,77%
Segmento 3 101 38,85%

De seguida, serão escolhidas as principais variáveis dos fatores 1 e 2 e realizada a


Análise de Correspondência Simples de cada um.

Fator 1 – “Sinto-me cada vez mais cético relativamente à utilidade


potencial dos meus estudos.”

27
Tabela 18 - Sumarização do teste de Qui-Quadrado para a variável mais importante do Fator 1

1) Definição das hipóteses

H0: As variáveis Cluster e “Sinto-me cada vez mais cético relativamente à utilidade
potencial dos meus estudos” são independentes.

H1: As variáveis Cluster e “Sinto-me cada vez mais cético relativamente à utilidade
potencial dos meus estudos” não são independentes.

2) Valor do p-Value (sig)

p-Value = 0,094

3) Decisão

p-Value = 0,094 > alfa = 0,05 → Não se rejeita a hipótese nula

4) Conclusão

Para um nível de confiança de 95% podemos afirmar que as variáveis são


independentes e, portanto, não se poderá efetuar uma Análise de Correspondência
Simples para este fator.

Perante isto, será realizado um teste de Qui-Quadrado para a segunda variável mais
importante do Fator 1, de forma a averiguar se é ou não possível efetuar a Análise de
Correspondência Simples deste fator.

Fator 1 – “Tenho dúvidas sobre o significado dos meus estudos.”

28
Tabela 19 - Sumarização do teste de Qui-Quadrado para a segunda variável mais importante do Fator 1

1) Definição das hipóteses

H0: As variáveis Cluster e “Tenho dúvidas sobre o significado dos meus estudos” são
independentes.

H1: As variáveis Cluster e “Tenho dúvidas sobre o significado dos meus estudos” não
são independentes.

2) Valor do p-Value (sig)

p-Value = 0,186

3) Decisão

p-Value = 0,186 > alfa = 0,05 → Não se rejeita a hipótese nula

4) Conclusão

Para um nível de confiança de 95% podemos afirmar que as variáveis são


independentes e, portanto, não se poderá efetuar uma Análise de Correspondência
Simples para este fator.

Visto que não é possível executar Análises de Correspondência Simples com as duas
variáveis mais importantes do Fator 1, prosseguir-se-á para o Fator 2.

Fator 2 – Variável “Os meus estudos deixam-me completamente


esgotado”

Tabela 20 - Sumarização do teste de Qui-Quadrado para o Fator 2

29
1) Definição das hipóteses

H0: As variáveis Cluster e “Os meus estudos deixam-me completamente esgotado” são
independentes.

H1: As variáveis Cluster e “Os meus estudos deixam-me completamente esgotado”


não são independentes.

2) Valor do p-Value (sig)

p-Value = 0,000

3) Decisão

p-Value = 0,000 ≤ alfa = 0,05 → Rejeita-se a hipótese nula.

4) Conclusão

Para um nível de confiança a 95% podemos afirmar que as variáveis não são
independentes.

Trata-se de um Bom indicador para a Análise de Correspondência Simples.

Tabela 21 - Pontos de Linha de visão geral do Fator 2

Tabela 22 - Scores, por dimensão, das linhas do Fator 2

Dimensão Score Negativo Score Positivo


1 Cluster 3
2 Cluster 2

30
Tabela 23 - Pontos de Coluna de visão geral do Fator 2

Tabela 24 - Scores, por dimensão, das colunas do Fator 2

Dimensão Score Negativo Score Positivo


1 Nunca, 2, 3 Sempre
2 2 Nunca, 4

Tabela 25 - Scores, por dimensão, das linhas e colunas do Fator 2

Dimensão Score Negativo Score Positivo


1 Nunca, 2, 3 Cluster 3, Sempre
2 2 Cluster 2, Nunca, 4

Figura 17 - Representação dos Pontos de Linha e Coluna do Fator 2

31
Conclusão

Quem pertence ao Cluster 3 tem tendência a responder ‘Sempre’ à variável ‘Os meus
estudos deixam-me completamente esgotado’.

Quem pertence ao Cluster 2 tem tendência a responder ‘Nunca’ e ‘4’ à variável ‘Os
meus estudos deixam-me completamente esgotado’.

Conclusão

32

Você também pode gostar