Você está na página 1de 21

Licenciatura em GRH/GRHPL

Análise de Dados

Profs. Ana Sousa, Aníbal Vieira,

Rui Brites e Sandra Oliveira

2023/2024

CASO PRÁTICO 7
Análise em Componentes Principais e Análise Factorial

Exercício 1:
Foi realizado um estudo com o objectivo de identificar as características que as empresas consideram
importantes no perfil de um candidato a um emprego. As empresas que participaram no estudo
indicaram a importância (através de uma escala de Likert, desde 1=Discordo totalmente a 7=Concordo
totalmente) que atribuem a cada característica considerada no estudo:
Capacidade de comunicação
Capacidade de Escrita
Capacidade de Síntese
Conhecimento Línguas
Capacidade de relação Interpessoal
Simpatia
Autoconfiança
Proatividade
Experiência Profissional
Percurso Académico
Foi aplicada uma Análise Factorial utilizando como método de extração o método das componentes
principais e obtiveram-se os resultados que se apresentam de seguida.

1|Página
2|Página
3|Página
Grau de importância (através de uma escala de Likert, desde 1=Discordo totalmente a 7=Concordo
totalmente) de cada característica
X1 Capacidade de comunicação
X2 Capacidade de Escrita
X3 Capacidade de Síntese
X4 Conhecimento Línguas
X5 Capacidade de relação Interpessoal
X6 Simpatia
X7 Autoconfiança
X8 Proatividade
X9 Experiência Profissional
X10 Percurso Académico
Variáveis qualitativas ordinais

4|Página
a) Analise a matriz de correlações.

Identificar correlações > 0,5 (ou < -0,5)


A variável X1 apresenta correlações mais fortes com as variáveis X2, X3 e X4 e correlações mais fracas
com as restantes variáveis.
A variável X2 apresenta correlações mais fortes com as variáveis X1, X3, X4, X5 e X7 e correlações mais
fracas com as restantes variáveis.

A variável X10 apresenta correlações fortes com as variáveis X3 e X9 e correlações fracas com as
restantes variáveis.
Existem grupos de variáveis com correlações fortes→ adequado utilizar uma Análise Factorial
utilizando como método de extração as Componentes Principais.

b) É adequado aplicar Análise em Componentes Principais/Análise Factorial? Justifique.


Estatística de Keiser Meyer Olkin (KMO) (valores entre 0 e 1)
KMO Adequabilidade
> 0,9 Excelente
0,8 – 0,9 Boa
0,7 – 0,8 Média
0,6 – 0,7 Razoável
0,5 – 0,6 Medíocre KMO=0,789→adequabilidade média
< 0,5 Não adequado

5|Página
Matriz Anti-Imagem

Adequado utilizar-se a técnica:


• Valores da diagonal são > 0,5;
• Valores fora da diagonal “próximos” de zero.
Como os valores da diagonal da matriz variam entre 0,621 e 0,881 (são > 0,5) e os valores fora da diagonal
são maioritariamente “próximos” de zero→ adequado a utilização da técnica.
c) Quantas componentes foram retidas? Indique a variância de cada componente principal retida.

Foram retidas (ou selecionadas) 3 Componentes Principais.


Var(Y1)=5,345 (variância ou valor próprio da CP1)
Var(Y2)=1,358 (variância ou valor próprio da CP2)
Var(Y3)=1,067 (variância ou valor próprio da CP3)

6|Página
d) Indique a percentagem da variabilidade dos dados explicada por cada componente principal
retida.
A 1ª CP explica quase 53,5% da variabilidade dos dados.
A 2ª CP explica aproximadamente 13,5% da variabilidade dos dados.
A 3ª CP explica quase 11% da variabilidade dos dados.

e) Indique a percentagem da variabilidade dos dados explicada em conjunto pelas componentes


retidas.
As 3 CP’s retidas explicam quase 78% (77,697%) da variabilidade dos dados.

f) Quais são os critérios que conhece para definir o número de componentes a reter? Qual(ais) o(s)
critério(s) utilizado(s) para reter as componentes? Justifique.
Critério Kaiser (ou do valor próprio): selecionar/reter as CP’s com valor próprio (ou variância) > 1.
De acordo com este critério deve selecionar-se 3 CP’s.

Critério da % da variância dos dados explicada pelas CP’s: selecionar/reter as CP’s que expliquem no
mínimo x% da variância dos dados (o valor x é subjectivo, depende do contexto e do investigador. Por
exemplo pode ser 60%, 70%,…)
• 60% → 2 CP’s
• 70% → 3 CP’s
• 80% → 4 CP’s
• …

Critério do Scree Plot (representação gráfica dos valores próprios de cada CP): selecionar/reter as CP´s
até ao ponto de inflexão (ponto a partir do qual a curva passa a ter um decrescimento quase nulo).

• Se ponto inflexão na CP2 → reter 1ª CP

7|Página
g) Interprete os valores das comunalidades.
Comunalidade: proporção da variabilidade de cada variável inicial explicada pelas CP’s retidas.

As 3 CP’s retidas explicam:


• 80,5% da variância da variável
“Capacidade de comunicação”;
• 88,2% da variância da variável
“Capacidade escrita”;
• …
• 90% da variância da variável “Percurso
Académico”
A % da variância das variáveis iniciais explicada
pelas 3 CP’s retidas varia entre 58% e 94%.

h) Justifica-se a rotação das componentes? Justifique.


i) Interprete as componentes principais retidas.

Antes da rotação (1ª solução)


Correlações entre cada CP e cada variável inicial.
A 1ª CP apresenta correlações fortes com todas as
variáveis iniciais (!)
A 2ª CP apresenta correlações fortes com nenhuma
variável inicial (!).
A 3º CP apresenta correlações fortes com as
variáveis “Percurso académico” e “Experiência
profissional” e correlações fracas com as restantes
variáveis.
A 1ª CP explica quase 53,5% da variabilidade
dos dados.
A 2ª CP explica aproximadamente 13,5% da
variabilidade dos dados.
A 3ª CP explica quase 11% da variabilidade dos
dados.
Em conjunto, as 3 CP’s retidas explicam quase
78% da variabilidade dos dados.

8|Página
Após a rotação (2ª solução)
Correlações entre cada CP e cada variável inicial.
A 1ª CP está fortemente correlacionada com as
variáveis “Simpatia”, “Autoconfiança”,
“Capacidade de relação interpessoal” e
“Proatividade”, apresentando correlações
fracas/muito fracas com as restantes variáveis→a
1ª CP é uma medida de Inteligência Emocional ou
das Soft skills ou Competências Relacionais.
A 2ª CP está fortemente correlacionada com as
variáveis “Capacidade escrita”, “Capacidade
comunicação”, “Capacidade síntese” e
“Conhecimento Línguas”, apresentando
correlações fracas/muito fracas com as restantes
variáveis→ a 2ª CP é uma medida das Hard skills ou
Competências da Comunicação.
A 3ª CP está fortemente correlacionada com as
variáveis “Experiência profissional” e “Percurso
académico”, apresentando correlações
fracas/muito fracas com as restantes variáveis→ a
3ª CP é uma medida do Percurso académico e da
Experiência profissional.
As 3 CP’s retidas continuam a explicar quase
78% da variabilidade dos dados, mas a 1ª
diminui a explicação e as 2ª e 3ª aumentam a
explicação.
A 1º CP explica 30,4% da variabilidade dos
dados (menos cerca de 23%), a 2ª CP explica
quase 28% (mais 14,4%) e a 3ª CP explica cerca
de 19,3% (mais 8,6%).

A rotação justifica-se, porque antes da rotação a 1ª CP está fortemente correlacionada com todas as
variáveis, a 2ª CP não apresenta correlações fortes com nenhuma variável e a 3ª CP apresenta correlações
fortes com duas variáveis que apresentam correlações fortes com a 1ª CP (as variáveis devem estar
fortemente correlacionadas apenas com uma das CP’s).
Após a rotação, cada variável está fortemente correlacionada com apenas uma CP, o que facilita a
interpretação das CP’s.

9|Página
Exercício 2:
Foi realizado um inquérito a utilizadores de serviços Bancários. Aos resultados obtidos aplicou-se uma
Análise em Componentes Principais. As questões foram respondidas numa escala de concordância, que
varia de 1=”Discordo em absoluto”…4=”Não concordo nem discordo”… a 7=”Concordo em absoluto”.
Apresentam-se de seguida alguns dos resultados obtidos.

10 | P á g i n a
11 | P á g i n a
a) Justificando, indique se as seguintes afirmações são verdadeiras ou falsas.

F As correlações entre as variáveis iniciais são positivas fracas.

A afirmação é falsa, porque as correlações entre as variáveis situam-se entre 0,548 e


0,794 (correlações positivas, mas fortes a muito fortes).
V É adequado aplicar-se uma ACP/AF aos dados.
Pela análise da matriz de correlações é adequado aplicar-se uma ACP/AF, pois existem
correlações fortes a muito fortes entre as variáveis.

12 | P á g i n a
Estatística KMO
KMO Adequabilidade
> 0,9 Excelente
0,8 – 0,9 Boa
0,7 – 0,8 Média
0,6 – 0,7 Razoável
0,5 – 0,6 Medíocre
< 0,5 Não adequado

KMO=0,927
Adequabilidade excelente.

Matriz anti-imagem

Como os valores da diagonal são todos superiores a 0,5 (situam-se entre 0,901 e 0,964) e
os valores fora da diagonal são “pequenos” (variam entre -0,426 e 0,157)→ é adequado
aplicar-se uma ACP/AF.
A afirmação é verdadeira.
F Foram retidas 3 componentes principais.

Tendo em conta as tabelas “Total


Variance Explained” e/ou “Component
Matrix” há indicação que foram retidas 2
CP’s.
A afirmação é falsa.

13 | P á g i n a
F Para reter as componentes utilizou-se o critério de Kaiser (ou do valor próprio).

A afirmação é falsa, porque pelo Critério de Kaiser deve selecionar-se as CP’s com valor
próprio superior a 1, ou seja, selecionar 1 CP.

V As componentes retidas explicam mais de 70% da variância dos dados.


A afirmação é verdadeira, porque as 2 CP’s retidas explicam cerca de 77% (>70%) da
variabilidade dos dados.

V O número de componentes principais é sempre igual ao nº de variáveis iniciais.


Afirmação verdadeira.
A ACP é uma técnica que transforma um conjunto de variáveis correlacionadas entre si
num outro conjunto (com o mesmo nº de variáveis) de variáveis não correlacionadas
designadas por Componentes Principais.

V A 1ª componente é a que tem maior variância.


Afirmação verdadeira. As CP’s são obtidas de forma que:
• a 1º componente principal explique a maior proporção da variância total das
variáveis iniciais;
• a 2º componente principal seja independente da 1ª e explique a maior proporção
da variância não explicada pela 1ª componente principal;
• a 3º componente principal seja independente da 1ª e da 2ª e, explique a maior
proporção da variância não explicada pelas duas primeiras componentes
principais;
• A última componente principal será a que menos contribui para a explicação da
variância total dos dados.
F As componentes retidas explicam 75% da variância da variável “Os empregados são
educados e simpáticos”.

A afirmação é falsa.

As 2 CP’s retidas explicam 80,3% da


variância da variável “Os empregados são
educados e simpáticos”.

14 | P á g i n a
F A correlação entre a 2ª componente retida e a variável inicial “Os empregados estão
sempre disponíveis para ajudar” é forte.

Afirmação falsa.

A correlação entre a 2ª componente


retida e a variável inicial “Os empregados
estão sempre disponíveis para ajudar”
(0,091) é muito fraca.

b) Interprete as componentes retidas.

15 | P á g i n a
Dispõe-se apenas de uma solução, não foi realizada a rotação.
A 1ª CP está fortemente correlacionada com todas as variáveis iniciais (correlações
variam entre 0,771 e 0,889) e a 2ª CP apresenta correlações fracas a muito fracas com
todas as variáveis (correlações entre -0,379 e 0,36)→ reter apenas a 1ª CP.
A 1ª Cp explica quase 71% da variabilidade dos dados e a 2ª CP cerca de 6% → reter
apenas a 1ª CP.
1º CP associada à qualidade dos serviços bancários.

Exercício 3:
Foi realizado um estudo para avaliar quais as características que os leitores de semanários consideram
mais importantes. Os participantes no estudo indicaram a sua opinião através de escala de Likert de
discordo completamente=1 a concordo completamente=5). Aos dados aplicou-se uma Análise Factorial
utilizando como método de extração o método das componentes principais.
- Lê-se facilmente;
- Leitura agradável;
- Assuntos/temas bem arrumados;
- Tem boa ilustração (fotografias/desenhos);
- A 1ª página é sugestiva;
- Formato adequado;
- Tamanho adequado (nº páginas);
- Periodicidade correta;
- Papel de boa qualidade;
- Informação atualizada;
- Temas tratados de grande interesse.

16 | P á g i n a
a) É adequado aplicar Análise em Componentes Principais/Análise Factorial? Justifique.

É adequado utilizar-se a técnica, pois existem grupos de variáveis que apresentam correlações >0,5.

Os valores da diagonal da matriz anti-imagem são todos >0,5 e os valores fora da diagonal são
maioritariamente pequenos.

KMO=0,692 → adequabilidade razoável

b) Quantas componentes foram retidas? Indique a variância de cada componente principal retida.
Foram retidas 3 CP’s.
Antes da rotação: Depois da rotação:
Var(Y1)=3,406 Var(Y1)=2,795
Var(Y2)=1,668 Var(Y2)=2,073
Var(Y3)=1,523 Var(Y3)=1,729

c) Indique a percentagem da variabilidade dos dados explicada por cada componente principal
retida.
Antes da rotação a 1ªCP explica quase Depois da rotação, a 1ª CP explica cerca de
31% da variabilidade dos dados, a 2ª CP 25% da variabilidade dos dados (menos…), a
explica cerca de 15% e a 3ªCP explica 2ª CP explica quase 19% (mais …) e a 3ªCP
quase 14% da variabilidade dos dados. explica quase 16% (mais…)

d) Indique a percentagem da variabilidade dos dados explicada em conjunto pelas componentes


retidas.
As 3 CP’s retidas explicam quase 60% da variabilidade dos dados (antes e após a rotação).
e) Quais são os critérios que conhece para definir o número de componentes a reter? Qual(ais) o(s)
critério(s) utilizado(s) para reter as componentes? Justifique.
Critério Kaiser (ou do valor próprio): selecionar/reter as CP’s com valor próprio (ou variância) > 1.
De acordo com este critério deve selecionar-se 3 CP’s.

Critério da % da variância dos dados explicada pelas CP’s: selecionar/reter as CP’s que expliquem no
mínimo x% da variância dos dados (o valor x é subjectivo, depende do contexto e do investigador. Por
exemplo pode ser 60%, 70%,…)
• 60% → 4 CP’s
• 70% → 5 CP’s
• …

Critério do Scree Plot (representação gráfica dos valores próprios de cada CP): selecionar/reter as CP´s
até ao ponto de inflexão (ponto a partir do qual a curva passa a ter um decrescimento quase nulo).

17 | P á g i n a
Se Se ponto de inflexão na CP2 → reter 1 CP
Se ponto de inflexão na CP4 → reter 3 CP’s

f) Interprete os valores das comunalidades.


As 3 CP’s retidas explicam:
• 80,2% da variabilidade da variável “Lê-se facilmente”;
• 75,5% da variabilidade da variável “Leitura agradável”;
• …
• 40,2% da variabilidade da variável “Papel de boa qualidade”.

A % da variabilidade das variáveis iniciais explicada pelas 3 CP’s retidas varia entre 40,2% e 80,2%.
A % da variabilidade explicada de 9 variáveis iniciais é superior a 50% verificando-se que apenas duas
têm explicação inferior a 50% (“Assuntos/temas bem arrumados” e “Papel de boa qualidade”).

g) Justifica-se a rotação das componentes? Justifique.


h) Interprete as componentes principais retidas.

Antes da rotação
A 1ª CP está fortemente correlacionada com as variáveis “Assuntos/temas bem arrumados”, “Tem boa
ilustração”, “A 1ª página é sugestiva”, “Formato adequado”, “Tamanho adequado”, “Periodicidade
correcta”, “Papel boa qualidade” e “Informação actualizada”. Apresenta correlações fracas com as
restantes variáveis.
A 2ª CP está fortemente correlacionada com as variáveis “Leitura agradável”, “Periocidade correcta” e
“Temas tratados de grande interesse” e correlações fracas/muito fracas com as restantes variáveis.
A 3º CP está fortemente correlacionada com as variáveis “Lê-se facilmente” e “Leitura agradável” e tem
correlações fracas/muito fracas com as restantes variáveis.
Existem variáveis correlacionadas com mais do que uma das CP’s.
De forma a simplificar a análise, cada variável deve estar correlacionada fortemente apenas com um CP.
Justifica-se a rotação.

Depois da rotação:
A 1ª CP está fortemente correlacionada com as variáveis “Assuntos/temas bem arrumados”, “Tem boa
ilustração”, “1ª página sugestiva”, “Formato adequado”, “Tamanho adequado” e “Papel de boa
qualidade” e apresenta correlações fracas com as restantes variáveis.
A 2ª CP está fortemente correlacionada com as variáveis “Periodicidade correta”, “Informação atualizada”
e “Temas tratados de grande interesse” e apresenta correlações fracas a muito fracas com as restantes
variáveis.
A 3ª CP tem correlações forte com as variáveis “Lê-se facilmente” e “Leitura agradável” e correlações
fracas/muito fracas com as restantes variáveis.

18 | P á g i n a
A % da variabilidade dos dados explicada pelas CP’s retida, antes e após a rotação, já foi analisada
anteriormente.

Por exemplo, pode associar-se a 1ª CP à Estrutura/Organização do Semanário, a 2ª CP aos Conteúdos e


periodicidade do Semanário e a 3ª CP à Qualidade da escrita.

19 | P á g i n a
~

20 | P á g i n a
21 | P á g i n a

Você também pode gostar