Escolar Documentos
Profissional Documentos
Cultura Documentos
Faculdade de Ciências
Departamento de Matemática e Informática
Curso de Licenciatura em Estatística
Estatística Multivarida
3o ano Semestre II
Discentes
Anísio Osias Inguane
Carlos Alberto
Écio Langa
Emelita Noé
Ivone Pedro Ussivane
Docente:
Osvaldo Loquiha
2 Metodologia 2
3 Dados e Material 3
3.1 Material . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3.1.1 População e Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3.1.2 Instrumento de Recolha de Dados . . . . . . . . . . . . . . . . . . . . 3
3.2 Descrição das variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3.3 Pacotes usados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
4 Resultados 5
4.1 Verificação dos pressupostos para a aplicação da análise factorial . . . . . . . . 5
4.2 Extracção dos factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.3 Divisão da amostra em duas partes . . . . . . . . . . . . . . . . . . . . . . . . 9
4.3.1 Verificação dos pressupostos para a aplicação da análise factorial nas
duas amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.4 Análise da composição dos fatores . . . . . . . . . . . . . . . . . . . . . . . . 10
5 Discussão 11
6 Conclusão 12
7 Referências bibliográficas 13
8 Anexos 14
8.1 procedimento no R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1 Introdução
O processo de escolha de um determinado produto envolve a combinação das características do
consumidor e da compra com as características do produto. Os indivíduos adotam diferentes cri-
térios de avaliação para tomar a sua decisão, comparando as diversas opções existentes de acordo
com a sua percepção de performance desempenhada por cada um destes critérios (Blackwellet
al., 2005). As vezes, por se tomar uma decisão usando a intuição, não se idêntifica, de maneira
sistemática, esses fatores, ou essas variáveis, ou seja, não são idêntificadas quais as variáveis
que afetaram a tomada de decisão (Vicini,2005).
A estatística dispõe de diversas técnicas para a análise de um conjunto de características de pes-
soas ou objetos, que podem auxiliar na tomada de decisão com um certo grau de confiança.
Neste contexto, segundo Viali(2012), técnicas analíticas multivariadas estão sendo largamente
aplicadas hoje na indústria para a tomada de decisão. Hoje já não faz mais sentido seguir o
que a pouco tempo ainda era comum, considerar os consumidores como um grupo homogêneo
e caracterizado por um pequeno grupo de variáveis demográficas. Ao contrário, é necessário
desenvolver estratégias que atinjam grupos variados de consumidores com características de-
mográficas e psicográficas em um mercado com múltiplas restrições.
Teste de Esfericidade de Bartlett: estatística de teste usada para examinar a hipótese de que as
variáveis não sejam correlacionadas na população, ou seja, a matriz de correlação da população
é uma matriz identidade, onde cada variável se correlaciona perfeitamente com ela própria (r =
1
1), mas não apresenta correlação com as outras variáveis (r = 0). A significância para o teste
não deve ultrapassar 0,05.
1.3 Objectivos
1.3.1 Objectivo geral:
Analisar os fatores determinantes relativos ao ato de fazer compras dos clientes de uma
cadeia de supermercado.
2 Metodologia
Para alcancar os objectivos inicialmente tracados comecou-se por construir a matriz de correla-
coes, onde observou-se que grande parte das variaveies possui correlacao acima de 0,3.
Para testar se os dados estão suficientemente ligados e proceder à análise foi utilizado o mé-
todo de Kaiser-Meyer-Olkin Measure of Sampling Adequacy (KMO), que mede a adequação
2
dos dados, onde valores iguais ou menores do que 0,5 indicam que a realização da análise fato-
rial é insatisfatória devido a correlação fraca entre as variáveis. outro teste que precede a Análise
Fatorial com vistas a verificação de suas premissas, é o Bartlett Test of Sphericity (BTS), que
testa a hipótese de que a matriz de correlação é uma matriz identidade ou seja, que não há cor-
relação entre as variáveis para enconcontrar os autovalores usou-se a analise de componentes
principais pois garante obter fatores únicos e não-correlacionados.
Em siguida Para a extração dos fatores foi usado o critério de Kaiser (autovalor maior do que 1),
De acordo com o critério da variância acumulada (manter um número de fatores que capte pelo
menos 60% da variância acumulada), Finalmente, pelo diagrama de declividade (Scree test), são
retidos os fatores com variancia maior do que 1.
Com vista a melhorar a interpretação dos fatores foi feita a rotação varimax e foi usado o método
de máxima verossimilhança com rotação varimax.
E posteriormente a amostra foi dividida em duas partes para verificar se os factores continuam
os mesmos .
3 Dados e Material
3.1 Material
3.1.1 População e Amostra
A população designada para esta pesquisa são todos os clientes dos supermecados. Para unidades
amostrais foram inquiridos 500 dos seus clientes do universo definido como população.
3
Tabela 1: Apresentação das variáveis e sua descrição
4
4 Resultados
4.1 Verificação dos pressupostos para a aplicação da análise factorial
O coeficiente de correlação de Pearson (1925) é um indicador da força de uma relação linear
entre duas variáveis intervalares, sendo definido o intervalo de -1 a 1. Na tabela 2 são apresen-
tadas as correlações entre as variáveis analisadas no presente trabalho.
De acordo com o coeficiente de correlação de Pearson, observamos que as variáveis d e f, g e
d e f e g são altamente correlacionadas. Já as variáveis a-b, d-e, h-d, e-f, g-e , h-f e g-h são
moderadamente correlacionadas.
Variáveis a b c d e f g h i j k l
a 1 0.53 0.35 0.01 -0.07 0.04 0.07 0.15 0.09 0.44 0.07 0.23
b 0.53 1 0.27 -0.003 -0.01 0.06 0.04 0.23 0.07 0.35 0.14 0.10
c 0.35 0.27 1 0.20 0.13 0.17 -0.04 0.02 0.16 0.12 0.10 0.14
d 0.01 -0.003 0.20 1 0.59 0.73 -0.80 -0.59 0.21 -0.05 0.38 0.07
e -0.07 -0.01 0.13 0.59 1 0.63 -0.63 -0.50 0.15 -0.08 0.30 0.04
f 0.04 0.06 0.17 0.73 0.63 1 -0.73 -0.54 0.28 -0.02 0.38 0.09
g 0.07 0.04 -0.04 -0.80 -0.63 -0.73 1 0.64 -0.16 0.10 -0.32 0.02
h 0.15 0.23 0.02 -0.59 -0.50 -0.54 0.64 1 -0.03 0.07 -0.21 -0.01
i 0.09 0.07 0.16 0.21 0.15 0.28 -0.16 -0.03 1 0.04 0.20 0.15
j 0.44 0.35 0.12 -0.05 -0.08 -0.02 0.10 0.07 0.04 1 0.12 0.20
k 0.07 0.14 0.10 0.38 0.30 0.38 -0.32 -0.21 0.20 0.12 1 0.20
l 0.23 0.10 0.14 0.07 0.04 0.09 0.02 -0.01 0.15 0.20 0.20 1
Para se poder aplicar a análise factorial deve haver correlação entre as variáveis. O teste
de KMO que identifica o grau de inter-correlações entre as variáveis, apresentou um resultado
satisfatório de 0.8223571, o que mostra que existe uma correlação média entre as variáveis. O
teste de esfericidade de Bartlett tem associado um nível de significância de 2.22e-16, o que leva
a concluir que existe correlação entre algumas variáveis a um nível de significância de 0.05 (ver
Tabela3), pois com este nível de significância rejeita-se a hipótese da matriz das correlações na
população ser a identidade.
Ambos os testes permitem o procedimento da análise factorial.
5
todos os autovalores maiores que um (1) devem ser incluídos na análise fatorial, ou seja, neste
caso resiam três (3)
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 PC12 h2 u2 com
a -0.02 0.81 -0.22 0.00 -0.08 -0.15 0.12 -0.29 0.40 0.12 -0.01 0.00 1 0 2.2
b -0.01 0.74 -0.32 0.06 0.27 0.16 0.35 0.07 -0.21 -0.27 -0.02 0.02 1 0 3.0
c 0.19 0.53 -0.07 0.55 -0.44 0.20 -0.36 0.06 -0.08 -0.05 0.01 -0.06 1 0 4.4
d 0.89 0.01 -0.08 0.04 -0.05 0 -0.01 -0.16 -0.19 0.18 -0.19 0.27 1 0 1.6
e 0.78 -0.06 -0.09 0.03 -0.03 0.04 0.12 0.52 0.29 0.01 -0.09 0.03 1 0 2.2
f 0.87 0.06 -0.03 0.05 0.04 -0.05 0.10 0 -0.07 0.14 0.44 0.00 1 0 1.6
g -0.88 0.13 0.16 0.03 -0.04 0.07 -0.10 0.11 0.12 -0.10 0.18 0.30 1 0 1.6
h -0.73 0.27 0.12 0.23 0.19 0.21 0.15 0.16 -0.09 0.44 -0.03 -0.03 1 0 3.1
i 0.30 0.25 0.60 0.44 0.37 -0.38 -0.02 -0.01 0.03 -0.09 -0.05 0.00 1 0 4.6
j -0.06 0.65 -0.13 -0.46 0.12 -0.35 -0.38 0.21 -0.14 0.08 -0.01 -0.01 1 0 3.9
k 0.50 0.26 0.29 -0.27 0.34 0.56 -0.25 -0.10 0.12 -0.03 0.00 -0.02 1 0 5.0
l 0.11 0.43 0.60 -0.35 -0.48 0.03 0.28 0.04 -0.09 -0.02 -0.02 -0.02 1 0 4.2
SS 3.85 2.31 1.04 0.96 0.82 0.73 0.61 0.49 0.40 0.36 0.27 0.17
P Var 0.32 0.19 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.03 0.02 0.01
C Var 0.32 0.51 0.60 0.68 0.75 0.81 0.86 0.90 0.93 0.96 0.99 1
Com o grafico Scree plot (figura 1), é posivel identificar o ”cotovelo”no terceiro compo-
nente. Então a partir dos dois métodos foi decidido a extracção de três fatores, pois o três (3) é
um valor comum utilizando os dois métodos (critério de Kaisar e gráfico Scree plot)
Observando-se na figura 2, pode-se verificar que os escores estão dispersos, não havendo
nenhuma observação atípica, para os três fatores.
6
Figura 2: gráficos de dispersão com os escores fatoriais relevantes
Como verificamos na Tabela 5 agumas variáveis não ficaram alocadas num único fator.
No modelo fatorial ortoginal, as cargas fatorias não podem ter grandezas numéricas relevantes
próximos em mais de um fator e isso ocorreu com mais de uma variáveis.
7
Tabela 6: AFE com rotação varimax
De acordo com a figura 3, observa-se uma tendência linear positiva entre os escores fatorias
obtidos usando componentes principais vs máxima verossimilhança.
8
Figura 3: gráfico de dispersão dos escores fatoriais obtidos usando componentes principais vs.
escores fatoriais usando máxima verossimilhança.
9
Dividindo a amostra em duas partes pode-se observar que as cargas fatorias significativas estão
agrupados da mesma forma excepto na variável l, na primeira metade ela pertence a terceiro
fator e na segunda metade ela está alocado no segundo fator.
−Fator 2 é composto pelas as variávies a,b,c,j. Este fator represeta 18% da variância total
dos dados, nesse fator tem se alocado as variáveis que caracterizam os requisitos para a realiza-
ção das compras. A variável a ”é muito importante que a loja esteja bem organizada”é a variável
com maior correlação com factor 2, notavelmente varia no sentido contrário.
10
5 Discussão
Na análise fatorial feita para obter a percepção sobre o ato de fazer compras dos clientes em uma
cadeia de supermercados, esperava-se uma equivalência entre a análise feita usando método das
componentes principais e máxima verossimilhança, mas observa-se uma diferença entre o pri-
meiro fator da análise feita com componentes principais e o primeiro da análise feita usando o
método da máxima verosimilhança (adição da variável k), também nota-se uma diferença entre
o terceiro fator utilizando método dos componentes principais (adição da variáve k) e o terceiro
componente da análise feita usando o método da máxima verosimilhança.
Dividindo a nossa amostra em duas partes nota-se que o modelo da análise fatorial se adequa
co alguma perfeição pois, apresentam resultados similares tanto na primeira como na segunda
repartição da amostra
11
6 Conclusão
Através do trabalho desenvolvido nesse relatório conclui-se que, por meio da análise factorial,
identifou-se três grupos de variáveis subjacentes. O primeiro grupo é formado pelas variáveis
que evideciam o nível de afeção dos clientes pelo ato fazer compras. Esse primeiro grupo pode
fornecer a rede de supermercados o quão os clientes gostam ou não de fazer as compras.
O segundo grupo é constituido pelas variáveis retratam os requisitos para a realização das com-
pras. Esse grupo pode axiliar a rede de supermercados a identificar os aspectos determinantes
que fazem com que alguns clientes frequentem os supermercados.
O terceiro grupo é composto por variáveis que caracterizam a preferência de produtos e compa-
nhia para as campras. Esse terceiro e o último grupo trás a percepção para rede de supermercados
os produtos preferencias dos seus clientes
O modelo de análise fatorial teve sucesso de atender o objectivo desse trabalho, pois com sua
utilização foi possível definir os fatores determinantes relativos ao ato de fazer compras.
12
7 Referências bibliográficas
• Blackwell,R.D.,Miniard,P.W.,Engel,J.F.São Paulo:Pioneira Thomson Learning,2005
• Hair,Joseph F.et al.(2005). Análise Multivariada de Dados. 5.ed. Porto Alegre: Book-
man;
13
8 Anexos
8.1 procedimento no R
library ( carData )
library ( car )
library ( dplyr )
library ( psych )
library ( stargazer )
library ( REdaS )
rm ( l i s t = l s ( ) )
s e t w d ( ”D : \ \ Documentos \ \ C u r s o de E s t a t i s t i c a \ \ 3 º Ano \ \ 2
s e m e s t r e \ \ E s t a t í s t i c a M u l t i v a r i a d a \ \ 2 0 2 2 \ \ TP2 ” )
l i b r a r y ( haven )
CAF <− r e a d _ s a v ( ” compras_AF . s a v ” )
CAF$Respondente =NULL
dim (CAF)
## E s t a t i s t i c a s d e s c r i t i v a s ##
d e s c r i b e ( CAF , skew = F , r a n g e s = F )
# Adequação p a r a u s a r a A n á l i s e F a c t o r i a l
KMO(CAF)
b a r t _ s p h e r ( CAF , u s e = ” p a i r w i s e . c o m p l e t e . o b s ” )
# Matriz das c o r r e l a ç õ e s
mcor= c o r ( CAF , u s e =” p a i r w i s e . c o m p l e t e . o b s ” )
s t a r g a z e r ( mcor , t y p e =” t e x t ” , t i t l e = ” M a t r i z d a s
c o r r e l a ç õ e s ” , d i g i t s = 2 , column . s e p . w i d t h = ” −2 p t ” )
# Método de Componentes p r i n c i p a i s
n r f a c <− f a . p a r a l l e l ( CAF , fm=” m i n r e s ” , f a =” f a ” , p l o t = T )
MAFE <− p r i n c i p a l ( mcor , n f a c t o r s = 3 , r e s i d u a l s = T ,
r o t a t e =” none ” , s c o r e s =T , c o v a r = T )
VMAFE <− p r i n c i p a l ( mcor , n f a c t o r s = 2 , r e s i d u a l s = T ,
r o t a t e =” v a r i m a x ” , s c o r e s =F , c o v a r = T )
v=MAFE$Vaccounted
s t a r g a z e r ( v , t y p e =” l a t e x ” , t i t l e = ” A n a l i s e f a t o r i a l
e x p l o r a t ó r i a u s a n d o o Métodos de c o m p o n e n t e s p r i n c i p a i s ” , d i g i t s = 2 )
a=VMAFE$Vaccounted
s t a r g a z e r ( a , t y p e =” l a t e x ” , summary = F , t i t l e = ”AFE com
r o t a ç ã o v a r i m a x ” , d i g i t s = 2 , column . s e p . w i d t h = ” −6 p t ” )
p l o t ( MAFE$values , t y p e =” b ” , y l a b =” A u t o v a l o r e s ” , x l a b =” Componentes P r i n c
a b l i n e ( a =1 , b = 0 )
p a r ( mfrow=c ( 1 , 3 ) )
a a =MAFE$weights
x= d a t a . f r a m e ( a a )
View ( x )
14
p l o t ( x$PC1 , y l a b = ” e s c o r e s f a t o r i a s ” , pch =15 , c o l =” r e d ” ,
main = ” P r i m e i r o f a t o r ” )
p l o t ( x$PC2 , y l a b = ” e s c o r e s f a t o r i a s ” , pch =15 , c o l =” b l a c k ” ,
main = ” Segundo f a t o r ” )
p l o t ( x$PC3 , y l a b = ” e s c o r e s f a t o r i a s ” , pch =15 , c o l = ’ b l u e ’ ,
main = ” T e r c e i r o f a t o r ” )
# Método da Maxima V e r o s s i m i l h a n ç a
ML <− f a ( mcor , n f a c t o r s =2 , n . o b s = NA, r o t a t e =” v a r i m a x ” ,
r e s i d u a l s = TRUE , c o v a r = TRUE , s y m m e t r i c =FALSE , fm=” ml ” )
s t a r g a z e r ( rm , t y p e =” l a t e x ” , summary = F , t i t l e = ”AFE u s a n d o
Máxima v e r o s s i m i l h a n ç a com r o t a ç ã o v a r i m a x ” , d i g i t s = 2 )
ML$weights
y= d a t a . f r a m e ( ML$weights , VMAFE$weights )
p l o t ( VMAFE$weights , ML$weights , pch =16 , c o l =” b l a c k ”
, x l a b =” e s c o r e s f a t o r i a i s u s a n d o máxima v e r o s s i m i l h a n ç a ” , y l a b = ” e s c
# D i v i s ã o da a m o s t r a
# p r i m e i r a metade
CAF1 <− f i l t e r ( CAF , R e s p o n d e n t e <=250)
CAF1$Respondente =NULL
mcor1= c o r ( CAF1 , u s e =” p a i r w i s e ” )
KMO( CAF1 )
b a r t _ s p h e r ( CAF1 , u s e = ” p a i r w i s e ” )
MAFE1 <− p r i n c i p a l ( mcor1 , n f a c t o r s = 1 2 , r e s i d u a l s =
T , r o t a t e =” none ” , s c o r e s =T , c o v a r = T )
a=MAFE1$Vaccounted
s t a r g a z e r ( a , t y p e =” l a t e x ” , summary = F , t i t l e = ”AFE sem
r o t a ç ã o v s com r o t a ç ã o v a r i m a x p a r a p r i m e i r a m e t a d e ” , d i g i t s = 2 , colu
VMAFE1 <− p r i n c i p a l ( mcor1 , n f a c t o r s = 3 , r e s i d u a l s = T ,
r o t a t e =” v a r i m a x ” , s c o r e s =T , c o v a r = T )
p l o t ( MAFE1$values , t y p e =” b ” , y l a b =” A u t o v a l o r e s ” ,
x l a b =” Componentes P r i n c i p a i s ” , l a b =c ( 5 , 5 , 5 ) , main =” P r i m e i r a m e t a d e da
a b l i n e ( a =1 , b = 0 )
# segunda metade
CAF2 <− f i l t e r ( CAF , R e s p o n d e n t e > 2 5 0 )
CAF2$Respondente =NULL
mcor2= c o r ( CAF2 , u s e =” p a i r w i s e ” )
KMO( CAF2 )
b a r t _ s p h e r ( CAF2 , u s e = ” p a i r w i s e ” )
c o r t e s t . b a r t l e t t ( CAF2 )
MAFE2 <− p r i n c i p a l ( mcor2 , n f a c t o r s = 3 , r e s i d u a l s = T ,
r o t a t e =” none ” , s c o r e s =T , c o v a r = T )
b=MAFE2$Vaccounted
s t a r g a z e r ( b , t y p e =” l a t e x ” , summary = F , t i t l e = ”AFE sem
r o t a ç ã o v s com r o t a ç ã o v a r i m a x p a r a p r i m e i r a m e t a d e ” , d i g i t s = 2 , colu
15
a b l i n e ( a =1 , b = 0 )
16