Você está na página 1de 82

2

Adriano Rodrigues
INTRODUO ANLISE
MULTIVARIADA
CAPTULO 1
3
Estrutura da Apresentao
I. Anlise multivariada: conceitos e tcnicas
II. Exame grfico dos dados
III. Observaes atpicas (outliers)
IV. Dados perdidos (missing value)
V. Suposies da anlise multivariada
VI. Transformao de dados
4
Parte I
Anlise multivariada:
conceitos e tcnicas
5
O que anlise multivariada?
De um modo geral, refere-se a todos os
mtodos estatsticos que simultaneamente
analisam mltiplas medidas sobre cada
indivduo ou objeto sob investigao.
Qualquer anlise simultnea de mais de
duas variveis de certo modo pode ser
considerada anlise multivariada.
(HAIR et al., 2005, p.26)
6
N
o
de Variveis X Anlise
Anlise
Univariada
Quantas variveis so analisadas
simultaneamente?
Anlise
Bivariada
Anlise
Multivariada
Mais de
duas
Duas Uma
7
Tipos de Variveis
Variveis
Quantitativas
Variveis
Discretas
Variveis
Contnuas
Variveis
Qualitativas
Variveis
Nominais
Variveis
Ordinais
8
Principais Tcnicas de
Anlise Multivariada
Tcnicas de
Dependncia:
Regresso mltipla
Anlise discriminante
Regresso logstica
Tcnicas de
Interdependncia:
Anlise fatorial
Anlise de Cluster
MDS
9
Regresso mltipla
Sua idia-chave a dependncia estatstica de uma
varivel em relao a duas ou mais variveis
independentes.
Seus principais objetivos podem ser descritos como:
Encontrar a relao causal entre as variveis.
Estimar os valores da varivel dependente a partir dos
valores conhecidos ou fixados das variveis independentes.
10
Anlise discriminante
A varivel dependente qualitativa, podendo ser
dicotmica (sim-no) ou multicotmica (alto-mdio-
baixo), e as variveis independentes podem ser
quantitativa ou qualitativa.
Esta tcnica estatstica auxilia na identificao de
quais variveis conseguem diferenciar grupos ou
categorias.
11
Regresso logstica
Tcnica de anlise multivariada que permite
estabelecer a probabilidade de ocorrncia de
determinado evento para situaes em que a varivel
dependente qualitativa e de natureza dicotmica.
Pode ser utilizada mesmo quando alguns dos
pressupostos da anlise discriminante no forem
atendidos.
12
Anlise fatorial
uma tcnica multivariada de interdependncia em
que todas as variveis so simultaneamente
consideradas.
Cada varivel relacionada com as demais, a fim de
estudar as inter-relaes existentes entre elas,
buscando a reduo ou sumarizao dos dados.
13
Anlise de Cluster
o nome dado ao grupo de tcnicas multivariadas
cuja finalidade primria agregar objetos com base
nas caractersticas que eles possuem.
O objetivo classificar uma amostra de indivduos ou
objetos em um pequeno nmero de grupos
mutuamente excludentes, com base nas similaridades
entre eles.
14
MDS
O Escalonamento Multidimensional (MDS) um
procedimento que permite determinar a imagem
relativa percebida de um conjunto de objetos,
transformando os julgamentos de similaridade ou
preferncia em distncias representadas no espao
multidimensional.
15
O Truque!
O truque na estatstica multivariada, se
existe, no est nos clculos, fcil e
rapidamente feitos num computador com
software adequado instalado. O truque
consiste em escolher o mtodo apropriado
ao tipo de dados, us-lo corretamente, saber
interpretar os resultados e retirar deles as
concluses corretas.
(Reis, 2001, p.11)
16
Parte II
Exame grfico dos dados
17
UMA PALAVRA DE
ADVERTNCIA !
Se o pesquisador confia cegamente nessas tcnicas
para encontrar as respostas de suas questes sem ao
menos atentar para as propriedades fundamentais
dos dados que sero analisados, aumenta o risco de
problemas srios, tais como:
Uso indevido de tcnicas
Violao de propriedades estatsticas
Interpretao inadequada dos resultados
18
Examine seus dados...
Existe algum problema
com meu banco de dados?
Como solucionar esses
problemas?
19
Exemplo de dados
Com intuito de exemplificar, no programa SPSS,
temas abordados nesse captulo, foi utilizado uma
banco de dados que se encontra disponvel em
arquivo (Dados_Captulo_1).
Esses dados foram retirados de demonstraes
contbeis de empresas brasileiras.
20
Estatstica Descritiva
A Estatstica descritiva est voltada para organizar,
resumir e descrever os aspectos importantes de um
banco de dados.
Sintetizar os dados pode levar a perda de informaes
originais. Contudo, esta perda pequena quando
comparada ao ganho que se obtm com as
interpretaes que so proporcionadas.
21
Passos no SPSS
(Estatstica descritiva das variveis quantitativas)
1) Analyze
2) Descriptive Statistics
3) Descriptives...
4) Variable(s) (selecionar variveis quantitativas)
5) Options... (selecionar opes desejadas)
6) OK
22
Relatrio do SPSS
(Estatstica descritiva das variveis quantitativas)
Descriptive Statistics
100 33875 111110
100 14575 60950
100 12075 79350
100 56425 152500
100 1668 45036
100 0 59658
100 0,1173 0,0965
100
Patrimnio Lquido
Ativo Circulante
Passivo Circulante
Ativo Permanente
Ativo R. L. P.
Passivo E. L. P.
LL em porcentagem
Valid N (listwise)
N Minimum Maximum Mean
3,13887E-02
71245,90
35311,25
50249,25
106094,25
19715,76
34376,70
1,70E-02
15312,14
10213,83
12942,80
24257,34
9971,79
12916,70
Std. Deviation
23
Onde:
N Nmero de observaes de cada varivel.
Minimum Corresponde ao menor valor encontrado
para cada varivel.
Maximum Corresponde ao maior valor encontrado
para cada varivel.
Mean Mdia aritmtica no ponderada de cada
varivel.
Std. Deviation Desvio-padro de cada varivel.
24
Mdia aritmtica no ponderada
A mdia definida como a soma das observaes
dividida pelo nmero de observaes.
Se tivermos, por exemplo, n valores, temos:
n
x
n
x x x
Mdia
n
i
i
n

=
=
+ + +
=
1 2 1
...
25
Desvio-Padro
uma medida de disperso.
a raiz quadrada da varincia.
Varincia definida como a mdia dos desvios ao
quadrado em relao mdia da distribuio
26
Como calcular a varincia?
Para uma amostra:
1
) (
2
2

n
X x
S
Para uma populao finita:
N
x

=
2
2
) (
o
27
Passos no SPSS
(Estatstica descritiva das variveis qualitativas)
1) Analyze
2) Descriptive Statistics
3) Frequencies...
4) Variable(s) (selecionar variveis qualitativas)
5) Statistics... (selecionar opes desejadas)
6) OK
28
Relatrio do SPSS
(Estatstica descritiva das variveis qualitativas)
Tipo de SA
60 60,0 60,0 60,0
40 40,0 40,0 100,0
100 100,0 100,0
Capi tal Aberto
Capi tal Fechado
Total
Vali d
Frequency Percent Vali d Percent
Cumul ati ve
Percent
Tamanho
34 34,0 34,0 34,0
32 32,0 32,0 66,0
34 34,0 34,0 100,0
100 100,0 100,0
Pequena
Mdi a
Grande
Total
Vali d
Frequency Percent Vali d Percent
Cumul ati ve
Percent
29
Exame grfico dos dados
Examine a forma da distribuio da varivel
Examine a relao entre variveis
Examine as diferenas de grupos

30
Forma da distribuio
Construindo um histograma possvel
representar a freqncia de ocorrncias
dentro de categorias de dados.
Para avaliar normalidade, pode-se sobrepor
distribuio uma curva normal.
O diagrama ramo-e-folhas uma variante do
histograma.
31
1) Graphs
2) Histogram...
3) Variable (selecionar a varivel desejada)
4) Display normal curve (selecionar)
5) Titles (para definir ttulo do grfico)
6) OK
Passos no SPSS
(Histograma)
32
Patrimnio Lquido
1
1
0
0
0
0
,
0
1
0
5
0
0
0
,
0
1
0
0
0
0
0
,
0
9
5
0
0
0
,
0
9
0
0
0
0
,
0
8
5
0
0
0
,
0
8
0
0
0
0
,
0
7
5
0
0
0
,
0
7
0
0
0
0
,
0
6
5
0
0
0
,
0
6
0
0
0
0
,
0
5
5
0
0
0
,
0
5
0
0
0
0
,
0
4
5
0
0
0
,
0
4
0
0
0
0
,
0
3
5
0
0
0
,
0
20
10
0
Std. Dev = 15312,14
Mean = 71245,9
N = 100,00
Relatrio do SPSS
(Histograma)
33
1) Analyze
2) Descriptive Statistics
3) Explore...
4) Dependent List (Patrimnio Lquido PL)
5) Statistics... (selecionar opes desejadas)
6) Plots... (selecionar Stem-and-leaf)
7) OK
Passos no SPSS
(Diagrama ramo-e-folhas)
34
Relatrio do SPSS
(Diagrama ramo-e-folhas)
Patrimnio Lquido (Stem-and-Leaf Plot)
Frequency Stem & Leaf
1,00 3 . 3
1,00 3 . 9
3,00 4 . 024
2,00 4 . 67
5,00 5 . 00114
3,00 5 . 668
19,00 6 . 0000000000222333333
19,00 6 . 5555555566667777799
9,00 7 . 011333444
11,00 7 . 55778889999
10,00 8 . 1111222244
5,00 8 . 56999
6,00 9 . 002334
2,00 9 . 66
3,00 10 . 555
35
Relao entre variveis
O mtodo mais popular para examinar relaes
bivariadas o diagrama de disperso.
Uma forte organizao de pontos ao longo de
uma linha reta caracteriza uma relao linear.
Um formato particularmente adequado a tcnicas
multivariadas a matriz de disperso.
36
1) Graphs
2) Scatter...
3) Matrix (selecionar)
4) Define
5) Matrix Variables (Selecionar as variveis
PL, AC, PC e AP)
6) OK
Passos no SPSS
(Matriz de disperso)
37
Relatrio do SPSS
(Matriz de disperso)
Patrimnio Lquido
Ativo Circulante
Passivo Circulante
Ativo Permanente
38
Diferenas de grupos
preciso compreender como os valores esto
distribudos em cada grupo e se h diferenas
suficientes para suportar significncia estatstica.
Tambm importante identificar observaes
outliers.
O mtodo usado para essa tarefa o grfico de
caixas (ou diagrama de extremos-e-quartis).
39
1) Graphs
2) Boxplot...
3) Simple (selecionar)
4) Summaries for groups of cases (selecionar)
5) Define
6) Variable (Patrimnio Lquido PL)
7) Category Axix (Tipo de S.A.)
8) OK
Passos no SPSS
(Grfico de caixas)
40
Relatrio do SPSS
(Grfico de caixas)
40 60 N =
Tipo de SA
Capital Fechado Capital Aberto
P
a
t
r
i
m

n
i
o

L

q
u
i
d
o
120000
100000
80000
60000
40000
20000
41
Parte III
Observaes atpicas (outliers)
42
Observaes atpicas (outliers)
So observaes com uma combinao nica de
caractersticas identificveis como sendo
notavelmente diferentes das outras observaes.
No podem ser categoricamente caracterizadas
como benficas ou problemticas.
importante averiguar seu tipo de influncia.
43
Classes de observaes
atpicas (outliers)
1
o
Erro de procedimento
(erro na entrada de dados ou uma falha na codificao)
2
o
Resultado de um evento extraordinrio detectvel
3
o
Observao extraordinria inexplicvel
4
o
Observaes com valores possveis, mas com
combinao extraordinria entre as variveis.
44
Identificao de observaes
atpicas (outliers)
Deteco Univariada Casos que esto fora dos
intervalos da distribuio, sendo que os principais
passos deste procedimento so os seguintes:
Padronizar a varivel para ter mdia 0 (zero) e desvio-
padro 1 (um).
Em pequenas amostras (N s 80) outlier apresenta
score > 2,5.
Em grandes amostras outlier apresenta score > 3,0.
45
Deteco Bivariada Casos que esto fora do
intervalo das outras observaes, percebidos como
pontos isolados no diagrama de disperso
(visualizao grfica).
Deteco Multivariada Casos com as maiores
distncias no espao multidimensional de cada
observao em relao ao centro mdio das
observaes (visualizao grfica).
Identificao de observaes
atpicas (outliers)
46
1) Graphs
2) Boxplot...
3) Simple (selecionar)
4) Summaries of separate variable (selecionar)
5) Define
6) Variable (selecionar variveis AC e PC)
7) OK
Passos no SPSS
(Outliers: deteco univariada)
47
Relatrio do SPSS
(Outliers: deteco univariada)

100 100 N =
Passivo Circulante Ativo Circulante
100000
80000
60000
40000
20000
0
96
82
5
42
48
1) Graphs
2) Scattert...
3) Simple
4) Y Axis (varivel PL)
5) X Axis (varivel PC)
6) Set markers by (varivel Tamanho)
7) OK
Passos no SPSS
(Outliers: deteco bivariada)
49
Relatrio do SPSS
(Outliers: deteco bivariada)
Passivo Circulante
80000 70000 60000 50000 40000 30000 20000 10000
P
a
t
r
i
m

n
i
o

L

q
u
i
d
o
120000
100000
80000
60000
40000
20000
Tamanho
Grande
Mdia
Pequena
50
1) Graphs
2) Scatter...
3) 3-D
4) Y Axis (varivel PL)
5) X Axis (varivel PC)
6) Z Axis (varivel AC)
7) Set markers by (varivel Tamanho)
8) OK
Passos no SPSS
(Outliers: deteco trs dimenses)
51
Relatrio do SPSS
(Outliers: deteco trs dimenses)

Tamanho
Grande
Mdia
Pequena
Patrimnio Lquido
70000 100000
40000
60000
60000
80000
80000
100000
50000
120000
60000
Passivo Circulante
Ativo Circulante
40000
40000
30000
20000 20000
52
Eliminao de observaes
atpicas (outliers)
Devem ser mantidas, a menos que exista prova
demonstrvel de que esto verdadeiramente fora
do normal e que no so representativas de
quaisquer observaes na populao.
Se as observaes atpicas so eliminadas, o
pesquisador corre o risco de melhorar a anlise
multivariada, mas limita sua generalidade.
53
Parte IV
Dados perdidos (missing value)
54
Dados Perdidos (missing value)
A preocupao primria do pesquisador
determinar as razes inerentes aos dados
perdidos.
O pesquisador deve compreender os processos
que conduzem os dados perdidos a fim de
selecionar o curso de ao apropriado.
55
Padro de Dados Perdidos
Quando os dados perdidos ocorrem em um padro
aleatrio, pode haver providncias para minimizar seu
efeito.
As aes corretivas para dados perdidos somente
podero ser usadas se o processo de dados perdidos
tiver um padro aleatrio, ou seja, quando o processo de
dados perdidos for completamente ao acaso, pois, caso
contrrio, sero introduzidas tendncias nos resultados.
56
Aes corretivas (remdios)
para dados perdidos

Incluir somente observaes com dados
completos
Eliminar as observaes e/ou variveis
problemticas
Utilizar mtodos de atribuio
57
Incluir somente observaes
com dados completos
Tratamento simples e direto.
conhecido como abordagem de caso completo.
mais apropriado quando a extenso de dados
perdidos pequena, a amostra suficientemente
grande e as relaes nos dados so to fortes que no
podem ser afetadas por qualquer processo de dados
perdidos.
58
Eliminar as observaes e/ou
variveis problemticas
Pode-se descobrir que os dados perdidos esto
concentrados em um pequeno subconjunto de casos
e/ou variveis, sendo que sua excluso reduz
substancialmente a extenso dos dados perdidos.
O pesquisador sempre deve considerar os ganhos na
eliminao de uma fonte de dados perdidos versus a
eliminao de uma varivel na anlise multivariada.
59
Utilizar mtodos de atribuio
O mtodo de atribuio um processo de
estimao de valores perdidos com base em
valores vlidos de outras variveis e/ou
observaes na amostra.
Principais mtodos de atribuio:
Substituio por um caso
Substituio pela mdia
Atribuio por regresso
60
Parte V
Suposies da anlise multivariada
61
Suposies da anlise
multivariada
A anlise multivariada requer testes de suposies
para as variveis separadas e em conjunto.
O foco agora ser o exame de variveis
individuais.
Nos captulos posteriores sero abordados os
mtodos usados para avaliar as suposies
inerentes s tcnicas multivariadas especficas.
62
Suposies da anlise
multivariada
As principais suposies so:
Normalidade
Homoscedasticidade
Linearidade
63
Normalidade
Os dados devem ter uma distribuio que seja
correspondente a uma distribuio normal.
Esta a suposio mais comum na anlise
multivariada.
Uma situao em que todas as variveis exibem
uma normalidade univariada ajuda a obter, apesar
de no garantir, a normalidade multivariada.
64
Normalidade
O teste diagnstico de normalidade mais simples
uma verificao visual do histograma.
Kolmogorov-Smirnov, Jarque-Bera e Shapiro-
Wilks so exemplos de testes que tentam
identificar se uma determinada varivel possui
distribuio normal.
65
1) Analyze
2) Nonparametric Tests
3) 1-Sample K-S...
4) Test Variable List (PL, PC, ARLP e LL)
5) Test Distribution... (selecionar opo Normal)
6) Ok
Passos no SPSS
(Normalidade: teste Kolmogorov-Smirnov)
66
Relatrio do SPSS
(Normalidade: teste Kolmogorov-Smirnov)
One-Sample Kolmogorov-Smirnov Test
N
Mean
Std. Deviation
Normal Parameters
a,b
Absolute
Positive
Negative
Most Extreme
Differences
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
Patrimnio
Lquido
Passivo
Circulante Ativo R. L. P.
LL em
porcentagem
Test distribution is Normal. a.
Calculated from data. b.
100 100 100 100
71245,90 50249,25 19715,76 1,69501E-02
15312,14 12942,80 9971,79 3,13887E-02
0,101 0,086 0,095 0,164
0,100 0,057 0,095 0,120
0,101 0,086 0,068 0,164
1,012 0,862 0,945 1,636
0,258 0,448 0,333 0,009
67
Relatrio do SPSS
(Normalidade: teste Kolmogorov-Smirnov)
Interpretao do relatrio: Dado H
0
(a distribuio
normal) e H
1
(a distribuio no normal), pode-se dizer que
no existem evidncias estatsticas para rejeitar H
0
(ao nvel
de significncia de 5%) nas seguintes variveis: Patrimnio
Lquido, Passivo Circulante e Ativo R.L.P. (Sig. > 0,05), ou
seja, nestes casos a distribuio normal. Por outro lado,
constatou-se que a varivel LL em porcentagem no
apresenta uma distribuio normal (Sig. < 0,05).
68
Homoscedasticidade
A homoscedasticidade significa igualdade de
varincias entre as variveis.
Se as variveis dependentes exibem iguais nveis
de varincia atravs da escala de previso, a
varincia dos resduos deve ser constante.
Quando a varincia dos termos de erro () parece
constante, diz-se que os dados so
homoscedsticos.
69
Homoscedasticidade
Para diagnosticar a homoscedasticidade podem ser
utilizados testes estatsticos, tais como: Pesaran-
Pesaran, Quandt-Goldfeld, Glejser e Park.
Os testes estatsticos relativos a esta suposio
sero tratados no captulo de regresso linear
mltipla.
70
Linearidade
A linearidade pode ser usada para expressar o
conceito de que um modelo possui as propriedades
de aditividade e homogeneidade.
Os modelos lineares prevem valores que recaem
em uma linha reta.
A linearidade uma suposio implcita nas
tcnicas multivariadas baseadas em medidas
correlacionais de associao, incluindo regresso
mltipla, regresso logstica e anlise fatorial
71
Linearidade
A maneira mais comum para avaliar linearidade
examinar diagramas de disperso das variveis e
identificar padres no lineares nos dados.
Um tratamento alternativo executar uma anlise
de regresso simples* e examinar os resduos,
uma vez que estes refletem a parte no explicada
da varivel dependente, qualquer parte no linear
da relao despontar nos resduos.
*Ser visto no captulo de regresso
72
Parte VI
Transformao de dados
73
Transformao de dados
A transformao de dados executada normalmente
para modificar alguma varivel, com intuito de
corrigir violaes das suposies estatsticas e/ou
melhorar as relaes entre variveis.
As transformaes podem ser tanto nas variveis
dependentes quanto nas independentes.
74
Assimetria e Curtose
Assimetria a propriedade que indica a tendncia
de maior concentrao dos dados em relao ao
ponto central.
Curtose a caracterstica que se refere ao grau de
achatamento.
Medidas de assimetria e de curtose so teis para
se precaver contra erros ao estabelecer a suposio
de populaes distribudas normalmente.
75
Assimetria
A medida de assimetria baseada nas relaes entre a
mdia, mediana e moda.
Estas trs medidas so idnticas em valor para uma
distribuio simtrica, mas para uma distribuio
assimtrica a mdia distancia-se da moda, situando-se
a mediana em uma posio intermediria.
A distncia entre a mdia e a moda pode ser usada
para medir a assimetria, ou seja, quanto maior a
distncia, seja negativa ou positiva, maior a
assimetria da distribuio.
76
Assimetria
Distribuio Simtrica
Mdia = Mediana = Moda
Moda
Mdia
Mediana
Assimetria direita ou positiva
Moda
Assimetria esquerda ou negativa
Mdia
Mediana
77
Curtose
J a curtose, que representa uma medida de
achatamento das distribuies, pode ser ilustrada
do seguinte modo:
Achatada com grande
disperso
Alongada com pouca disperso
78
Transformaes para obter
normalidade
- Distribuio assimtrica positiva:
Emprega-se o logaritmo das variveis.
- Distribuio assimtrica negativa:
Emprega-se a raiz quadrada das variveis.
- Distribuio achatada:
Emprega-se o inverso das variveis (1/y e 1/x).
79
Transformaes para obter
homoscedasticidade
- Distribuio dos resduos:
Emprega-se logaritmo, raiz quadrada, inverso etc.
- A transformao dever ser testada para verificar
se o remdio utilizado eficiente.
80
Transformaes para obter
linearidade
X
Y Y
2

X
2

X
Y
log Y
1/Y
Y
1/2
log X
1/X
X
1/2
X
Y
X
2

log Y
1/Y
Y
1/2
X
Y
Y
2

log X
1/X
X
1/2
81
1) Transform
2) Compute...
3) Target Variable (definir nome para a nova varivel transformada)
4) Numeric Expression (inserir funo matemtica da transformao)
5) Functions (no caso de utilizar uma funo de transformao do SPSS)
6) Ok
Passos no SPSS
(Transformao de dados)
82
Observao: importante salientar que essa rotina
do SPSS no tem como finalidade emitir
relatrios, mas criar uma nova varivel no
arquivo de banco de dados que estiver sendo
utilizado. Os nmeros dessa nova varivel
correspondero aos valores transformados, com
base na funo matemtica que for empregada.
Passos no SPSS
(Transformao de dados)

Você também pode gostar