Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatística - Análise Bivariada
Estatística - Análise Bivariada
An
alise bivariada
Nos captulos anteriores, vimos formas de apresentar e analisar a distribuicao de uma
variavel de maneira isolada, o que configura uma an
alise univariada. Todavia, duas
(ou mais) variaveis de um conjunto de dados podem estar, de alguma forma, associadas.
O objetivo de uma an
alise bivariada e verificar, ao menos preliminarmente, a
associacao (ou falta de associacao) entre duas variaveis de um conjunto de dados.
Neste captulo, veremos formas de apresentar a relacao entre duas variaveis
qualitativas (por meio de tabelas de contingencias e graficos de barras m
ultiplas) e
entre duas variaveis quantitativas (por meio de diagrama de dispersao e coeficiente de
correlacao).
4.1
4.1.1
Associac
ao entre duas vari
aveis qualitativas
Tabela de conting
encia
Tabelas de contingencia sao usadas para registrar frequencias cruzadas dos atributos
de duas ou mais variaveis qualitativas.
Local
Nvel de Instrucao
Total
Monte Verde
Parque da Figueira
Encosta da Morro
Sem instrucao
14
18
38
Fundamental
11
14
13
38
Medio
23
15
44
Total
40
43
37
120
Parque da Figueira
Encosta da Morro
Sem instrucao
6 (15,0)
14 (32,6)
18 (48,6)
Fundamental
11 (27,5)
14 (32,6)
13 (35,1)
Medio
23 (57,5)
15 (34,8)
6 (16,2)
Total
40 (100,0)
43 (100,0)
37 (100,0)
Tabela 4.2: Perfil do nvel de instrucao do chefe da casa em cada uma das localidades.
A tabela acima fornece, de forma direta, as conclusoes abaixo.
Dentre as 40 famlias entrevistadas no C. R. Monte Verde:
15,0% possui chefe da casa sem instrucao;
3
27,5% possui chefe da casa com ensino fundamental;
57,5% possui chefe da casa com ensino medio.
Dentre as 43 famlias entrevistadas no C. R. Parque da Figueira:
32,6% possui chefe da casa sem instrucao;
32,6% possui chefe da casa com ensino fundamental;
34,8% possui chefe da casa com ensino medio.
Dentre as 37 famlias entrevistadas na Encosta do Morro:
48,6% possui chefe da casa sem instrucao;
35,1% possui chefe da casa com ensino fundamental;
16,2% possui chefe da casa com ensino medio.
Total
Monte Verde
Parque da Figueira
Encosta da Morro
Sem instrucao
6 (15,8)
14 (36,8)
18 (47,4)
38 (100,0)
Fundamental
11 (28,9)
14 (36,8)
13 (34,2)
38 (100,0)
Medio
23 (52,3)
15 (34,1)
6 (13,6)
44 (100,0)
Tabela 4.3: Perfil do local da moradia da famlia em cada nvel de instrucao do chefe da
casa.
A tabela acima fornece, de forma direta, as conclusoes abaixo.
Dentre as 38 famlias entrevistadas cujo chefe da casa e sem instrucao:
15,8% residem no C.R. Monte Verde;
36,8% residem no C.R. Parque da Figueira;
47,4% residem na Encosta do Morro.
Observac
ao 4.1 Tambem e possvel utilizar variavel quantitativa discreta em tabelas
de contingencia, desde que tenhamos poucos valores distintos desta variavel no nosso
conjunto de dados.
4.1.2
Gr
afico de barras m
ultiplas
O grafico de barras m
ultiplas e uma alternativa para colocar varios graficos de
barras em apenas uma figura, ou ainda de representar as frequencias de uma tabela
de contingencia. A Figura 4.1 traz um grafico de barras m
ultiplas com as informacoes da
Tabela 4.1. Note que temos tres graficos de barras na mesma figura: nvel de instrucao
do chefe da casa nas casas entrevistadas no C.R. Monte Verde; nvel de instrucao do
chefe da casa nas casas entrevistadas no C.R. Parque da Figueira; e nvel de instrucao
do chefe da casa nas casas entrevistadas na Encosta do Morro.
No lugar da frequencia (absoluta), podemos usar frequencia relativa ou porcentagem
no eixo vertical. Como na Figura 4.1 estamos avaliando a frequencia do nvel de instrucao,
converter frequencias absolutas em porcentagens deve ser feito conforme esta na Tabela
4.2. O grafico resultante e exposto na Figura 4.2.
4.2
Associac
ao entre duas vari
aveis quantitativas
4.2.1
Diagrama de dispers
ao
O diagrama de dispersao nos fornece uma primeira impressao da associacao (ou falta
de associacao) entre duas variaveis quantitativas. Primeiramente, vamos denotar as duas
variaveis em questao pelas letras X e Y 1 . A ideia e verificar se os valores assumidos pela
variavel Y podem ser explicados pelos valores assumidos pela variavel X.
O diagrama de dispersao e uma representacao grafica tracada no plano cartesiano. Ele
consiste de um conjunto de pontos, e cada ponto est
a associado a uma observac
ao.
No eixo-x (eixo horizontal) sao colocados os valores da variavel X, e no eixo-y (eixo
vertical) sao colocados os valores da variavel Y .
...
Se a n-esima observacao assume valor xn para a variavel X e valor yn para a
variavel Y , entao marcamos o par ordenado (xn , yn ) no plano cartesiano como
o ponto associado a` n-esima observacao.
7
A Figura 4.3 ilustra um exemplo simples de diagrama de dispersao com n = 3
observacoes.
Exemplo 4.2 A Tabela 4.4 exibe alguns dados baseados no censo demografico de 2000,
de uma amostra aleatoria de 12 municpios brasileiros.
Municpio
DistCap
EspVida
MortInf
Alfab
Renda
Araruna (PR)
365
67,99
23,19
86,23
188,29
Nova Redenc
ao (BA)
278
61,19
56,56
63,00
74,79
Monc
ao (MA)
150
59,58
63,32
63,64
66,96
78
58,96
66,05
79,33
65,34
468
68,10
31,71
83,38
173,38
40
63,65
47,08
65,81
60,00
486
71,01
16,62
77,54
150,67
83
71,36
15,69
89,28
264,55
65
64,46
44,18
69,95
80,69
175
62,45
51,57
59,72
58,68
14
68,68
32,81
90,43
196,51
167
67,42
37,04
81,82
125,75
Jandara (BA)
Vespasiano (MG)
Ipaba (MG)
Tabela 4.4: Alguns dados baseados no Censo Demografico de 2000, de uma amostra
aleatoria de municpios brasileiros.
9
Associacao entre X = Renda per capita e Y = Taxa de alfabetizacao:
Figura 4.4: Diagrama de dispersao Renda per capita x Taxa de alfabetizacao dos dados
da Tabela 4.4.
10
11
Associacao entre X = Taxa de mortalidade infantil e Y = Taxa de alfabetizacao:
12
Figura 4.7: Diagrama de dispersao Distancia da capital x Taxa de alfabetizacao dos dados
da Tabela 4.4.
O diagrama de dispersao acima nos mostra que, para os municpios amostrados, nao
existe uma tend
encia de aumento ou decrescimento da taxa de alfabetizacao conforme
a distancia da capital cresce.
13
4.2.2
Coeficiente de correlac
ao de Pearson
Apesar de nos dar uma ideia preliminar da associacao entre duas variaveis
quantitativas em um banco de dados, o diagrama de dispersao nao fornece de maneira
explcita a forca desta associacao. Precisamos portanto de uma medida que mensure a
forca da associacao entre duas variaveis de um banco de dados. Veremos aqui a medida
mais utilizada para este fim: o coeficiente de correlac
ao de Pearson (ou simplesmente
coeficiente de correlac
ao), o qual mede o grau de associacao linear2 entre as variaveis.
Para um conjunto de dados com n observacoes, seja: xi o valor da variavel X para a
i-esima observacao; yi o valor da variavel Y para a i-esima observacao; x a media dos n
valores observados da variavel X; e y a media dos n valores observados da variavel Y . O
coeficiente de correlacao entre X e Y , denotado por r(X, Y ) (ou simplesmente pela letra
r), e dado por
Pn
(x
)(y
)
i
i
pPn
r = r(X, Y ) = pPn i=1
.
)2
)2
i=1 (xi x
i=1 (yi y
Neste curso, nao entraremos em detalhes de como obter o coeficiente de correlacao via
formula acima (para tal, vamos usar o R Commander ). Na tabela abaixo, temos o
coeficiente de correlacao para as associacoes de variaveis feitas do Exemplo 4.2.
Variavel X
Variavel Y
Taxa de alfabetizacao
r(X, Y )
0, 8627
0, 9833
0, 6841
Distancia da capital
Taxa de alfabetizacao
0, 0870
Observac
ao 4.3 Para calcular o coeficiente de correlacao, nao importa qual variavel foi
chamada de X e qual variavel foi chamada de Y , ou seja, r(X, Y ) = r(Y, X). Porem,
como ja mencionado na Secao 4.2.1, a ideia e que Y possa ser, de certa forma, explicada
2
14
por X. Por exemplo, num banco de dados com peso e altura de indivduos, faz mais
sentido explicar o peso como funcao da altura do que explicar a altura como funcao do
peso. Neste caso, e razoavel fazer X =altura e Y =peso.
A Figura 4.8 ilustra os valores que indicam associacao linear forte, moderada e fraca.
r [0, 7 ; 1] ou r [1 ; 0, 7] associacao linear forte;
r (0, 3 ; 0, 7) ou r (0, 7 ; 0, 3) associacao linear moderada;
r [0, 3 ; 0, 3] ausencia linear fraca.
Figura 4.8: Ilustracao dos valores assumidos pelo coeficiente de correlacao quanto ao grau
de associacao linear entre os pares observados.
15
Observando os coeficientes de correlacao na Tabela 4.5, podemos dizer que, dentre os
municpios desta amostra:
Renda per capita e Taxa de alfabetizacao apresentam associacao linear forte;
Taxa de mortalidade infantil e Esperanca de vida ao nascer apresentam associacao
linear forte;
Taxa de mortalidade infantil e Taxa de alfabetizacao apresentam associacao linear
moderada;
Distancia da capital e Taxa de alfabetizacao apresentam associacao linear fraca
(quase nula).
Observac
ao 4.4 O coeficiente de correlacao mede a forca da associacao linear entre
duas variaveis observadas. Pode ocorrer de notarmos uma associacao consideravel entre
as variaveis analisadas (positiva ou negativa) pela visualizacao do diagrama de dispersao,
porem o coeficiente de correlacao acusar um valor que indique uma associacao linear
fraca ou moderada. Isto pode ser um indcio de que, apesar da tendencia estar clara no
diagrama de dispersao, os pares ordenados nao estao se comportando em torno de uma
reta imaginaria, mas sim fazendo um outro desenho no plano cartesiano. A Figura
4.6 ilustra esta situacao: o diagrama de dispersao aponta uma clara associacao. Porem,
do ponto de vista linear, tal associacao e apenas moderada.
Observac
ao 4.5 A Figura abaixo traz um criterio alternativo mais refinado que o
exposto na Figura 4.8.
16
4.2.3
Reta de regress
ao
Quando o coeficiente de correlacao acusa uma associacao (linear) forte ou ate mesmo
moderada, pode ser interessante adicionar ao diagrama de dispersao a chamada reta de
regress
ao3 . Esta reta define posicao e inclinacao da tendencia dos pares avaliados. Para
associacoes lineares fortes (isto e, r [0, 7 ; 1] ou r [1 ; 0, 7]), espera-se que a maior
parte dos pares ordenados no diagrama de dispersao se posicione em torno desta reta.
Para obter a reta de regressao, e utilizada uma tecnica chamada de m
etodo dos
mnimos quadrados. Nao entraremos em detalhes sobre tal metodo neste captulo.
Nas figuras abaixo, seguem os diagramas de dispersao tracados nas Figuras 4.4 a 4.6,
cada qual com sua reta de regressao.
Figura 4.9: Diagrama de dispersao da associacao Renda per capita x Taxa de alfabetizacao
dos dados da Tabela 4.4, com a respectiva reta de regressao.
3
17
18
Refer
encias Bibliogr
aficas
[1] BARBETTA, Pedro Alberto. Estatstica Aplicada `
as Ci
encias Sociais. 8a
edicao revista. Florianopolis: Editora da UFSC, 2012.
[2] SHIMAKURA, Slvia. Interpretando o coeficiente de correlac
ao. Curitiba:
UFPR/LEG, 2006. Disponvel em: http://leg.ufpr.br/~silvia/CE003/node74.
html.
19