Você está na página 1de 19

Captulo IV

An
alise bivariada
Nos captulos anteriores, vimos formas de apresentar e analisar a distribuicao de uma
variavel de maneira isolada, o que configura uma an
alise univariada. Todavia, duas
(ou mais) variaveis de um conjunto de dados podem estar, de alguma forma, associadas.
O objetivo de uma an
alise bivariada e verificar, ao menos preliminarmente, a
associacao (ou falta de associacao) entre duas variaveis de um conjunto de dados.
Neste captulo, veremos formas de apresentar a relacao entre duas variaveis
qualitativas (por meio de tabelas de contingencias e graficos de barras m
ultiplas) e
entre duas variaveis quantitativas (por meio de diagrama de dispersao e coeficiente de
correlacao).

4.1
4.1.1

Associac
ao entre duas vari
aveis qualitativas
Tabela de conting
encia

Tabelas de contingencia sao usadas para registrar frequencias cruzadas dos atributos
de duas ou mais variaveis qualitativas.

Neste curso, estamos interessados no caso

particular de tabelas de contingencia com apenas duas variaveis, tambem conhecidas


como tabelas de dupla entrada. Uma tabela de dupla entrada e uma versao da tabela
de distribuicao de frequencias que traz a frequencia de cada cruzamento dos atributos de
duas variaveis qualitativas. Um exemplo de tabela de contingencia segue abaixo.

Prof. Felipe Rafael Ribeiro Melo

Local
Nvel de Instrucao

Total
Monte Verde

Parque da Figueira

Encosta da Morro

Sem instrucao

14

18

38

Fundamental

11

14

13

38

Medio

23

15

44

Total

40

43

37

120

Tabela 4.1: Tabela de contingencia com as variaveis Nvel de instrucao e Local.


Au
ltima linha e a u
ltima coluna da tabela acima (referente aos totais) sao, de certa
forma, opcionais. Entretanto, as informacoes que elas trazem serao necessarias quando
quisermos analisar:
o perfil do nvel de instrucao (em termos percentuais) em cada localidade; ou
o perfil da localidade (em termos percentuais) em cada nvel de instrucao.
Quando porcentagens sao includas em tabelas de contingencia, podemos escreve-las entre
parenteses ao lado das respectivas frequencias absolutas. Observe a tabela abaixo.
Local
Nvel de Instrucao
Monte Verde

Parque da Figueira

Encosta da Morro

Sem instrucao

6 (15,0)

14 (32,6)

18 (48,6)

Fundamental

11 (27,5)

14 (32,6)

13 (35,1)

Medio

23 (57,5)

15 (34,8)

6 (16,2)

Total

40 (100,0)

43 (100,0)

37 (100,0)

Tabela 4.2: Perfil do nvel de instrucao do chefe da casa em cada uma das localidades.
A tabela acima fornece, de forma direta, as conclusoes abaixo.
Dentre as 40 famlias entrevistadas no C. R. Monte Verde:
15,0% possui chefe da casa sem instrucao;

3
27,5% possui chefe da casa com ensino fundamental;
57,5% possui chefe da casa com ensino medio.
Dentre as 43 famlias entrevistadas no C. R. Parque da Figueira:
32,6% possui chefe da casa sem instrucao;
32,6% possui chefe da casa com ensino fundamental;
34,8% possui chefe da casa com ensino medio.
Dentre as 37 famlias entrevistadas na Encosta do Morro:
48,6% possui chefe da casa sem instrucao;
35,1% possui chefe da casa com ensino fundamental;
16,2% possui chefe da casa com ensino medio.

Agora vamos inverter nossa analise. Observe a tabela a seguir.


Local
Nvel de Instrucao

Total
Monte Verde

Parque da Figueira

Encosta da Morro

Sem instrucao

6 (15,8)

14 (36,8)

18 (47,4)

38 (100,0)

Fundamental

11 (28,9)

14 (36,8)

13 (34,2)

38 (100,0)

Medio

23 (52,3)

15 (34,1)

6 (13,6)

44 (100,0)

Tabela 4.3: Perfil do local da moradia da famlia em cada nvel de instrucao do chefe da
casa.
A tabela acima fornece, de forma direta, as conclusoes abaixo.
Dentre as 38 famlias entrevistadas cujo chefe da casa e sem instrucao:
15,8% residem no C.R. Monte Verde;
36,8% residem no C.R. Parque da Figueira;
47,4% residem na Encosta do Morro.

Prof. Felipe Rafael Ribeiro Melo


Dentre as 38 famlias entrevistadas cujo chefe da casa tem ensino fundamental como
grau de instrucao:
28,9% residem no C.R. Monte Verde;
36,8% residem no C.R. Parque da Figueira;
34,2% residem na Encosta do Morro.
Dentre as 44 famlias entrevistadas cujo chefe da casa tem ensino medio como grau
de instrucao:
52,3% residem no C.R. Monte Verde;
34,1% residem no C.R. Parque da Figueira;
13,6% residem na Encosta do Morro.

Observac
ao 4.1 Tambem e possvel utilizar variavel quantitativa discreta em tabelas
de contingencia, desde que tenhamos poucos valores distintos desta variavel no nosso
conjunto de dados.

4.1.2

Gr
afico de barras m
ultiplas

O grafico de barras m
ultiplas e uma alternativa para colocar varios graficos de
barras em apenas uma figura, ou ainda de representar as frequencias de uma tabela
de contingencia. A Figura 4.1 traz um grafico de barras m
ultiplas com as informacoes da
Tabela 4.1. Note que temos tres graficos de barras na mesma figura: nvel de instrucao
do chefe da casa nas casas entrevistadas no C.R. Monte Verde; nvel de instrucao do
chefe da casa nas casas entrevistadas no C.R. Parque da Figueira; e nvel de instrucao
do chefe da casa nas casas entrevistadas na Encosta do Morro.
No lugar da frequencia (absoluta), podemos usar frequencia relativa ou porcentagem
no eixo vertical. Como na Figura 4.1 estamos avaliando a frequencia do nvel de instrucao,
converter frequencias absolutas em porcentagens deve ser feito conforme esta na Tabela
4.2. O grafico resultante e exposto na Figura 4.2.

Figura 4.1: Grafico de barras m


ultiplas apresentando as frequencias do nvel de instrucao
por localidade.

Figura 4.2: Grafico de barras m


ultiplas apresentando os percentuais do nvel de instrucao
por localidade. Os percentuais sao os mesmos expressos na Tabela 4.2.

Prof. Felipe Rafael Ribeiro Melo

4.2

Associac
ao entre duas vari
aveis quantitativas

Quando um determinado conjunto de dados apresenta duas ou mais variaveis


quantitativas, e interessante verificar se existe alguma associacao entre elas. Por exemplo,
no conjunto de dados Famlias.xlsx, temos o tamanho da famlia e a renda familiar (em
s.m.) como variaveis quantitativas. Os valores observados evidenciam alguma associacao
entre estas duas variaveis? Para responder esta pergunta, a primeira ferramenta que
podemos utilizar e uma representacao grafica denominada diagrama de dispers
ao.

4.2.1

Diagrama de dispers
ao

O diagrama de dispersao nos fornece uma primeira impressao da associacao (ou falta
de associacao) entre duas variaveis quantitativas. Primeiramente, vamos denotar as duas
variaveis em questao pelas letras X e Y 1 . A ideia e verificar se os valores assumidos pela
variavel Y podem ser explicados pelos valores assumidos pela variavel X.
O diagrama de dispersao e uma representacao grafica tracada no plano cartesiano. Ele
consiste de um conjunto de pontos, e cada ponto est
a associado a uma observac
ao.
No eixo-x (eixo horizontal) sao colocados os valores da variavel X, e no eixo-y (eixo
vertical) sao colocados os valores da variavel Y .

Para um total de n observacoes,

marcamos n pontos (pares ordenados) da seguinte forma:

Se a 1a observacao assume valor x1 para a variavel X e valor y1 para a variavel


Y , entao marcamos o par ordenado (x1 , y1 ) no plano cartesiano como o ponto
associado `a 1a observacao;

...
Se a n-esima observacao assume valor xn para a variavel X e valor yn para a
variavel Y , entao marcamos o par ordenado (xn , yn ) no plano cartesiano como
o ponto associado a` n-esima observacao.

Entenderemos melhor esta notac


ao quando abordarmos o conceito de regressao linear.

7
A Figura 4.3 ilustra um exemplo simples de diagrama de dispersao com n = 3
observacoes.

Figura 4.3: Exemplo de diagrama de dispersao com n = 3 observacoes.

Exemplo 4.2 A Tabela 4.4 exibe alguns dados baseados no censo demografico de 2000,
de uma amostra aleatoria de 12 municpios brasileiros.

Prof. Felipe Rafael Ribeiro Melo

Municpio

DistCap

EspVida

MortInf

Alfab

Renda

Araruna (PR)

365

67,99

23,19

86,23

188,29

Nova Redenc
ao (BA)

278

61,19

56,56

63,00

74,79

Monc
ao (MA)

150

59,58

63,32

63,64

66,96

78

58,96

66,05

79,33

65,34

468

68,10

31,71

83,38

173,38

40

63,65

47,08

65,81

60,00

486

71,01

16,62

77,54

150,67

Paraba do Sul (RJ)

83

71,36

15,69

89,28

264,55

Malhada dos Bois (SE)

65

64,46

44,18

69,95

80,69

175

62,45

51,57

59,72

58,68

14

68,68

32,81

90,43

196,51

167

67,42

37,04

81,82

125,75

Porto Rico do Maranh


ao (MA)
Campo Ere (SC)
Lagoa do Piau (PI)
Sao Jose dos Palmares (PR)

Jandara (BA)
Vespasiano (MG)
Ipaba (MG)

Tabela 4.4: Alguns dados baseados no Censo Demografico de 2000, de uma amostra
aleatoria de municpios brasileiros.

Descricao das variaveis:


DistCap: distancia `a capital (em km) da respectiva Unidade da Federacao.
EspVida: esperanca de vida ao nascer.
MortInf: mortalidade (n
umero medio de mortes em 1000) ate 1 ano de idade.
Alfab: taxa de alfabetizacao (porcentagem da populacao adulta alfabetizada).
Renda: renda per capita do municpio (R$).
Note que todas as cinco variaveis expostas na Tabela 4.4 sao quantitativas. Podemos
entao realizar varios diagramas de dispersao envolvendo diferentes pares de variaveis
(a saber, uma possibilidade de 10 pares diferentes). Abaixo, seguem algumas destas
associacoes.

9
Associacao entre X = Renda per capita e Y = Taxa de alfabetizacao:

Figura 4.4: Diagrama de dispersao Renda per capita x Taxa de alfabetizacao dos dados
da Tabela 4.4.

O diagrama de dispersao acima nos mostra que, para os municpios amostrados, h


a
uma tend
encia de aumento da taxa de alfabetizacao conforme a renda per capita cresce.
Ou seja, uma associa
c
ao positiva.

10

Prof. Felipe Rafael Ribeiro Melo


Associacao entre X = Taxa de mortalidade infantil e Y = Esperanca de vida ao
nascer:

Figura 4.5: Diagrama de dispersao Taxa de mortalidade infantil x Esperanca de vida ao


nascer dos dados da Tabela 4.4.

O diagrama de dispersao acima nos mostra que, para os municpios amostrados, h


a
uma tend
encia de decrescimento da esperanca de vida ao nascer conforme a taxa de
mortalidade infantil cresce. Ou seja, uma associa
c
ao negativa.

11
Associacao entre X = Taxa de mortalidade infantil e Y = Taxa de alfabetizacao:

Figura 4.6: Diagrama de dispersao Taxa de mortalidade infantil x Taxa de alfabetizacao


dos dados da Tabela 4.4.

O diagrama de dispersao acima nos mostra que, para os municpios amostrados,


ha uma tend
encia de decrescimento da taxa de alfabetizacao conforme a taxa de
mortalidade infantil cresce. Ou seja, uma associa
c
ao negativa.

12

Prof. Felipe Rafael Ribeiro Melo


Associacao entre X = Distancia da capital e Y = Taxa de alfabetizacao:

Figura 4.7: Diagrama de dispersao Distancia da capital x Taxa de alfabetizacao dos dados
da Tabela 4.4.

O diagrama de dispersao acima nos mostra que, para os municpios amostrados, nao
existe uma tend
encia de aumento ou decrescimento da taxa de alfabetizacao conforme
a distancia da capital cresce.

13

4.2.2

Coeficiente de correlac
ao de Pearson

Apesar de nos dar uma ideia preliminar da associacao entre duas variaveis
quantitativas em um banco de dados, o diagrama de dispersao nao fornece de maneira
explcita a forca desta associacao. Precisamos portanto de uma medida que mensure a
forca da associacao entre duas variaveis de um banco de dados. Veremos aqui a medida
mais utilizada para este fim: o coeficiente de correlac
ao de Pearson (ou simplesmente
coeficiente de correlac
ao), o qual mede o grau de associacao linear2 entre as variaveis.
Para um conjunto de dados com n observacoes, seja: xi o valor da variavel X para a
i-esima observacao; yi o valor da variavel Y para a i-esima observacao; x a media dos n
valores observados da variavel X; e y a media dos n valores observados da variavel Y . O
coeficiente de correlacao entre X e Y , denotado por r(X, Y ) (ou simplesmente pela letra
r), e dado por

Pn 
(x

)(y

)
i
i
pPn
r = r(X, Y ) = pPn i=1
.
)2
)2
i=1 (xi x
i=1 (yi y
Neste curso, nao entraremos em detalhes de como obter o coeficiente de correlacao via
formula acima (para tal, vamos usar o R Commander ). Na tabela abaixo, temos o
coeficiente de correlacao para as associacoes de variaveis feitas do Exemplo 4.2.
Variavel X

Variavel Y

Renda per capita

Taxa de alfabetizacao

r(X, Y )
0, 8627

Taxa de mortalidade infantil Esperanca de vida ao nascer

0, 9833

Taxa de mortalidade infantil Taxa de alfabetizacao

0, 6841

Distancia da capital

Taxa de alfabetizacao

0, 0870

Tabela 4.5: Coeficientes de correlacao para os quatro pares de variaveis analisados.

Observac
ao 4.3 Para calcular o coeficiente de correlacao, nao importa qual variavel foi
chamada de X e qual variavel foi chamada de Y , ou seja, r(X, Y ) = r(Y, X). Porem,
como ja mencionado na Secao 4.2.1, a ideia e que Y possa ser, de certa forma, explicada
2

A ideia deste tipo de associac


ao ser
a melhor compreendida na Observacao 4.4.

14

Prof. Felipe Rafael Ribeiro Melo

por X. Por exemplo, num banco de dados com peso e altura de indivduos, faz mais
sentido explicar o peso como funcao da altura do que explicar a altura como funcao do
peso. Neste caso, e razoavel fazer X =altura e Y =peso.

Mas como interpretar o coeficiente de correlac


ao?
O coeficiente de correlacao sempre resulta em um valor no intervalo
[1 ; 1], isto e, nunca retorna um valor maior que 1 ou menor que -1;
r > 0 indica associacao positiva entre as variaveis, e r < 0 indica associacao
negativa entre as variaveis;
Quanto mais proximo de 1, maior e a associacao (linear) positiva entre
as variaveis, e quanto mais proximo de -1, maior e a associacao (linear)
negativa entre as variaveis;
Valores proximos de zero indicam associacao (linear) fraca.

A Figura 4.8 ilustra os valores que indicam associacao linear forte, moderada e fraca.
r [0, 7 ; 1] ou r [1 ; 0, 7] associacao linear forte;
r (0, 3 ; 0, 7) ou r (0, 7 ; 0, 3) associacao linear moderada;
r [0, 3 ; 0, 3] ausencia linear fraca.

Figura 4.8: Ilustracao dos valores assumidos pelo coeficiente de correlacao quanto ao grau
de associacao linear entre os pares observados.

15
Observando os coeficientes de correlacao na Tabela 4.5, podemos dizer que, dentre os
municpios desta amostra:
Renda per capita e Taxa de alfabetizacao apresentam associacao linear forte;
Taxa de mortalidade infantil e Esperanca de vida ao nascer apresentam associacao
linear forte;
Taxa de mortalidade infantil e Taxa de alfabetizacao apresentam associacao linear
moderada;
Distancia da capital e Taxa de alfabetizacao apresentam associacao linear fraca
(quase nula).

Observac
ao 4.4 O coeficiente de correlacao mede a forca da associacao linear entre
duas variaveis observadas. Pode ocorrer de notarmos uma associacao consideravel entre
as variaveis analisadas (positiva ou negativa) pela visualizacao do diagrama de dispersao,
porem o coeficiente de correlacao acusar um valor que indique uma associacao linear
fraca ou moderada. Isto pode ser um indcio de que, apesar da tendencia estar clara no
diagrama de dispersao, os pares ordenados nao estao se comportando em torno de uma
reta imaginaria, mas sim fazendo um outro desenho no plano cartesiano. A Figura
4.6 ilustra esta situacao: o diagrama de dispersao aponta uma clara associacao. Porem,
do ponto de vista linear, tal associacao e apenas moderada.
Observac
ao 4.5 A Figura abaixo traz um criterio alternativo mais refinado que o
exposto na Figura 4.8.

16

Prof. Felipe Rafael Ribeiro Melo

4.2.3

Reta de regress
ao

Quando o coeficiente de correlacao acusa uma associacao (linear) forte ou ate mesmo
moderada, pode ser interessante adicionar ao diagrama de dispersao a chamada reta de
regress
ao3 . Esta reta define posicao e inclinacao da tendencia dos pares avaliados. Para
associacoes lineares fortes (isto e, r [0, 7 ; 1] ou r [1 ; 0, 7]), espera-se que a maior
parte dos pares ordenados no diagrama de dispersao se posicione em torno desta reta.
Para obter a reta de regressao, e utilizada uma tecnica chamada de m
etodo dos
mnimos quadrados. Nao entraremos em detalhes sobre tal metodo neste captulo.
Nas figuras abaixo, seguem os diagramas de dispersao tracados nas Figuras 4.4 a 4.6,
cada qual com sua reta de regressao.

Figura 4.9: Diagrama de dispersao da associacao Renda per capita x Taxa de alfabetizacao
dos dados da Tabela 4.4, com a respectiva reta de regressao.
3

No R Commander, a reta de regress


ao e chamada de linha de quadrados mnimos, pelo fato desta

ser fruto do metodo de mnimos quadrados.

17

Figura 4.10: Diagrama de dispersao da associacao Taxa de mortalidade infantil x


Esperanca de vida ao nascer dos dados da Tabela 4.4, com a respectiva reta de regressao.

18

Prof. Felipe Rafael Ribeiro Melo

Figura 4.11: Diagrama de dispersao da associacao Taxa de mortalidade infantil x Taxa


de alfabetizacao dos dados da Tabela 4.4, com a respectiva reta de regressao.

Refer
encias Bibliogr
aficas
[1] BARBETTA, Pedro Alberto. Estatstica Aplicada `
as Ci
encias Sociais. 8a
edicao revista. Florianopolis: Editora da UFSC, 2012.
[2] SHIMAKURA, Slvia. Interpretando o coeficiente de correlac
ao. Curitiba:
UFPR/LEG, 2006. Disponvel em: http://leg.ufpr.br/~silvia/CE003/node74.
html.

19

Você também pode gostar