Você está na página 1de 6

Stela Adami Vayego__________________________________________ DEST/UFPR

Resumo 5 - Anlise Bivariada (Bidimensional)


5.1. Introduo
O principal objetivo das anlises nessa situao explorar relaes (similaridades)
entre duas variveis. A distribuio conjunta das freqncias ser um instrumento poderoso
para a compreenso do comportamento dos dados.
Quando consideramos duas variveis (ou dois conjuntos de dados), podemos ter trs
situaes:
(1) as duas variveis so quantitativas;
(2) as duas variveis so qualitativas; e
(3) uma varivel qualitativa e outra quantitativa.
As tcnicas de anlise de dados nas trs situaes so diferentes. Quando as duas
variveis so quantitativas, as observaes so provenientes de mensuraes, e tcnicas
como grficos de disperso ou de quantis so apropriados. Quando as variveis so
qualitativas, os dados so resumidos em tabelas de contingncias (dupla entrada), onde
aparecero as freqncias absolutas ou contagens de indivduos que pertencem
simultaneamente a categorias de uma e outra varivel. Quando temos uma varivel qualitativa
e outra quantitativa, em geral analisamos o que acontece com a varivel quantitativa quando os
dados so categorizados de acordo com os diversos atributos da varivel qualitativa. Mas
podemos ter tambm o caso de duas variveis quantitativas agrupadas em classes. Por
exemplo, podemos querer analisar a associao entre renda e consumo de certo nmero de
famlias e, para isso, agrupamos as famlias em classes de renda e classes de consumo. De
modo geral, recamos numa tabela de dupla entrada.
Em todas as situaes, o objetivo encontrar as possveis relaes ou associaes
entre as duas variveis.
5.2. Associao entre Variveis Quantitativas
Um dispositivo bastante til para se verificar a associao entre duas variveis
quantitativas, ou entre dois conjunto de dados, o grfico de disperso (ou diagrama de
disperso).
5.2.1. Diagrama de Disperso
Os dados para um diagrama de disperso consistem numa nica amostra de indivduos
com duas medidas x e y feita em cada indivduo. As medidas de cada indivduo so
representadas graficamente como um nico ponto, tendo a medida x como abscissa e a y
como ordenada.
Exemplo 1: Dados relativos a algumas caractersticas de importncia econmica em linhagem materna
de frango de corte, de uma amostra aleatria de 11 aves, do CNPSA/EMBRAPA. Usando seus
conhecimentos de estatstica, faa um resumo descritivo das variveis.
Stela Adami Vayego__________________________________________ DEST/UFPR
Ave p42 IMS PD35 PD64
1 1820 243 11,11 55,66
2 1710 243 44,44 77,83
3 1470 240 58,33 75,35
4 1500 212 67,50 69,96
5 1490 242 80,00 77,00
6 1680 242 10,00 75,25
7 1890 239 69,23 80,18
8 1660 244 25,00 69,50
9 1710 228 70,83 65,61
10 1670 223 72,41 72,41
11 1650 211 56,10 61,48
P42: peso corporal aos 42 dias de idade (g); IMS: idade maturidade sexual (dias); PD35: produo de ovos s 35
semanas de idade (%); PD64: produo de ovos s 64 semanas de idade (%).
5.2.2. Coeficiente de Correlao de Pearson
O coeficiente de correlao de Pearson, uma medida da relao entre duas
caractersticas numricas, simbolizadas por X e Y. A frmula para o coeficiente de correlao,
simbolizada por r, :
r =
S
XY
( S
X
. S
Y
)
,
onde,
S
XY
representa a covarincia entre X e Y. A covarincia uma medida que informar
sobre a variabilidade conjunta de duas variveis numricas (quantitativas). Define-se como:
S
XY
=

i=1
n
| ( x
i

x)( y
i

y )
(n1)
.
Se
S
XY
>0
, as duas variveis crescem ou decrescem conjuntamente.
Se
S
XY
0
, quando uma varivel cresce, a outra tem tendncia a decrescer.
Se
S
XY
=0
, no h relao linear.
A covarincia afetada pelas unidades em que cada varivel medida, o coeficiente
de correlao no. O coeficiente de correlao satisfaz
1<r <+1
.
Stela Adami Vayego__________________________________________ DEST/UFPR
Qual deve ser o tamanho do coeficiente de correlao??? Depende da aplicao. Por
exemplo, quando as caractersticas fsicas so medidas e se dispe de bons dispositivos de
medidas como em muitas cincias fsicas, so possveis correlaes relativamente elevadas.
Entretanto, as medies nas cincias biolgicas freqentemente envolvem caractersticas
menos bem definidas e dispositivos de medidas imprecisos; em tais casos podem ocorrer
correlaes mais baixas. Colton (1974) fornece uma regra prtica para a interpretao da
dimenso de tais correlaes:
Correlaes entre 0 e 0,25 (ou -0,25) indicam relao pequena ou inexistente;
Correlaes entre 0,25 e 0,50 (ou -0,25 e -0,50) indicam um grau razovel de relao;
Correlaes entre 0,50 e 075 (ou -0,50 e -o,75) indicam uma relao moderada a boa;
Correlaes maiores que 0,75 (ou -0,75) representam uma relao muito boa a
excelente.
Exerccio: Calcule o coeficiente de correlao entre as variveis peso corporal aos 42 dias de
idade e idade maturidade sexual no exemplo1.
5.3. Associao entre Variveis Qualitativas
Um dos principais objetivos de se construir uma distribuio conjunta de duas variveis
qualitativas descrever a associao entre elas, isto , conhecer o grau de dependncia entre
elas, de modo que se possamos prever melhor o resultado de uma delas quando conhecermos
a realizao da outra.
Exemplo 2: Queremos verificar se existe ou no associao entre sexo e uma determinada
doena numa amostra de 200 animais. Esses dados esto na tabela a seguir:
Doena (Y) Sexo (X) Total
Masculino Feminino
Doentes 85 35 120
No doentes 55 25 80
Total 140 60 200
Inicialmente, verificamos que fica muito difcil tirar alguma concluso, devido
diferena entre os totais marginais. Construindo as propores segundo as linhas ou as
colunas poderemos fazer comparaes. Fixemos os totais das colunas, a distribuio conjunta
(perfil coluna) est na tabela a seguir:
Doena (Y) Sexo (X) Total
Masculino Feminino
Doentes 61% 58% 60%
No doentes 39% 42% 40%
Total 100% 100% 100%
A partir dessa tabela podemos observar que, independentemente do sexo, 60% dos
animais apresentaram a doena e 40% no. No havendo dependncia entre as variveis,
esperaramos essas mesmas propores para cada sexo. Observando a tabela, vemos que as
propores do sexo masculino (61% e 39%) e do feminino (58% e 42%) so prximas das
Stela Adami Vayego__________________________________________ DEST/UFPR
marginais (60% e 40%). Esses resultados podem indicar no haver dependncia entre as duas
variveis, para o conjunto de animais considerado. Conclumos, ento, que nesse caso, as
variveis sexo e a manifestao de uma determinada doena parecem ser NO
ASSOCIADAS.
Exemplo 3: Queremos verificar se existe ou no associao entre vacinao e a manifestao
de uma determinada doena em 200 ovinos da raa Hampshire Down. Esses dados esto na
tabela a seguir:
Vacina (Y) Doena (X) Total
No contraram Contraram
Vacinados 100 (71%) 20 (33%) 120 (60%)
No vacinados 40 (29%) 40 (67%) 80 (40%)
Total 140 (100%) 60 (100%) 200 (100%)
Comparando a distribuio conjunta (perfil coluna) das propores pela vacinao,
independentemente da doena, com as distribuies diferenciadas pela doena, observamos
uma disparidade bem acentuada nas propores. Parece haver maior concentrao de animais
vacinados que no contraram a doena e de animais no vacinados que contraram a doena.
Nesse caso, as variveis vacinao e manifestao de uma doena parecem ser
ASSOCIADAS.
Quando existe associao entre as variveis, sempre interessante quantificar essa
associao.
5.3.1. Coeficiente de Contingncia de Pearson
Pearson definiu uma medida de associao, chamada coeficiente de contingncia,
com interpretao anloga ao coeficiente de correlao, dado por:
C=
.
X
2
(X
2
+n)
, com X
2
=

|
(O
ij
E
ij
)
2
E
ij

,
sendo
Oij = freqncia observada na i-sima categoria de X e j-sima categoria de Y, e
Eij = freqncia esperada na i-sima categoria de X e j-sima categoria de Y.
Contudo, o coeficiente descrito acima no varia entre 0 e 1. O valor mximo de C
depende do nmero de linhas e colunas. Para evitar esse inconveniente, costuma-se definir um
outro coeficiente, chamado de Coeficiente de Contingncia Modificado, dado por:
C

=
.
( k X
2
)
|( k1)(X
2
+n)
,
onde k o menor valor entre o nmero de linhas e o nmero de colunas da tabela. O
coeficiente de contingncia modificado satisfaz
0<C

<1
.
Exerccio: Calcule o coeficiente de associao para as variveis vacinao e manifestao de
uma doena no exemplo 3.
Stela Adami Vayego__________________________________________ DEST/UFPR
5.4. Associao entre Variveis Qualitativas e Quantitativas
comum nessas situaes analisar o que acontece com a varivel quantitativa dentro
de cada categoria da varivel qualitativa. Essa anlise pode ser conduzida por meio de
medidas-resumo, histogramas, box-plots, ou ramo-e-folhas.
Exemplo 4: Desejamos analisar o comportamento dos salrios dentro de cada categoria de
grau de instruo, ou seja, investigar o comportamento conjunto das variveis X (salrio) e Y
(grau de instruo).
Grau de Instruo n mdia dp var min Q1 med Q3 max
Fundamental 12 7,84 2,79 7,77 4,00 6,01 7,13 9,16 13,65
Mdio 18 11,54 3,62 13,10 5,73 8,84 10,91 14,48 23,30
Superior 6 16,48 4,11 16,89 10,53 13,65 16,74 18,38 23,30
Todos 36 11,12 4,52 20,46 4,00 7,55 10,17 14,06 23,30
A leitura desses resultados sugere uma dependncia dos salrios em relao ao grau
de instruo.
conveniente ter uma medida que quantifique o grau de dependncia entre as
variveis.
Com esse objetivo, convm observar que as varincias podem ser usadas para
construir essa medida. Sem usar a informao da varivel categorizada, a varincia calculada
para a varivel quantitativa para todos os dados mede a disperso dos dados globalmente. Se
a varincia dentro de cada categoria for pequena e menor do que a global, significa que a
varivel qualitativa melhora a capacidade de previso da quantitativa e portanto existe uma
relao entre as duas variveis.
Observe que para as variveis X e Y, as varincias de X dentro das trs categorias so
menores do que a global.
O grau de associao entre as duas variveis pode ser definido como o ganho relativo
na varincia, obtido pela introduo da varivel qualitativa, que satisfaz 0<R
2
<1 dado por:
R
2
=
var( X )

| var ( X )
| var ( X )
ou R
2
=1

|var ( X )
|var ( X )
,
onde

|var( X )=

i =1
k
( n
i
var
i
( X ))

i=1
k
n
i
a mdia das varincias ponderada pelo nmero de
observaes, sendo k igual ao nmero de categorias e vari (X) a varincia de X dentro de cada
categoria i, i = 1, 2, ..., k.
Exerccio: Calcule o o grau de associao entre as variveis salrio e grau de instruo do
exemplo 4.
Stela Adami Vayego__________________________________________ DEST/UFPR
5.5. Coeficiente de Correlao de Postos de Spearman
A correlao classificatria de Spearman (ou Correlao por postos), algumas vezes
chamada de rho de Spearman, freqentemente usada para descrever a relao entre duas
caractersticas ordinais. Usa apenas a ordem das observaes e no o valor observado.
Este coeficiente no sensvel a assimetrias na distribuio, nem presena de
outliers, no exigindo portanto que os dados provenham de duas populaes normais.
tambm a estatstica adequada para ser usada com variveis numricas como
alternativa ao coeficiente de correlao de Pearson, quando esse ltimo tem violada a condio
de normalidade (simetria) e a de relao linear entre as variveis.
Nos caso em que os dados no formam uma nuvem bem comportada, com alguns
pontos muito afastados dos restantes, ou em que parece existir uma relao crescente ou
decrescente em formato de curva, o coeficiente de Spearman mais apropriado.
O clculo da correlao classificatria de Spearman, simbolizada por , envolve a
colocao dos valores em ordem de classificao em cada uma das caractersticas, desde a
mais baixa at a mais elevada; os postos so em seguida tratados como se fossem os
verdadeiros valores.
O coeficiente de correlao de Spearman definido por:
j=1|6.
(

d
i
2
)
(n (n
2
1))

,
onde
d
i
a diferena entre cada posto de valor correspondentes de x e y e, n o nmero de
pares dos valores.
A correlao classificatria de Spearman pode variar de -1 a +1, como o coeficiente de
correlao de Pearson; + 1 ou -1 indica o acordo perfeito entre as classes dos valores em vez
daquela entre os prprios valores. Caso contrrio, sua interpretao semelhante ao r de
Pearson.
Exemplo 5: Os dados a seguir so relativos a um estudo correlacional entre peso corporal, em
Kg, de 12 borregos 2 dentes e 4 dentes da raa Hampshire Down.
Animais Borregos 2 dentes (14 meses) Borregos 4 dentes (20 meses)
1 60 80
2 58 72
3 63 80
4 51 83
5 54 72
6 55 92
7 48 69
8 70 88
9 65 79
10 53 82
11 62 85
12 52 79
Exerccio: Calcule o coeficiente de correlao de Spearman para os dados do exemplo 5.