Você está na página 1de 13

Covarincia

Quando duas variveis aleatrias X e Y no sa independentes, geralmente de interesse


avaliar quo fortemente esto relacionadas uma com a outra.

A covarincia d uma ideia da disperso dos valores da varivel bidimensional (X,Y) em
relao ao ponto (E(X),E(Y)).

Seja (X,Y)uma varivel aleatria bidimensional. A covarincia de X e Y que denotaremos
Cov(X,Y) definida por:







A covarincia ser positiva se as duas variveis tendem a variar no mesmo sentido, isto ,
valores de X acima da sua mdia esto associados a valores de Y acima de sua mdia, o
mesmo ocorrendo para valores de ambos inferiores mdia.

A covarincia ser negativa se valores acima da mdia de uma varivel esto associados a
valores inferiores mdia da outra.

Se X e Y so variveis aleatrias independentes Cov(X,Y)=0


Coeficiente de correlacao

O coeficiente de correlao das variveis aleatrias X e Y, denotado por , definido por:







Proposicao:



O coeficiente de correlao no , na verdade, uma medida geral de fora de uma relao.

Proposicao:



Esta proposio diz que uma medida do grau da relao linear entre X e Y, e somente
quando as duas variveis estiverem perfeitamente relacionadas de forma linear que
assumir os valores extremos positivo ou negativo.

Um menor que 1 em valor absoluto indica somente que a relao no completamente
linear, mas que ainda pode haver uma relao no-linear bastante forte.

=0 no implica que X eY sejam independentes, mas apenas que h ausncia completa de
relao linear.

Quando =0, X e Y so ditos no-correlacionados. Duas variveis podem ser no-
correlacionadas, porm altamente dependentes, pois pode existir uma relao no-linear forte.













Distribuies condicionais

Para o caso discreto:
Dadas duas variveis aleatrias discretas definidas no mesmo espao amostral, a
probabilidade condicional de Y=y, dado que X=x ocorreu, dada por







Para um dado j, satisfaz a todas as condies de uma distribuio de probabilidade.
Temos e tambm




A esperana condicional da varivel aleatria Y dada a varivel aleatria X, que denotaremos
por , dada por














































Distribuicao normal Bivariada












Diagrama de dispersao

































Coeficiente de Correlao Linear

O coeficiente correlao linear r
xy
mede o grau de associao linear entre dados bivariados
calculado atravs da expresso:



Nesta definio est implcita a definio de uma medida que d uma ideia da variabilidade
conjunta entre as variveis e que se denomina de covarincia amostral:



E




Ento



A frmula equivalente frmula acima, frequentemente usada na prtica :



O coeficiente de correlao linear um nmero do [-1,1], em que, podemos considerar a
existncia de :

i. Correlao Linear Positiva (perfeita) se rxy=1;
ii. Correlao Linear Positiva (forte) se rxy pertence [0.8;1[;
iii. Correlao Linear Positiva (moderada) se rxy pertence ]0.5;0.8[;
iv. Correlao Linear Positiva (fraca) se rxy pertence ]0;0.5];
v. Correlao Linear Nula se rxy=0;
vi. Correlao Linear Negativa (fraca) se rxy pertence [-0.5;0[;
vii. Correlao Linear Negativa (moderada) se rxy pertence ]-0.8;-0.5[;
viii. Correlao Linear Negativa (forte) se rxy pertence ]-1;-0.8];
ix. Correlao Linear Negativa (perfeita) se rxy=-1.
Coeficiente de determinao

At agora temos definido o coeficiente de correlao, mas no temos examinado o seu
significado. Para melhor interpretao elevamos o coeficiente de correlao ao quadrado.




Portanto, r
2
pode ser interpretado como a fraco de variao total que explicada pela recta
de regresso de mnimos quadrados. Em outras palavras, r mede a recta de regresso de
mnimos quadrados ajusta os dados amostrais. Se a variao total toda explicada pela recta
de regresso, isto , r
2
=1 ou =1, dizemos que existe uma correlao linear perfeita. Por
outro lado, se a variao total toda no explicada, ento a variao explicada zero e assim
r
2
=0. Na prtica, a quantidade r
2
chamada de coeficiente de determinao e est entre 0 e 1.



































Regresso linear Simples

Se as duas variveis no estiverem relacionadas deterministicamente, ento, para um valor
fixo de x, o valor da segunda varivel ser aleatrio.


Regresso linear mltipla


















Reta de regresso pelo mtodo dos mnimos quadrados

A correlao linear uma correlao entre duas variveis, cujo grfico aproxima-se de uma
linha.
O grfico cartesiano que representa essa linha denominado diagrama de disperso. Para
poder avaliar melhor a correlao entre as variveis, interessante obter a equao da reta;
essa reta chamada de reta de regresso e a equao que a representa a equao de
regresso. O diagrama de disperso construdo de acordo com os dados amostrais de n
observaes e a equao de regresso dada pela expresso:
Y= aX + b Y = aX + b
X a varivel independente

YY a varivel dependente; na verdade, a varivel correlacionada com a varivel
X e sobre a qual se obtm um valor estimado.

Esse tipo de notao, de Y para Y, caracteriza que no se trata de uma relao funcional para
a determinao da reta, e sim de uma relao estatstica, em que a distribuio est baseada
em estimativas de dados colhidos por amostragem.

Sendo a e b os parmetros de equao da reta, esses podem ser calculados por meio das
frmulas:



















Teste de Lilliefors para a Normal











Tabela contingncia

Suponha que numa amostra aleatria de tamanho n de uma dada populao so observados
dois atributos ou caractersticas A e B (qualitativas ou quantitativas), uma com r e outra com
s modalidades ou categorias, respectivamente A1, A2,..., Ar e B1, B2,..., Bc.

Cada indivduo da amostra classificado numa e numa s categoria (ou classe) de A e numa
e numa s categoria (ou classe) de B. A classificao dos elementos da amostra d
origem a uma tabela de dupla entrada, designada por tabela de contingncia rc, com o
seguinte aspecto:




Nesta tabela cada O
ij
(i=1,...,r e j=1,...,c) uma varivel aleatria que representa na amostra o
nmero de elementos classificados simultaneamente nas categorias A
i
de A e B
j
de B.

Alm disso, temos as variveis aleatrias:


























Teste Qui-Quadrado de independncia

O teste de independncia Qui-Quadrado usado para descobrir se existe uma associao
entre a varivel da linha e a varivel da coluna em uma tabela de contingncia construdo
partir de dados da amostra.
Para realizao do teste, se faz necessrio calcular o valor esperado de cada clula. Supondo-
se que as variveis sejam independentes, o valor esperado de cada clula ser:



Utilizaremos uma medida global para verificar se existe associao entre as variveis. Esta
medida ser dada atravs do afastamento global entre valores observados e valores esperados.
Esta medida chamada de X
2
de Pearson (Qui-quadrado de Pearson) e sua estatstica de teste
dada pela expresso:



em que O
ij
e E
ij
so, respectivamente, as frequncias observadas e esperadas da r-sima linha
e j-sima coluna. Se a hiptese de independncia (no-associao) for verdadeira, o valor da
estatstica de teste ser prximo de zero.

Você também pode gostar