Quando duas variveis aleatrias X e Y no sa independentes, geralmente de interesse
avaliar quo fortemente esto relacionadas uma com a outra.
A covarincia d uma ideia da disperso dos valores da varivel bidimensional (X,Y) em relao ao ponto (E(X),E(Y)).
Seja (X,Y)uma varivel aleatria bidimensional. A covarincia de X e Y que denotaremos Cov(X,Y) definida por:
A covarincia ser positiva se as duas variveis tendem a variar no mesmo sentido, isto , valores de X acima da sua mdia esto associados a valores de Y acima de sua mdia, o mesmo ocorrendo para valores de ambos inferiores mdia.
A covarincia ser negativa se valores acima da mdia de uma varivel esto associados a valores inferiores mdia da outra.
Se X e Y so variveis aleatrias independentes Cov(X,Y)=0
Coeficiente de correlacao
O coeficiente de correlao das variveis aleatrias X e Y, denotado por , definido por:
Proposicao:
O coeficiente de correlao no , na verdade, uma medida geral de fora de uma relao.
Proposicao:
Esta proposio diz que uma medida do grau da relao linear entre X e Y, e somente quando as duas variveis estiverem perfeitamente relacionadas de forma linear que assumir os valores extremos positivo ou negativo.
Um menor que 1 em valor absoluto indica somente que a relao no completamente linear, mas que ainda pode haver uma relao no-linear bastante forte.
=0 no implica que X eY sejam independentes, mas apenas que h ausncia completa de relao linear.
Quando =0, X e Y so ditos no-correlacionados. Duas variveis podem ser no- correlacionadas, porm altamente dependentes, pois pode existir uma relao no-linear forte.
Distribuies condicionais
Para o caso discreto: Dadas duas variveis aleatrias discretas definidas no mesmo espao amostral, a probabilidade condicional de Y=y, dado que X=x ocorreu, dada por
Para um dado j, satisfaz a todas as condies de uma distribuio de probabilidade. Temos e tambm
A esperana condicional da varivel aleatria Y dada a varivel aleatria X, que denotaremos por , dada por
Distribuicao normal Bivariada
Diagrama de dispersao
Coeficiente de Correlao Linear
O coeficiente correlao linear r xy mede o grau de associao linear entre dados bivariados calculado atravs da expresso:
Nesta definio est implcita a definio de uma medida que d uma ideia da variabilidade conjunta entre as variveis e que se denomina de covarincia amostral:
E
Ento
A frmula equivalente frmula acima, frequentemente usada na prtica :
O coeficiente de correlao linear um nmero do [-1,1], em que, podemos considerar a existncia de :
i. Correlao Linear Positiva (perfeita) se rxy=1; ii. Correlao Linear Positiva (forte) se rxy pertence [0.8;1[; iii. Correlao Linear Positiva (moderada) se rxy pertence ]0.5;0.8[; iv. Correlao Linear Positiva (fraca) se rxy pertence ]0;0.5]; v. Correlao Linear Nula se rxy=0; vi. Correlao Linear Negativa (fraca) se rxy pertence [-0.5;0[; vii. Correlao Linear Negativa (moderada) se rxy pertence ]-0.8;-0.5[; viii. Correlao Linear Negativa (forte) se rxy pertence ]-1;-0.8]; ix. Correlao Linear Negativa (perfeita) se rxy=-1. Coeficiente de determinao
At agora temos definido o coeficiente de correlao, mas no temos examinado o seu significado. Para melhor interpretao elevamos o coeficiente de correlao ao quadrado.
Portanto, r 2 pode ser interpretado como a fraco de variao total que explicada pela recta de regresso de mnimos quadrados. Em outras palavras, r mede a recta de regresso de mnimos quadrados ajusta os dados amostrais. Se a variao total toda explicada pela recta de regresso, isto , r 2 =1 ou =1, dizemos que existe uma correlao linear perfeita. Por outro lado, se a variao total toda no explicada, ento a variao explicada zero e assim r 2 =0. Na prtica, a quantidade r 2 chamada de coeficiente de determinao e est entre 0 e 1.
Regresso linear Simples
Se as duas variveis no estiverem relacionadas deterministicamente, ento, para um valor fixo de x, o valor da segunda varivel ser aleatrio.
Regresso linear mltipla
Reta de regresso pelo mtodo dos mnimos quadrados
A correlao linear uma correlao entre duas variveis, cujo grfico aproxima-se de uma linha. O grfico cartesiano que representa essa linha denominado diagrama de disperso. Para poder avaliar melhor a correlao entre as variveis, interessante obter a equao da reta; essa reta chamada de reta de regresso e a equao que a representa a equao de regresso. O diagrama de disperso construdo de acordo com os dados amostrais de n observaes e a equao de regresso dada pela expresso: Y= aX + b Y = aX + b X a varivel independente
YY a varivel dependente; na verdade, a varivel correlacionada com a varivel X e sobre a qual se obtm um valor estimado.
Esse tipo de notao, de Y para Y, caracteriza que no se trata de uma relao funcional para a determinao da reta, e sim de uma relao estatstica, em que a distribuio est baseada em estimativas de dados colhidos por amostragem.
Sendo a e b os parmetros de equao da reta, esses podem ser calculados por meio das frmulas:
Teste de Lilliefors para a Normal
Tabela contingncia
Suponha que numa amostra aleatria de tamanho n de uma dada populao so observados dois atributos ou caractersticas A e B (qualitativas ou quantitativas), uma com r e outra com s modalidades ou categorias, respectivamente A1, A2,..., Ar e B1, B2,..., Bc.
Cada indivduo da amostra classificado numa e numa s categoria (ou classe) de A e numa e numa s categoria (ou classe) de B. A classificao dos elementos da amostra d origem a uma tabela de dupla entrada, designada por tabela de contingncia rc, com o seguinte aspecto:
Nesta tabela cada O ij (i=1,...,r e j=1,...,c) uma varivel aleatria que representa na amostra o nmero de elementos classificados simultaneamente nas categorias A i de A e B j de B.
Alm disso, temos as variveis aleatrias:
Teste Qui-Quadrado de independncia
O teste de independncia Qui-Quadrado usado para descobrir se existe uma associao entre a varivel da linha e a varivel da coluna em uma tabela de contingncia construdo partir de dados da amostra. Para realizao do teste, se faz necessrio calcular o valor esperado de cada clula. Supondo- se que as variveis sejam independentes, o valor esperado de cada clula ser:
Utilizaremos uma medida global para verificar se existe associao entre as variveis. Esta medida ser dada atravs do afastamento global entre valores observados e valores esperados. Esta medida chamada de X 2 de Pearson (Qui-quadrado de Pearson) e sua estatstica de teste dada pela expresso:
em que O ij e E ij so, respectivamente, as frequncias observadas e esperadas da r-sima linha e j-sima coluna. Se a hiptese de independncia (no-associao) for verdadeira, o valor da estatstica de teste ser prximo de zero.