Escolar Documentos
Profissional Documentos
Cultura Documentos
Guimares
1. Introduo
Mas, onde e como surgiram os termos correlao e regresso? Foi Francis Galton
(1822-1911), primo de Charles Darwin, quem usou pela primeira vez esses termos, cujo
trabalho influenciou a Estatstica e a Psicologia. Galton publicou o livro Gnio
Hereditrio, em 1869, onde aplicou conceitos estatsticos a problemas da
hereditariedade. O primeiro relato onde Galton usou o termo co-relaes foi em 1888.
2. Diagramas de Disperso
23
22
T
E 21
m
p
E 20
R
A
T 19
U
R
a
18
17
16
16 18 20 22 24 26 28
Umidade (%)
Podemos notar pela anlise da figura acima, a relao linear entre as duas variveis.
Os coeficientes apresentados a seguir nos auxiliam na quantificao do grau de
relacionamento entre as variveis de interesse.
DesvioX=(X9-X)
Y (X9,Y9)
(9-5,5) = + 3,5
12
11
10
III II
9
8
7
6
5 Y=6,0
4
3
2 IV I
1
0
0 1 2 3 4 5 6 7 8 9 10 11 X
X =5,5 DesvioY=(Y9-Y)
(11-6,0) = + 5,0
C ( X ,Y ) =
(X i X ) * (Yi Y )
=
93
= 9,3
n 10
(1)
Logo, covarincia significa co-variao, como as duas variveis variam de forma
conjunta. Agora, vejamos o que acontece se os pontos estivessem no quadrante I. Neste
caso, os desvios de X seriam todos positivos, enquanto que os desvios de Y seriam
todos negativos, logo os produtos tomaro valores negativos. O mesmo vai acontecer
com os pontos do quadrante III, nele, os desvios de X tomaro valores negativos e os
desvios de Y, valores positivos, logo os produtos tomaro valores negativos. Assim, se a
maioria dos pontos caem nos quadrantes I e III a covarincia tomar valores negativos,
indicando que essas duas variveis se relacionam de forma negativa ou inversa, ou seja,
que quando uma cresce a outra diminui e vice-versa.
Notao:
C( X , Y ) 9,3
r= r= = 0,95896
S Y *S X 2,8723 * 3,3764
(2)
O coeficiente de Determinao
Populao:
=
O coeficiente de correlao para dados amostrais :
2
Amostra: r= r
Significncia do coeficiente de correlao
Hipteses:
H0 : = 0
H1 : 0
A estatstica de teste
r n2
tc =
1 r 2 com n-2 graus de liberdade na tabela t de Student. Caso o
valor de tc seja superior ao valor crtico de t, devermos rejeitar a hiptese nula. Se a
hiptese nula, ao nvel de significncia , for rejeitada podemos concluir que
efetivamente existe uma relao significativa entre as variveis.
Exemplo:
1. Para estudar a poluio de um rio, um cientista mediu a concentrao de um
determinado composto orgnico (Y) e a precipitao pluviomtrica na semana anterior
(X):
X Y
0,91 0,10
1,33 1,10
4,19 3,40
2,68 2,10
1,86 2,60
1,17 1,00
C ( X ,Y ) =
(0,91 2,023 )(0,10 1,717 ) + (1,33 2,023 )(1,10 1,717 ) + L + (1,17 2,023 )(1,00 1,717 )
6
= 1,0989
C ( X ,Y ) 1,0989
r= = = 0,888
S Y *S X 1,125 1,1
r n2 0 ,888 62
tc = = = 3,86
2
1 r 1 ( 0 ,888 ) 2
C ( X ,Y ) =
(8 16 )(8 10,6 ) + (8 16 )(6 10,6 ) + L + (24 16 )(12 10,6 ) = 15,2
10
C ( X ,Y ) 15,2
r= = = 0,801467
S Y *S X 5,656854 3,52611
r n2 0 ,801467 10 2
tc = = = 3, 79
2 2
1 r 1 ( 0 ,801467 )
2
C= onde 2 a estatstica Qui-quadrado.
n + 2
Exemplo:
Estudantes de escolas particulares e de escolas pblicas selecionados aleatoriamente
foram submetidos a testes padronizados de conhecimento, e produziram os resultados
abaixo. Verifique o grau de associao entre as variveis mensuradas e teste a
significncia ao nvel de 5%.
Escores
Escola 0 - 275 276-350 351-425 426-500
Particular 6 14 17 9
Pblica 30 32 17 3
Freq. 6 14 17 9
Obs. 30 32 17 3
Freq. 12,94 16,53 12,22 4,31
Esp. 23,06 29,47 21,78 7,69
2 =
(6 12,94)2 + (14 16,53)2 +L+
(3 7,69 )
2
= 17,28
12,94 16,53 7,69
2 17,28
C= 2
= = 0,345
n+ 128 + 17,28
xy
r = = rs
2 2
x y
n
2
6 d i
i =1
rs = 1 3 onde di = xi yi a diferena de postos dos escores X e Y.
n n
Exemplo:
As notas obtidas por 10 estudantes de Administrao e o seu QI (quociente de
inteligncia) so apresentadas no quadro abaixo
Calculando o coeficiente:
n
2
6 d
rs = 1 i=1
i
= 1
(
6 0 2
+ 0 , 25 2 + K + 0 2
)= 6 . 0 , 25
= 0 , 998
3
n n 10 3 10 990
n 2 8 8
t = rs 2
= 0 , 998 2
= 0 , 998 = 44 , 63
1 r s
1 (0 , 998 ) 0 , 004
Teste de Kappa
PO PE
Kappa =
1 PE
nmero de concordncias
Onde PO =
nmero de concordncias + nmero de discordncias
n
e PE = (p
i =1
i1 p i 2 ) sendo que:
- n o nmero de categorias;
- i o ndice da categoria (que vale de 1 a n);
- pi1 a proporo de ocorrncia da categoria i para o avaliador 1;
- pi2 a proporo de ocorrncia da categoria i para o avaliador 2;
Exemplo:
Em certo rgo de financiamento, em cada edital aberto se apresentam diversos
pesquisadores que enviam projetos solicitando recursos para desenvolve-los. Estes
projetos recebem uma avaliao, muitas vezes subjetiva, baseada na opinio de um
consultor.
Considere a tabela abaixo que resume as avaliaes feitas por dois avaliadores a
30 projetos que concorrem ao financiamento. O interesse deste estudo saber qual a
concordncia entre estes dois profissionais e se h alguma classificao com
concordncia maior do que as demais.
AVALIADOR 2
A B C Total
A 14 (0,47) 1 (0,03) 1 (0,03) 16 (0,53)
AVALIADOR 1 B 3 (0,10) 3 (0,10) 2 (0,07) 8 (0,27)
C 0 (0,00) 1 (0,03) 5 (0,17) 6 (0,20)
Total 17 (0,57) 5 (0,16) 8 (0,27) 30 (1,00)
14 + 3 + 5 22
PO = = = 0,7333
30 30
n
PE = (p
i =1
i1 p i 2 ) = (0,57 . 0,53) + (0,16 . 0,27) + (0,27 . 0,20) = 0,3021 + 0,0432 + 0,054 =
= 0,3993
0,733 0,3993
Kappa = = 0,556
1 0,3993
Note que a concordncia geral pode ser considerada apenas moderada. Avaliando
cada uma das trs classificaes, notamos que a concordncia alta quando os
avaliadores atribuem o conceito A e o conceito C. No entanto, para atribuir o conceito
B, um conceito intermedirio, a concordncia j no to satisfatria.
6. Atividades de aplicao
1. Foi tomada uma amostra aleatria de 10 carregamentos recentes por caminho feitos
por uma companhia , anotada a distncia em quilmetros e o tempo de entrega. Os
dados seguem abaixo:
Carregamento 1 2 3 4 5 6 7 8 9 10
Distncia em Km 825 215 1070 550 480 920 1350 325 670 1215
(X)
Tempo de entrega 3,5 1,0 4,0 2,0 1,0 3,0 4,5 1,5 3,0 5,0
em dias (Y)
a) Construa o diagrama de disperso;
b) Calcule o coeficiente de correlao de Pearson para os dados desta amostra;
c) Calcule o coeficiente de determinao;
d) Verifique se o coeficiente de correlao significativo (=0,05).
Teste a hiptese de que no existe correlao entre as duas variveis, usando um nvel
de significncia de 5%.
estudantes
Escore 1 2 3 4 5 6 7 8
Matemtica 80 50 36 58 72 60 56 68
Verbal 65 60 35 39 48 44 48 61
4. Em um estudo conduzido com 10 pacientes, estes foram colocados sob uma dieta de
baixas gorduras e altos carboidratos. Antes de iniciar a dieta, as medidas de colesterol e
de triglicerdeos foram registradas para cada indivduo .