Escolar Documentos
Profissional Documentos
Cultura Documentos
Correlação Linear
20 de Abril de 2020
Conteúdo do capítulo
2 Correlação Linear
Diagrama de dispersão
Coeficiente de correlação linear
Teste de significância para o coeficiente de correlação linear
Exemplo 2
Tendo interesse em verificar se pessoas em diferentes grupos etários, i.e, crianças,
adultos e idosos têm, em média, diferentes valores para os níveis de colesterol,
pode-se comparar as médias das medidas para o colesterol dos três grupos.
A Análise de Variância (AN OV A), consiste em comparar todas as médias dos
diferentes grupos, em simultâneo, com o objectivo de identificar se existe ao
menos uma diferença estatisticamente significativa entre as médias dos grupos
comparados. Constatando-se haver ao menos uma diferença estatisticamente
significativa pode-se, em seguida, aplicar uma das técnicas de comparações
múltiplas para identificar quais são os grupos que diferem entre si.
Procedimento da AN OV A
Através de um teste F , comparam-se duas fontes de variação: a variação entre a
média de cada grupo e a média geral de todos os indivíduos do estudo (variação
entre os grupos); e a variação observada entre cada indivíduo e a média de seu
respectivo grupo (variação dentro dos grupos). Se essas variâncias não diferem
significativamente entre si, então as médias dos grupos são estimativas da mesma
média populacional (µ1 = µ2 = µ3 = . . . = µk = µ).
ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples
Introdução
Procedimento da AN OV A
Análise de Variância à um factor Tabela da AN OV A
Correlação Linear Exemplo de aplicação
AN OV A aplicada à área de Experimentação
Procedimento de comparações múltiplas: Teste de T ukey
Exemplo de aplicação
Num estudo de mercado, cujo objectivo principal era detectar as diferenças de
comportamento entre os leitores de três semanários (Expresso, Independente e
Semanario), retiraram-se os seguintes resultados relativos ao tempo de leitura
(em minutos) de cada leitor:
Observações Expresso Independente Semanario
1 100 80 62
2 110 70 65
3 85 65 68
4 60 75 75
5 95 69 80
6 96 91 70
7 78
8 120
T otal 744 450 420
Cálculos
P8 preliminares: P6
Xi1 744 Xi2 450
X̄1 = i=1 = = 93; X̄2 = i=1 = = 75
P6 8 8 6
P 3 P ni 6
Xi3 420 j=1 i=1 Xij 744 + 450 + 420
X̄3 = i=1 = = 70; X̄= = = 80.7
6 6 20 8+6+6
Pnj
SQD = 3j=1 i=1 (Xij − X̄j )2 = (100 − 93)2 + (110 − 93)2 + (85 − 93)2 +
P
(80 − 93) + (95 − 93)2 + (96 − 93)2 + (78 − 93)2 + (120 − 93)2 + (80 − 75)2 +
2
.
Para fazer as comparações múltiplas, deve-se:
A partir dos resultados obtidos, sendo F = 25.09 > F(0.05;3;20) = 3.10, então
rejeita-se H0 ao nível de 5% de significância, tendo-se concluído haver uma
diferença significativa em pelo menos um par de médias. No entanto, interessa
saber quais médias diferem entre si.
Correlação
Por exemplo, pretendendo-se estudar a relação existente entre a idade (em anos) e
a pressão arterial sistólica (em mmHg), pode-se estar interessado em saber:
1 se as duas variáveis estão de facto associadas, isto é, se existe uma correlação
entre as mesmas;
2 se à medida que aumentam os valores da idade, os valores da pressão arterial
sistólica aumentam ou diminuem concomitantemente. Caso isso se verifique,
pode interessar determinar o quanto de aumento ou diminuição nos valores
da pressão arterial sistólica é explicado pela variação dos valores da idade.
Análise de Correlação
A análise de correlação consiste na medição do grau ou intensidade de associação
entre duas variáveis. Quando se pode demonstrar que a variação de uma variável
está de algum modo associada com a variação da outra, então podemos dizer que
as duas variáveis estão correlacionadas.
Exemplos
O simples facto de duas variáveis apresentarem uma forte correlação entre si, não
é, necessariamente, uma indicação de que exista uma relação de causa e efeito
entre elas, uma vez que o coeficiente de correlação mede a existência de uma
associação, não de uma relação de causa e efeito entre as variáveis. Se r 6= 0:
1 Pode ser que a variável x influencie o comportamento da variável y, ou seja,
alterações na variável x é que determinam as variações na variável y ou que
os valores da variável y é que influenciam o comportamento da variável x,
isto é, são os valores da variável y que determinam as variações na variável
x (relação unilateral);
2 Pode ser que as variáveis não sejam correlacionadas – neste caso, ainda que o
diagrama de dispersão sugira existência de relação, essa relação pode se dever
exclusivamente ao acaso, à pura coincidência;
3 As variáveis x e y são influenciadas por uma terceira variável, em que pode
haver a influência de uma terceira variável, desconhecida ou não considerada
na análise, cuja acção modifica, simultaneamente, o comportamento tanto da
variável x quanto da variável y (relação espúria).
Pn Pn Pn
Dados: i=1 x2i = 152.305; i=1 yi2 = 57.369; i=1 xi = 1.349;
Pn Pn
i=1 yi = 829; xi yi = 93.406
i=1
Pn Pn
i=1 xi i=1 yi
Pn
x y
i=1 i i −
r = corr(x, y) = rh n
Pn Pn
Pn 2 ( i=1 xi )2 ih Pn 2 ( i=1 yi )2 i
i=1 xi − i=1 yi −
n n
1.349 ∗ 829
93.406 −
r = rh 12 = 0.8352
1.3492 ih 8292 i
152.305 − 57.369 −
12 12
Existe uma correlação positiva forte entre a pressão arterial diastólica (y) e
pressão arterial sistólica (x).
Exemplo:
Para uma amostra de tamanho n = 80, em que a relação entre duas variáveis
quantitativas é de interesse, foi obtido para o valor do coeficiente de correlação
de P earson r = 0.78. Para determinar se a correlação linear indicada por este
coeficiente é estatisticamente diferente de zero, usou-se o teste de significância
para r. Com base nos resultados obtidos, isto é, T = 11.0 e tα;n−2 = 1, 99, ao
nível de 5% de significância (teste bilateral), pode-se rejeitar a hipótese nula e,
consequentemente, concluir que a correlação é estatisticamente diferente de zero.
ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples