Você está na página 1de 35

Análise de Variância à um factor

Correlação Linear

Análise de Variância (AN OV A), Correlação e Regressão


Linear Simples

Lino Marques, Ph.D


lsantos193@gmail.com
Evan Massango
evanmassango@gmail.com

INSTITUTO SUPERIOR DE CIÊNCIAS DE SAÚDE


CURSO DE LICENCIATURA EM NUTRIÇÃO

20 de Abril de 2020

ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples


Análise de Variância à um factor
Correlação Linear

Conteúdo do capítulo

1 Análise de Variância à um factor


Introdução
Procedimento da AN OV A
Tabela da AN OV A
Exemplo de aplicação
AN OV A aplicada à área de Experimentação
Procedimento de comparações múltiplas: Teste de T ukey

2 Correlação Linear
Diagrama de dispersão
Coeficiente de correlação linear
Teste de significância para o coeficiente de correlação linear

ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples


Introdução
Procedimento da AN OV A
Análise de Variância à um factor Tabela da AN OV A
Correlação Linear Exemplo de aplicação
AN OV A aplicada à área de Experimentação
Procedimento de comparações múltiplas: Teste de T ukey

Os testes de hipóteses, considerados anteriormente, requeriam a utilização de


informação referente à uma ou no máximo duas amostras. Contudo, por vezes
interessa testar hipóteses relativas à mais de duas populações ou grupos de estudo.
Exemplo 1
Um hipermercado pretende saber qual dos seguintes locais de exposição maximiza
as vendas de cassetes de vídeo:
1 logo a seguir à entrada;
2 junto dos televisores e vídeo-gravadores;
3 junto dos discos compactos (CD0 s);
4 junto das caixas registadoras.

Neste exemplo, pretende-se saber se existe uma diferença significativa entre o


número médio de cassetes vendidas por dia em cada local de exposição ou se,
pelo contrário, as vendas médias diárias são idênticas, qualquer que seja o
local de exposição do produto, em que as hipóteses seriam definidas por:
H0 : µ1 = µ2 = µ3 = µ4 ;
H1 : ∃ µi 6= µj ; i 6= j; i, j = 1, 2, ..., 4.
ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples
Introdução
Procedimento da AN OV A
Análise de Variância à um factor Tabela da AN OV A
Correlação Linear Exemplo de aplicação
AN OV A aplicada à área de Experimentação
Procedimento de comparações múltiplas: Teste de T ukey

Exemplo 2
Tendo interesse em verificar se pessoas em diferentes grupos etários, i.e, crianças,
adultos e idosos têm, em média, diferentes valores para os níveis de colesterol,
pode-se comparar as médias das medidas para o colesterol dos três grupos.
A Análise de Variância (AN OV A), consiste em comparar todas as médias dos
diferentes grupos, em simultâneo, com o objectivo de identificar se existe ao
menos uma diferença estatisticamente significativa entre as médias dos grupos
comparados. Constatando-se haver ao menos uma diferença estatisticamente
significativa pode-se, em seguida, aplicar uma das técnicas de comparações
múltiplas para identificar quais são os grupos que diferem entre si.
Procedimento da AN OV A
Através de um teste F , comparam-se duas fontes de variação: a variação entre a
média de cada grupo e a média geral de todos os indivíduos do estudo (variação
entre os grupos); e a variação observada entre cada indivíduo e a média de seu
respectivo grupo (variação dentro dos grupos). Se essas variâncias não diferem
significativamente entre si, então as médias dos grupos são estimativas da mesma
média populacional (µ1 = µ2 = µ3 = . . . = µk = µ).
ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples
Introdução
Procedimento da AN OV A
Análise de Variância à um factor Tabela da AN OV A
Correlação Linear Exemplo de aplicação
AN OV A aplicada à área de Experimentação
Procedimento de comparações múltiplas: Teste de T ukey

• Considerem-se k amostras independentes de populações X1 , X2 , X3 , . . . , Xk ,


ou de k grupos de uma mesma população, tem-se: P P
k nj
Soma de quadrados dentro dos grupos: SQD = j=1 i=1 (Xij − X̄j )2
Pk
Soma de quadrados entre os grupos: SQE = j=1 nj (X̄j − X̄)2
Pk Pnj
Soma de quadrados total: SQT = j=1 i=1 (Xij − X̄)2 = SQD + SQE.
Tabela da Análise de Variância
Fonte de Graus de Soma de Quadrado
variação liberdade Quadrados M édio F
SQE QM E
Entre k−1 SQE QM E =
k−1 QM D
SQD
Dentro n−k SQD QM D =
n−k
Total n−1 SQT
Portanto, com base na comparação entre a estatística F e os valores críticos da
distribuição F − Snedecor, tem-se as seguintes regras de decisão:
Se F ≤ F(α;k−1;n−k) , não se rejeita a hipótese nula.
Se F > F(α;k−1;n−k) , rejeita-se a hipótese nula.
ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples
Introdução
Procedimento da AN OV A
Análise de Variância à um factor Tabela da AN OV A
Correlação Linear Exemplo de aplicação
AN OV A aplicada à área de Experimentação
Procedimento de comparações múltiplas: Teste de T ukey

Exemplo de aplicação
Num estudo de mercado, cujo objectivo principal era detectar as diferenças de
comportamento entre os leitores de três semanários (Expresso, Independente e
Semanario), retiraram-se os seguintes resultados relativos ao tempo de leitura
(em minutos) de cada leitor:
Observações Expresso Independente Semanario
1 100 80 62
2 110 70 65
3 85 65 68
4 60 75 75
5 95 69 80
6 96 91 70
7 78
8 120
T otal 744 450 420

Deseja-se saber se, nas populações de onde se retiraram as amostras, os tempos


médios de leitura de jornal são idênticos ou não para os leitores dos três grupos.
ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples
Introdução
Procedimento da AN OV A
Análise de Variância à um factor Tabela da AN OV A
Correlação Linear Exemplo de aplicação
AN OV A aplicada à área de Experimentação
Procedimento de comparações múltiplas: Teste de T ukey

Admitindo-se que nas três populações os tempos de leitura seguem uma


distribuição normal com igual dispersão (variâncias iguais). As hipóteses
a testar são:
H 0 : µ1 = µ2 = µ3
6 µj para algum par (i, j), em que i 6= j.
H 1 : µi =

Cálculos
P8 preliminares: P6
Xi1 744 Xi2 450
X̄1 = i=1 = = 93; X̄2 = i=1 = = 75
P6 8 8 6
P 3 P ni 6
Xi3 420 j=1 i=1 Xij 744 + 450 + 420
X̄3 = i=1 = = 70; X̄= = = 80.7
6 6 20 8+6+6

SQE = 3j=1 nj (Xj − X̄)2 = [8 × (93 − 80.7)2 ] + [6 × (75 − 80.7)2 ] +


P

+ [6 × (75 − 80.7)2 ] = 2092.02

Pnj
SQD = 3j=1 i=1 (Xij − X̄j )2 = (100 − 93)2 + (110 − 93)2 + (85 − 93)2 +
P

(80 − 93) + (95 − 93)2 + (96 − 93)2 + (78 − 93)2 + (120 − 93)2 + (80 − 75)2 +
2

+ (70 − 75)2 + . . . + (80 − 70)2 + (70 − 70)2 = 3118.02

ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples


Introdução
Procedimento da AN OV A
Análise de Variância à um factor Tabela da AN OV A
Correlação Linear Exemplo de aplicação
AN OV A aplicada à área de Experimentação
Procedimento de comparações múltiplas: Teste de T ukey

Através dos resultados obtidos anteriormente, pode-se construir a tabela da


Análise de Variância como apresentado a seguir.
Tabela da ANOVA
Fonte de Graus de Soma de Quadrado
variação liberdade Quadrados M édio F
Entre os grupos 2 2092.9 1046.1 5.7036
Dentro dos grupos 17 3118.0 183.4
Total 19 5210.2
Para um nível de significância de 0.05, o valor da distribuição F(2,17) é 3,59.
Portanto, sendo 5.7036 > 3.59, rejeita-se a hipótese nula de igualdade de
médias entre os três grupos, isto é, pelo menos dois grupos de leitores dos
jornais têm médias de tempos de leitura diferentes.
Pelos valores médios amostrais quase se poderia concluir que as diferenças
significativas seriam entre os leitores do jornal Expresso (93 minutos) e dos
outros jornais (75 e 70 minutos). Porém, a resposta final a esta questão só
poderá ser dada com a aplicação de um outro tipo de ensaio que permita a
comparação múltipla entre cada par de médias.
ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples
Introdução
Procedimento da AN OV A
Análise de Variância à um factor Tabela da AN OV A
Correlação Linear Exemplo de aplicação
AN OV A aplicada à área de Experimentação
Procedimento de comparações múltiplas: Teste de T ukey

Análise de Variância Aplicada à Área de Experimentação


• Nos nossos dias, a realização de experimentos no meio científico, tem se tornado
cada vez mais frequente. A busca desenfreada por novas drogas, tratamentos e
bens de consumo, dependem de análises estatísticas para que exista a validação
das respostas inerentes ao problema.

• Na área de experimentação, técnicas como a análise de variância permitem


comparar os efeitos dos níveis de um tratamento sobre a variável resposta.
• A técnica de Análise de Variância, foi proposta em 1920 por Ronald F isher, na
aplicação de experimentos agrícolas. Nesta, particiona-se a variabilidade total dos
dados em duas ou mais componentes, i.e, na comparação de uma ou mais médias
dos níveis dos tratamentos, além das causas atribuídas aos níveis do tratamento, é
possível existir efeitos desconhecidos, ou não controlados (erro ou resíduo).
• Existem muitas variações da ANOVA devido aos diversos tipos de experimentos
que podem ser realizados e delineamentos a serem considerados. Considerar-se-á
apenas o caso mais simples, a Análise de Variância à um factor (Delineamento
Completamente Casualizado).
ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples
Introdução
Procedimento da AN OV A
Análise de Variância à um factor Tabela da AN OV A
Correlação Linear Exemplo de aplicação
AN OV A aplicada à área de Experimentação
Procedimento de comparações múltiplas: Teste de T ukey

Tipos de Análise de Variância


Classificados conforme o número de variáveis independentes analisadas no estudo.
AN OV A à um factor: Delineamento Completamente Casualizado (DCC);
AN OV A de dois critérios, ou múltiplos critérios: também conhecido como
Delineamento em Blocos Casualizados (DBC);
Outros modelos mais complexos, tais como os modelos factoriais, de
quadrados latinos, agrupados, de medidas repetidas (dados emparelhados).
Definições fundamentais
Tratamento (k): cada um dos diferentes processos experimentais estudados em
um dado experimento;
Unidade Experimental: cada um dos grupos de indivíduos que recebem um
determinado processo experimental (tratamento);
Repetição: É a aplicação de um mesmo tratamento a todos os indivíduos que
compõem uma determinada unidade experimental;
Erro experimental: Corresponde à variação entre as unidades experimentais
(indivíduos) que constituem um mesmo tratamento (grupo).
Bloco: Também chamado de factor, representa cada um dos conjuntos formados
por unidades experimentais semelhantes e homogêneas entre si.
ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples
Introdução
Procedimento da AN OV A
Análise de Variância à um factor Tabela da AN OV A
Correlação Linear Exemplo de aplicação
AN OV A aplicada à área de Experimentação
Procedimento de comparações múltiplas: Teste de T ukey

Análise de Variância à um factor (One Way AN OV A)


Delineamento em que os grupos ou amostras estudadas são comparados
segundo um único critério de classificação, isto é, pelo tipo de tratamento
que recebem.
Neste, testa-se apenas uma variável independente, designada pelo tipo de
tratamento, o qual é analisado em apenas um bloco constituído por várias
unidades experimentais. A seguir apresenta-se o modelo de organização de
dados para a AN OV A à um factor.
Tratamentos Total
1 2 3 ... k
X11 X21 X31 . . . Xk1
X12 X22 X32 . . . Xk2
... ... ... ... ...
X1r X2r X3r . . . Xkr
P
Total T1 T2 T3 ... Tk T
Repetições r r r ... r N = k×r
Média x̄1 x̄2 x̄3 ... x̄k
ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples
Introdução
Procedimento da AN OV A
Análise de Variância à um factor Tabela da AN OV A
Correlação Linear Exemplo de aplicação
AN OV A aplicada à área de Experimentação
Procedimento de comparações múltiplas: Teste de T ukey

• Os cálculos para a obtenção do valor da estatística F podem ser realizados pela


aplicação de fórmulas alternativas, desenvolvidas a partir das fórmulas tradicionais
das somas dos quadrados total, entre os grupos e dentro dos grupos.
.
Tabela da Análise de Variância
Fonte de Graus de Soma de
variação liberdade Quadrados QM F
Pk n x2
P
SQE QM E
Entre k−1 SQE = −C
n k−1 QM D
(T ratamentos)
SQD
Dentro N −k SQD = SQT - SQE
N −k
(Residuos)
Pk Pn 2
Total N −1 SQT = x −C
Pk Pn 2
( x)
C = ; k - número de tratamentos (amostras) do estudo; N - total
N
de elementos das k amostras e n - número de elementos de cada amostra.
ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples
Introdução
Procedimento da AN OV A
Análise de Variância à um factor Tabela da AN OV A
Correlação Linear Exemplo de aplicação
AN OV A aplicada à área de Experimentação
Procedimento de comparações múltiplas: Teste de T ukey

Modelo e Análise de Variância


Considere-se um delineamento completamente casualizado ou de um factor, com
níveis ou tratamentos em r = n réplicas. Para este tipo de experimento, cada
observação Yij pode ser decomposta conforme o modelo na equação (1):
Yij = µ + τi + ij ; i = 1, 2, . . . I e j = 1, 2, . . . J. (1)
1 Yij é a variável resposta para o tratamento i no indivíduo j;
2 µ é o efeito constante (média geral);
3 τi é o efeito de tratamento i;
4 ij é o erro aleatório.
Pressupostos do modelo
1 Os erros aleatórios são idêntica e independentemente distribuídos (IID),
Normalmente, com média 0 e variância σ 2 (ij ∼ N (0; σ 2 ));
2 A variância é constante nos níveis do factor (tratamento);
3 As observações são bem descritas pelo modelo (yij ∼ N (µ + τi ; σ 2 )).
Em um experimento, existe o interesse em testar se há diferenças entre as médias
dos tratamentos (H0 : µ1 = . . . = µI versus H1 : µi 6= µj para algum par (i, j)).
ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples
Introdução
Procedimento da AN OV A
Análise de Variância à um factor Tabela da AN OV A
Correlação Linear Exemplo de aplicação
AN OV A aplicada à área de Experimentação
Procedimento de comparações múltiplas: Teste de T ukey

Comparações múltiplas: Teste de T ukey

Quando na AN OV A não se rejeita H0 , a análise é finalizada porque não se


identificou diferença estatística entre os tratamentos. Porém, quando H0 for
rejeitada, deve-se conhecer quais das médias dos tratamentos diferem entre si.
Podia-se pensar na utilização de múltiplos testes t comparando, desta forma,
cada um dos diferentes pares de médias, um por vez. No entanto, para além
do inconveniente gerado pelo elevado número de testes t a realizar, devido à
não independência entre os vários testes, não se conhece com exactidão o
nível de significância a usar de modo a não inflacionar a probabilidade de erro.
Os testes de comparações múltiplas são complementos da AN OV A de modo
a identificar as diferenças entre as médias, comparando-as duas a duas. Estes
testes controlam o erro ao considerar o nível de significância de acordo com o
número de comparações realizadas no experimento.

ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples


Introdução
Procedimento da AN OV A
Análise de Variância à um factor Tabela da AN OV A
Correlação Linear Exemplo de aplicação
AN OV A aplicada à área de Experimentação
Procedimento de comparações múltiplas: Teste de T ukey

O teste de T ukey, igualmente conhecido como teste HSD (proveniente do inglês


Honestly Signif icant Dif f erence), é um dos diversos testes de comparações
múltiplas existentes.
Na prática, este é mais exato e mais eficaz relativamente aos demais testes de
comparações múltiplas existentes, pois permite que se estabeleça a Diferença
Mínima Significativa (DM S) entre as médias amostrais, quando comparadas
duas a duas, tendo-se como referência um determinado nível de significância
previamente estabelecido para o experimento.
Duas médias são estatisticamente diferentes se a diferença das médias amostrais
(em valor absoluto) for superior a Diferença Mínima Significativa (DM S).
Teste de T ukey: Amostras de mesmo tamanho
Para amostras, ou grupos, com o mesmo número de elementos, a estatística do
teste de T ukey é dada por: r
QM R
DM S = q(α, k, N − k)
n
em que, q(α, k, N − k) é um valor tabelado; QM R - é o quadrado médio dos
resíduos e n é o número de elementos submetidos a cada tratamento.
ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples
Introdução
Procedimento da AN OV A
Análise de Variância à um factor Tabela da AN OV A
Correlação Linear Exemplo de aplicação
AN OV A aplicada à área de Experimentação
Procedimento de comparações múltiplas: Teste de T ukey

Teste de T ukey: Amostras de tamanho diferente


Para amostras, ou grupos, com tamanhos diferentes, a estatística do teste de
T ukey é dada por: s
QM R  1 1
DM S = q(α, k, N − k) +
2 ni nj
ni é o número de observações do tratamento i e nj é o número de observações do
tratamento j. Como ni 6= nj , tem-se um valor de DM S para cada comparação.

.
Para fazer as comparações múltiplas, deve-se:

1 Calcular as médias dos tratamentos;


2 Ordenar as médias calculadas;
3 Calcular a estatística de T ukey;
4 Comparar as diferenças entre as médias com o valor de DM S.

ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples


Introdução
Procedimento da AN OV A
Análise de Variância à um factor Tabela da AN OV A
Correlação Linear Exemplo de aplicação
AN OV A aplicada à área de Experimentação
Procedimento de comparações múltiplas: Teste de T ukey

Exemplo: Procedimento de comparações múltiplas

Pretendendo-se realizar um experimento para comparar a resistência à compressão


de 4 tipos diferentes de caixas, foram obtidos os seguintes dados:

Resistência a compressão (Repetições)


Caixa 1 2 3 4 5 6 Média
1 655.5 788.3 734.3 721.4 679.1 699.4 713.0
2 789.2 772.5 786.9 686.1 732.1 774.8 756.93
3 737.1 639.0 696.3 671.7 717.2 727.1 698.07
4 535.1 628.7 542.4 559.0 586.9 520.0 562.02

ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples


Introdução
Procedimento da AN OV A
Análise de Variância à um factor Tabela da AN OV A
Correlação Linear Exemplo de aplicação
AN OV A aplicada à área de Experimentação
Procedimento de comparações múltiplas: Teste de T ukey

Exemplo: Procedimento de comparações múltiplas


Procedendo a Análise de Variância para investigar sobre a existência de diferenças
significativas relativamente a compressão média das 4 caixas, obteve-se a seguinte
tabela da ANOVA.
Tabela da ANOVA
Fonte de Graus de Soma de Quadrado
variação liberdade Quadrados M édio F
T ratamentos 3 127.38 42.46 25.09
Residuos 20 33.84 1.692
Total 23 161.21

A partir dos resultados obtidos, sendo F = 25.09 > F(0.05;3;20) = 3.10, então
rejeita-se H0 ao nível de 5% de significância, tendo-se concluído haver uma
diferença significativa em pelo menos um par de médias. No entanto, interessa
saber quais médias diferem entre si.

ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples


Introdução
Procedimento da AN OV A
Análise de Variância à um factor Tabela da AN OV A
Correlação Linear Exemplo de aplicação
AN OV A aplicada à área de Experimentação
Procedimento de comparações múltiplas: Teste de T ukey

Exemplo: Procedimento de comparações múltiplas


1 Médias dos tratamentos:
y¯1. = 713; y¯2. = 756.93; y¯3. = 698.07; y¯4. = 562.02
2 Médias dos tratamentos ordenadas:
y¯2. = 756.93; y¯1. = 713; y¯3. = 698.07; y¯4. = 562.02
3 Cálculo da estatística de T ukey: Tratando-se
r de grupos
r com o mesmo
QM R 1.692
tamanho, DM S = q(α, k, N − k) = 3.96 = 2.103
n 6
4 Comparação das diferenças entre as médias e o valor de DM S:
|756.93 - 713| = 43.93 > DM S, então µ2 6= µ1
|756.93 - 698.07| = 58.06 > DM S, então µ2 6= µ3
|756.93 - 562, 02| = 194.91 > DM S, então µ2 6= µ4
|713 - 698.08| = 14.92 > DM S, então µ1 6= µ3
|713 - 562, 02| = 150.98 > DM S, então µ1 6= µ4
|698.08 - 562, 02| = 136.06 > DM S, então µ3 6= µ4

Com base no teste de comparações múltiplas de T ukey pode-se afirmar, a 5% de


significância, que relativamente à resistência, todas as caixas diferem entre si.
ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples
Diagrama de dispersão
Análise de Variância à um factor
Coeficiente de correlação linear
Correlação Linear
Teste de significância para o coeficiente de correlação linear

Correlação Linear Simples


Em certos estudos, depara-se com situações em que é necessário avaliar o
comportamento simultâneo de duas variáveis quantitativas normalmente
distribuídas, coletadas em uma mesma amostra, no sentido de tentar
estabelecer uma relação (ou associação) entre elas.
Para além de estabelecer uma relação, geralmente pode-se pretender fazer
previsões a respeito do comportamento de uma delas em relação à outra,
assim como quantificar o quanto de alteração de uma é determina pela
alteração da outra.
Em Estatística, as respostas a essas questões devem ser examinadas através
do estudo da correlação e da regressão linear.

Estas, constituem técnicas largamente usadas em economia, ciências sociais,


ciências biomédicas, entre outras.

ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples


Diagrama de dispersão
Análise de Variância à um factor
Coeficiente de correlação linear
Correlação Linear
Teste de significância para o coeficiente de correlação linear

Correlação
Por exemplo, pretendendo-se estudar a relação existente entre a idade (em anos) e
a pressão arterial sistólica (em mmHg), pode-se estar interessado em saber:
1 se as duas variáveis estão de facto associadas, isto é, se existe uma correlação
entre as mesmas;
2 se à medida que aumentam os valores da idade, os valores da pressão arterial
sistólica aumentam ou diminuem concomitantemente. Caso isso se verifique,
pode interessar determinar o quanto de aumento ou diminuição nos valores
da pressão arterial sistólica é explicado pela variação dos valores da idade.

Análise de Correlação
A análise de correlação consiste na medição do grau ou intensidade de associação
entre duas variáveis. Quando se pode demonstrar que a variação de uma variável
está de algum modo associada com a variação da outra, então podemos dizer que
as duas variáveis estão correlacionadas.

ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples


Diagrama de dispersão
Análise de Variância à um factor
Coeficiente de correlação linear
Correlação Linear
Teste de significância para o coeficiente de correlação linear

Exemplos

Exemplos de aplicações da analise de correlação e regressão linear incluem:


As vendas de um produto podem ser previstas utilizando a relação entre as
vendas e o volume de gastos com publicidade;
O tempo de permanência no hospital de um paciente cirúrgico pode ser
previsto utilizando a relação entre o tempo no hospital e a gravidade da
operação;
Pode-se estar interessado em conhecer a relação entre a pressão arterial do
paciente e a quantidade de medicamento que o paciente toma por dia;
Pode-se pretender analisar a relação entre o número de mortes devido ao
cancro do pulmão e a condição de fumante (se o indivíduo fuma ou não).

ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples


Diagrama de dispersão
Análise de Variância à um factor
Coeficiente de correlação linear
Correlação Linear
Teste de significância para o coeficiente de correlação linear

Como dito anteriormente, define-se como correlação linear simples a relação


entre duas variáveis quantitativas normalmente distribuídas, sendo os dados
da amostra representados por pares ordenados (x, y), onde x é a variável
independente (explicativa) e y é a variável-resposta.
A análise de correlação tem por objectivos:
1 - verificar a existência de relação entre as variáveis estudadas;
2 - caso exista, determinar se esta é positiva ou negativa;
3 - verificar a intensidade da associação;
4 - verificar se a associação de facto existe ou ocorreu por acaso.
1 Para responder aos primeiro e segundo objectivos, inicialmente, dispõe-se os
dados em um gráfico, chamado de gráfico de dispersão, o qual transmite uma
ideia inicial da existência ou não de uma relação entre as variáveis em análise.
2 Os objectivos 2 e 3, são respondidos mediante o cálculo do coeficiente de
correlação;
3 Para o objectivo 4, procede-se a um teste de hipóteses para o coeficiente de
correlação, de modo a verificar se a correlação existente é estatisticamente
significativo.
ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples
Diagrama de dispersão
Análise de Variância à um factor
Coeficiente de correlação linear
Correlação Linear
Teste de significância para o coeficiente de correlação linear

O diagrama de dispersão é um gráfico cartesiano de pontos, onde cada ponto


representa, concomitantemente, os valores das duas variáveis x e y.
Sendo (x1 ; y1 ), . . . , (xn ; yn ) um conjunto de dados bivariados, o gráfico de
dispersão (Scatter P lot) é a representação gráfica dos pares (xi , yi ), para
i = 1, . . . n. A seguir, um exemplo de um diagrama de dispersão.

ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples


Diagrama de dispersão
Análise de Variância à um factor
Coeficiente de correlação linear
Correlação Linear
Teste de significância para o coeficiente de correlação linear

Exemplos de diagramas de dispersão ilustrando as possíveis associações entre as variáveis.

ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples


Diagrama de dispersão
Análise de Variância à um factor
Coeficiente de correlação linear
Correlação Linear
Teste de significância para o coeficiente de correlação linear

Coeficiente de correlação linear


A análise da correlação entre variáveis por meio do diagrama de dispersão é
uma avaliação puramente subjetiva e pouco precisa.
Karl P earson, propôs, o chamado coeficiente de correlação de Pearson de
modo a determinar uma medida numérica para avaliar a existência de
correlação linear entre duas variáveis.
O Coeficiente de correlação linear de P earson (r) é dado por:
Pn Pn
i=1 xi i=1 yi
Pn
cov(x, y) i=1 xi yi −
r= = rh n
Pn Pn
sx sy 2 ih P 2i
2− ( i=1 xi ) 2− ( i=1 yi )
Pn n
x
i=1 i y
i=1 i
n n
Pn
(xi − x̄)(yi − ȳ)
cov(x, y) = i=1 e sx e sy denotam o desvio padrão de x e
n−1
y, respectivamente.
O coeficiente de P earson, é uma medida da associação entre duas variáveis
quantitativas, que mostra o grau de dependência linear entre elas.
ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples
Diagrama de dispersão
Análise de Variância à um factor
Coeficiente de correlação linear
Correlação Linear
Teste de significância para o coeficiente de correlação linear

Coeficiente de correlação de pearson (r) - Fórmula alternativa


A análise da correlação entre variáveis por meio do diagrama de dispersão é
uma avaliação puramente subjetiva e pouco precisa.
Karl P earson, propôs, o chamado coeficiente de correlação de pearson de
modo a determinar uma medida numérica para avaliar a existência de
correlação linear entre duas variáveis.
O Coeficiente de correlação linear de P earson (r) é dado por:
Pn
cov(x, y) i=1 xi yi − nx̄ȳ
r= = rh
sx sy Pn 2 2
ih P
n 2 2
i
i=1 xi − nx̄ i=1 yi − nȳ
Pn
i=1 (xi − x̄)(yi − ȳ)
cov(x, y) = e sx e sy denotam o desvio padrão de x e
n−1
y, respectivamente.
O coeficiente de correlação de P earson, é uma medida da associação entre
duas variáveis quantitativas, que mostra o grau de dependência linear entre
elas.
ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples
Diagrama de dispersão
Análise de Variância à um factor
Coeficiente de correlação linear
Correlação Linear
Teste de significância para o coeficiente de correlação linear

O coeficiente de correlação de P earson varia de −1 a 1 (−1 ≤ r ≤ 1);


r = −1 se e somente se a relação entre x e y for negativa linear perfeita;
r = 1 se e somente se a relação entre x e y for positiva linear perfeita,
representando uma relação determinística;
O coeficiente de correlação não depende da escala de medida. É representado
por um número adimensional, que independe da unidade de medida das duas
variáveis em análise;
O valor do coeficiente de correlação r = 0, indica uma ausência de correlação
linear entre as variáveis, indicando que elas não estão associadas;
Uma correlação positiva indica uma relação direta entre as duas variáveis,
isto é, quando os valores da variável x aumentam, os valores da variável y
aumentam concomitantemente;
Uma correlação negativa indica uma relação inversa, ou seja, quando os
valores da variável x aumentam, os valores da variável y diminuem, vice-versa.

ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples


Diagrama de dispersão
Análise de Variância à um factor
Coeficiente de correlação linear
Correlação Linear
Teste de significância para o coeficiente de correlação linear

O simples facto de duas variáveis apresentarem uma forte correlação entre si, não
é, necessariamente, uma indicação de que exista uma relação de causa e efeito
entre elas, uma vez que o coeficiente de correlação mede a existência de uma
associação, não de uma relação de causa e efeito entre as variáveis. Se r 6= 0:
1 Pode ser que a variável x influencie o comportamento da variável y, ou seja,
alterações na variável x é que determinam as variações na variável y ou que
os valores da variável y é que influenciam o comportamento da variável x,
isto é, são os valores da variável y que determinam as variações na variável
x (relação unilateral);
2 Pode ser que as variáveis não sejam correlacionadas – neste caso, ainda que o
diagrama de dispersão sugira existência de relação, essa relação pode se dever
exclusivamente ao acaso, à pura coincidência;
3 As variáveis x e y são influenciadas por uma terceira variável, em que pode
haver a influência de uma terceira variável, desconhecida ou não considerada
na análise, cuja acção modifica, simultaneamente, o comportamento tanto da
variável x quanto da variável y (relação espúria).

ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples


Diagrama de dispersão
Análise de Variância à um factor
Coeficiente de correlação linear
Correlação Linear
Teste de significância para o coeficiente de correlação linear

Nota: Os valores de r na tabela referem-se ao valor absoluto do coeficiente de


correlação, podendo a mesma interpretação ser adoptada tanto para valores
positivos, assim como para valores negativos de r.

ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples


Diagrama de dispersão
Análise de Variância à um factor
Coeficiente de correlação linear
Correlação Linear
Teste de significância para o coeficiente de correlação linear

Considere os seguintes dados para valores das pressões arteriais sistólica e


diastólica de 12 pacientes.

ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples


Diagrama de dispersão
Análise de Variância à um factor
Coeficiente de correlação linear
Correlação Linear
Teste de significância para o coeficiente de correlação linear

Conforme visto anteriormente, o gráfico de dispersão para os dados relativos


a pressão arterial diastólica (y) e sistólica (x) sugere a existência de uma
relação linear entre x e y.

ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples


Diagrama de dispersão
Análise de Variância à um factor
Coeficiente de correlação linear
Correlação Linear
Teste de significância para o coeficiente de correlação linear

Pn Pn Pn
Dados: i=1 x2i = 152.305; i=1 yi2 = 57.369; i=1 xi = 1.349;
Pn Pn
i=1 yi = 829; xi yi = 93.406
i=1
Pn Pn
i=1 xi i=1 yi
Pn
x y
i=1 i i −
r = corr(x, y) = rh n
Pn Pn
Pn 2 ( i=1 xi )2 ih Pn 2 ( i=1 yi )2 i
i=1 xi − i=1 yi −
n n
1.349 ∗ 829
93.406 −
r = rh 12 = 0.8352
1.3492 ih 8292 i
152.305 − 57.369 −
12 12
Existe uma correlação positiva forte entre a pressão arterial diastólica (y) e
pressão arterial sistólica (x).

ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples


Diagrama de dispersão
Análise de Variância à um factor
Coeficiente de correlação linear
Correlação Linear
Teste de significância para o coeficiente de correlação linear

Teste de significância para o coeficiente de correlação linear


Conforme visto anteriormente, nem sempre um r 6= 0 indica existência de
correlação entre as variáveis;
Pela aplicação do teste de hipóteses, pode-se calcular a probabilidade de a
correlação ter ocorrido por acaso;
O verdadeiro coeficiente de correlação populacional ρ só poderia ser calculado
caso todos os possíveis pares x e y, da população, pudessem ser obtidos;
No entanto, com base no procedimento inferencial de testes de hipóteses,
a inferência para a população é feita a partir do coeficiente de correlação
amostral r, o qual representa uma estimativa pontual de ρ. As hipóteses
para o teste de hipóteses paraa correlação são dadas por:
H0 : ρ = 0;
H1 : ρ 6= 0.

Pretende-se verificar se a associação entre as duas variáveis analisadas é real, isto


é, se ela, de facto, pode ser inferida ou não para a população de onde a amostra
foi retirada (ou a associação ocorreu somente em razão do erro amostral
aleatório).
ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples
Diagrama de dispersão
Análise de Variância à um factor
Coeficiente de correlação linear
Correlação Linear
Teste de significância para o coeficiente de correlação linear

Para avaliar a significância estatística do coeficiente de correlação r, testa-se


a hipótese nula de que ρ = 0, utilizando-se a distribuição t com n-2 graus de
liberdade, sendo n o número de pares das observações de x e y.
A estatística do teste é dada por:r
n−2
T =r ∼ tn−2
1 − r2
Como regra de decisão, se:
T ≤ t(α;n−2) , não rejeita-se a hipótese nula;
T > t(α;n−2) , rejeita-se a hipótese nula;

Exemplo:
Para uma amostra de tamanho n = 80, em que a relação entre duas variáveis
quantitativas é de interesse, foi obtido para o valor do coeficiente de correlação
de P earson r = 0.78. Para determinar se a correlação linear indicada por este
coeficiente é estatisticamente diferente de zero, usou-se o teste de significância
para r. Com base nos resultados obtidos, isto é, T = 11.0 e tα;n−2 = 1, 99, ao
nível de 5% de significância (teste bilateral), pode-se rejeitar a hipótese nula e,
consequentemente, concluir que a correlação é estatisticamente diferente de zero.
ISCISA - Bioestatística Análise de Variância, Correlação e Regressão Linear Simples

Você também pode gostar