Você está na página 1de 3

INSTITUTO SUPERIOR DE CIÊNCIAS DE SAÚDE (ISCISA)

CURSO DE LICENCIATURA EM NUTRIÇÃO


Disciplina: BIOESTATÍSTICA

FICHA DE EXERCICIOS: Correlação e Regressão Linear Simples


Parte I: Componente Teórica
1. Responda com verdadeiro (V) ou falso (F) as seguintes afirmações:
• A correlação entre duas variáveis quantitativas 𝑋 e 𝑌 considera-se positiva forte se o seu
coeficiente de correlação linear de Pearson (𝑟) for superior a 0; (F)
• Duas variáveis encontram-se negativamente correlacionadas quando apresentam um valor
para o coeficiente de correlação (𝑟) abaixo de zero; (V)
• O cálculo do coeficiente de correlação de Pearson (𝑟) constitue o primeiro passo para a
análise da existência de correlação entre duas variáveis quantitativas. (F)
• A avaliação da intensidade da correlação faz-se usando a razão de correlação; (F)
• Não basta que duas variáveis quantitativas apresentem um valor alto para o coeficiente de
correlação (𝑟) para que se possa inferir de modo conclusivo que estas encontram-se, de facto,
correlacionadas, é preciso que este coeficiente (𝑟) seja estatísticamente significativo; (V)
• Nunca se pode afirmar categoricamente que duas variáveis são fortemente relacionadas
baseando-se simplesmente no sinal positivo da estimativa do parâmetro da equação do
modelo de regressão linear simples (𝛽̂1 ); (V)
• Existem correlações negativas, mas que são fortes; (V)
• O coeficiente de correlação de Pearson (𝑟), tal como o coeficiente de determinação (𝑅2 ) do
modelo de regressão linear, varia de −1 a +1; (F)
• A estimação do modelo de regressão linear é um procedimento que objectiva estabelecer
uma equação matemática com vista a determinar os valores esperados para a variável
dependente (𝑌), dados os valores da variável explicativa (𝑋), i.e, 𝐸(𝑌\𝑋) = 𝛽̂0 + 𝛽̂1 𝑋; (V)
• A validação de um modelo de regressão linear estimado é feita com base no coeficiente de
determinação (𝑅2 ). (F)

Parte II: Componente Prática


2. Pretendendo-se saber se existe ou não correlação entre o tempo dedicado ao estudo e o
desempenho dos alunos em determinada disciplina, foram sorteados 8 estudantes dessa
disciplina, tendo-se obtido as informações apresentadas na tabela a seguir, em que 𝑥 representa
o número de horas de estudo e 𝑦, a nota obtida em uma prova, para cada aluno. Devido a grande
variabilidade existente nos resultados, é impraticável tirar qualquer conclusão com base numa
observação directa dos dados da tabela. Portanto, por forma a estudar a relação entre 𝑥 e 𝑦:
a) Construa um diagrama de dispersão para as notas obtidas na prova (𝑦) versus o número de
horas de estudo (𝑥);
Comentário: Representar os valores de y e de x num sistema de coordenadas.
1
b) Calcule o coeficiente de correlação de Pearson (𝑟) e interprete o reultado;
Resolução:

∑8𝑛=1 𝑋 ∗ ∑8𝑛=1 𝑌
∑8𝑛=1 𝑋𝑌 −
𝑐𝑜𝑟𝑟(𝑥, 𝑦) = 𝑟 = 𝑛
8 2 8 2
(∑ 𝑋) 2 − (∑𝑛=1 𝑌) ]
[∑8𝑛=1 𝑋 2 − 𝑛=1 ] [∑8
𝑛=1 𝑌
𝑛 𝑛

(40 ∗ 56)
299 − 19
𝑟= 8 = = 0.58
402 562 32.98
[232 − ] [426 − ]
8 8

Interpretação: De acordo com o coeficiente de correlação amostral (0.58), existe uma correlação
linear positiva média entre as notas obtidas na prova e o número de horas de estudo.

c) Teste a significância estatística do coeficiente de correlação em b). Existe, de facto, uma


correlação entre 𝑥 e 𝑦 ou o resultado de 𝑟 obtido foi casual? (use α = 0.05).

Aluno (𝑖) 𝑋 𝑌 𝑋2 𝑌2 𝑋𝑌
1 8 10 64 100 80
2 7 8 49 64 56
3 6 4 36 16 24
4 3 8 9 64 24
5 3 6 9 36 18
6 6 9 36 81 54
7 5 7 25 49 35
8 2 4 4 16 8
Total (∑) 40 56 232 426 299

Resolução:
1. Hipóteses estatísticas:
𝐻 :𝜌=0
{ 0
𝐻1 : 𝜌 ≠ 0
2. Cálculo do valor criítico:
𝑡(𝛼;𝑛−2) = 𝑡(0.05;6) = 2.447 (𝑉𝑎𝑙𝑜𝑟 𝑑𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜 𝑡, 𝑝𝑎𝑟𝑎 𝑢𝑚 𝑡𝑒𝑠𝑡𝑒 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙)
3. Cálculo da estatística de teste::
O valor da estatística de teste para o coeficiente 𝑟 = 0.58 é:

𝑛−2 8−2
𝑇 = 𝑟∗√ = 0.58 ∗ √ = 1.74
1 − 𝑟2 1 − 0.582

2
4. Regra de decisão:
• |𝑇| ≤ 𝑡(𝛼;𝑛−2) , não rejeitar a hipótese nula (𝐻0 );
• |𝑇| > 𝑡(𝛼;𝑛−2) , rejeitar a hipótese nula (𝐻0 );
5. Conclusão:
Como |𝑇| = 1.74 < 𝑡(𝛼;𝑛−2) = 2.45, não se rejeita 𝐻0 , concluindo-se assim que não
existe evidência de correlação entre o tempo dedicado ao estudo e o desempenho obtido
na prova. O valor de 𝑟 obtido é casual.
1. Supondo que esteja a estudar a relação entre a quantidade (ug/l) de determinado poluente
despejado por uma fábrica em um rio, e o dano ecológico nesse curso d’água, medido por um
𝑠𝑐𝑜𝑟𝑒 de dano (valor atribuído conforme o nível de dano). Os valores observados durante a
pesquisa encontram-se apresentados na tabela a seguir. Para o efeito:
a) Encontre as estimativas para os parâmetros do modelo de regressão linear simples (𝛽̂0 e 𝛽̂1 )
e, em seguida, escreva a equação da recta de regressão estimada;
Resolução:
1. Cálculo das estimativas dos coeficientes:
∑8 8 21∗48
∑8 𝑛=1 𝑋∗∑𝑛=1 𝑌 198 − 30
𝑛=1 𝑋𝑌− 6
𝛽̂1 = 𝑛
2 = 212
= = 1.71
8
2 (∑𝑛=1 𝑋) 91− 6 17.5
∑8 𝑋 −
𝑛=1 𝑛

48 21
𝛽̂0 = 𝑌̅ − 𝛽̂1 𝑋̅ = − 1.71 ∗ = 8 − 1.71 ∗ 3.5 = 2.02
6 6
2. Equação da recta de regressão estimada:
𝑌̂ = 𝛽̂0 + 𝛽̂1 𝑋 → 𝑌̂ = 2.02 + 1.71𝑋
b) Use a equação da recta de regressão estimada em a) e encontre os valores esperados
(previstos) do dano ecológico 𝑌 (𝑌̂), para as diferentes quantidades de poluente (𝑋).
Resolução: Substituindo os valores de 𝑋 na equação da recta de regressão estimada,
podemos obter os valores estimados para o dano ecológico (𝑌̂) (última coluna da tabela).

Quantidade de Score de dano


Observações (i)
poluente (𝑋) ecológico (𝑌) 𝑋𝑌 𝑋2 𝑌2 𝑌̂
1 1 3 3 1 9 3.72
2 2 6 12 4 36 5.43
3 3 7 21 9 49 7.14
4 4 10 40 16 100 8.86
5 5 10 50 25 100 10.57
6 6 12 72 36 144 12.28
Total (∑) 21 48 198 91 438 -

Você também pode gostar