Escolar Documentos
Profissional Documentos
Cultura Documentos
Departamento de Matemática
Escola Superior de Tecnologia de Setúbal
Instituto Politécnico de Setúbal
2020-2021
Dados Bivariados
Por vezes a população que se pretende estudar, aparece sob a forma de pares
de valores, isto é, cada indivı́duo ou resultado experimental, contribui com um
conjunto de dois valores.
Objetivo
Estudar a relação entre duas
Variáveis Quantitativas.
Objetivo
Estudar a relação entre duas variáveis quantitativas.
Exemplos
a relação entre a hora do dia e a temperatura atmosférica;
a relação entre a idade e a altura das crianças;
a relação entre o tempo de prática de atividade fı́sica e o ritmo cardı́aco;
a relação entre o tempo de estudo e a nota no teste;
a relação entre a taxa de desemprego e a taxa de criminalidade;
a relação entre a esperança de vida e a taxa de analfabetismo;
···
Para atingir este objetivo vamos investigar a presença ou ausência de relação linear
entre as duas variáveis. Essa investigação será feita de modo a:
quantificar a força dessa relação: correlação;
explicar a forma dessa relação: regressão.
Objetivo
Construção de um modelo matemático que expresse a relação tipo linear exis-
tente entre duas variáveis quantitativas, tendo por base os correspondentes valores
amostrais, isto é, resumir os valores amostrais através de uma reta
Y = a + bX
Metodologia
Este tipo de representação é muito útil, pois permite realçar algumas pro-
priedades entre os dados, nomeadamente no que diz respeito ao tipo de cor-
relação entre os valores de x e os valores de y.
Existe correlação linear quando é possı́vel “imaginar” uma reta (com declive
diferente de zero) que passa pela “nuvem” de pontos.
Exemplo 1
Um psicólogo efetuou uma pesquisa com o objetivo de analisar a forma como as
crianças aprendem um determinado jogo. Das diversas variáveis observadas foram
registados o número de jogos efetuados (X) e o número de erros realizados no jogo
(Y ):
Observação
Quando se diz que as duas variáveis não estão linearmente correlacionadas,
não significa que as variáveis não estejam correlacionadas, apenas significa que
a correlação não é linear. Neste caso poderá existir outro tipo de correlação.
Em alguns casos, pode não existir uma relação linear entre as variáveis, mas
sim quadrática, cúbica, exponencial, logarı́tmica,. . .
Exemplo 1
Um psicólogo efetuou uma pesquisa com o objetivo de analisar a forma como as
crianças aprendem um determinado jogo. Das diversas variáveis observadas foram
registados o número de jogos efetuados (X) e o número de erros realizados no jogo
(Y ):
diagrama de dispersão
Metodologia
1 Verificar a existência ou não de uma relação linear
A medida que se utiliza com mais frequência para medir o grau da relação
linear entre as variáveis X e Y é o coeficiente de correlação linear, também
chamado de coeficiente de correlação linear de Pearson.
Pn n
P
(xi − x) (yi − y) xi yi − nx y
i=1 i=1
= s n = s n n
n
(xi − x)2 × (yi − y)2 xi − nx2 × yi − ny 2
P P P 2 P 2
i=1 i=1 i=1 i=1
n
n
1 2 1
s2x x2i − nx2 (variância amostral da variável X);
P P
= n−1 (xi − x) = n−1
i=1 ni=1
n
1 2 1
s2y = n−1 yi − ny 2 (variância amostral da variável Y );
P P 2
(yi − y) = n−1
i=1 i=1 n
n
1 1
P P
sxy = n−1 (xi − x) (yi − y) = n−1 xi yi − nx y (covariância amostral entre X e Y ).
i=1 i=1
Tecnologia Biomédica Estatı́stica para a Saúde 2020-2021 16 / 43
Regressão Linear Simples Coeficiente de Correlação Linear
Observação
A “confirmação” da existência de um “bom” coeficiente de correlação li-
near empı́rico entre X e Y deve ser sempre acompanhado pelo diagrama de
dispersão.
Por exemplo, no seguinte diagrama de dispersão pode-se observar que o modelo
linear não é adequado, mas se calcular o coeficiente de correlação linear irá
obter um valor próximo de 1.
Exemplo 1
Um psicólogo efetuou uma pesquisa com o objetivo de analisar a forma como as
crianças aprendem um determinado jogo. Das diversas variáveis observadas foram
registados o número de jogos efetuados (X) e o número de erros realizados no jogo
(Y ):
10
P 10
P
xi yi
i=1 61 i=1 50
x= = = 6.1 y= = =5
10 10 10 10
10
P
(xi − 6.1) (yi − 5)
i=1 −58
rXY = s
10
10 = √108.9 × 46 = −0.819
P 2 P 2
(xi − 6.1) × (yi − 5)
i=1 i=1
rXY = −0.819
diagrama de dispersão
Correlação
Observação
Correlação não significa Causalidade (ler).
A associação não deve ser interpretada como causa - efeito. Pode, eventual-
mente, haver outras variáveis, com que não estamos a contar, que contribuam
para a associação linear observada.
Metodologia
Reta de Regressão
Reta de Regressão
yb = a + bx
(n
) ( n
)
X X 2
min e2i = min (yi − ybi )
i=1 i=1
a = y − bx
n
P n
P
(xi −x)(yi −y) xi yi −nx y
sxy i=1 i=1 sy
b= s2x = n = n = rxy × sx
(xi −x)2 x2i −nx2
P P
i=1 i=1
n n
1 1
P P
x= n xi e y= n yi ;
(média amostral)
i=1 i=1
n n
1 21 2
s2x = s2y = n−1
P P
n−1 (xi − x) (yi − y)
e (variância amostral) ;
i=1 i=1
n
n
1 1
P P
sxy = n−1 (xi − x) (yi − y) = n−1 xi yi − nx y (covariância amostral) .
i=1 i=1
sxy
rxy = sx sy (coeficiente de correlação linear empı́rico) .
Exemplo 1
Um psicólogo efetuou uma pesquisa com o objetivo de analisar a forma como as
crianças aprendem um determinado jogo. Das diversas variáveis observadas foram
registados o número de jogos efetuados (X) e o número de erros realizados no jogo
(Y ):
n
P
(xi −x)(yi −y)
i=1
Reta de regressão: yb = a + bx com b = n e a = y − bx (uma possibilidade)
(xi −x)2
P
i=1
10
P 10
P
xi yi
i=1 61 i=1 50
x= = = 6.1 y= = =5
10 10 10 10
10
P
(xi − 6.1) (yi − 5)
i=1 −58
b= 10
= = −0.5326
P 2 108.9
(xi − 6.1)
i=1
Reta de regressão:
yb = 8.2489 − 0.5326x
Metodologia
3 Análise dos Resı́duos
resı́duos = ei = yi − ybi , i = 1, . . . , n.
Uma propriedade importante dos resı́duos é o facto da sua soma ser nula,
n
X
ei = 0.
i=1
Exemplo 1
Um psicólogo efetuou uma pesquisa com o objetivo de analisar a forma como as
crianças aprendem um determinado jogo. Das diversas variáveis observadas foram
registados o número de jogos efetuados (X) e o número de erros realizados no jogo
(Y ):
5 Analise os resı́duos.
Tecnologia Biomédica Estatı́stica para a Saúde 2020-2021 32 / 43
Regressão Linear Simples Resı́duos
xi yi b = 8.2489 − 0.5326x
y ei = yi − yb
1 8 7.7163 0.2837
2 5 7.1837 −2.1837
3 8 6.6511 1.3489
4 7 6.1185 0.8818
6 6 5.0533 0.9467
7 3 4.5207 −1.5207
8 5 3.9881 1.0119
9 2 3.4555 −1.4555
10 4 2.9229 1.0771
11 2 2.3903 −0.3903
10
P
ei ≈ 0
i=1
Como os resı́duos não são grandes e não apresentam um padrão bem definido, o
modelo ajustado parece ser adequado.
Metodologia
4 Previsão
yb = a + bx,
Só deve ser feita previsão para y com base em valores de x dentro do intervalo
analisado ou para valores muito próximos do intervalo analisado. Quando nos
afastamos muito, não sabemos se a relação linear ainda se mantém, logo a
previsão pode ser absurda.
Exemplo 1
Um psicólogo efetuou uma pesquisa com o objetivo de analisar a forma como as
crianças aprendem um determinado jogo. Das diversas variáveis observadas foram
registados o número de jogos efetuados (X) e o número de erros realizados no jogo
(Y ):
6 Obtenha estimativas para o número de erros que uma criança comete quando
joga 5 vezes o jogo e quando joga 50 vezes o jogo.
Tecnologia Biomédica Estatı́stica para a Saúde 2020-2021 35 / 43
Regressão Linear Simples Previsão
Uma estimativa para o número de erros que uma criança comete quando
1 joga 5 vezes o jogo:
Uma estimativa para o número de erros que uma criança comete quando
1 joga 5 vezes o jogo:
Uma estimativa para o número de erros que uma criança comete quando
1 joga 5 vezes o jogo:
Mesmo que a estimativa para 50 jogos tivesse dado um valor válido, continuarı́amos a
não ter qualquer confiança nessa previsão, pois o valor 50 encontra-se muito afastado dos
valores observados, [1, 11]. Embora o modelo tenha sido considerado adequado (diagrama
de de dispersão, coeficiente de correlação linear e resı́duos, todos levaram a considerar o
modelo adequado), nada nos garante que a reta obtida se mantém para valores afastado
dos observados.
Observação
Suponha que calculou o seguinte modelo de regressão
yb = a + bx,
Com a reta de regressão anterior apenas faz sentido estimar valores de y. Como
agora pretende estimar valores de x, então significa que X passa a ser a variável
dependente e Y a variável independente, sendo necessário calcular a reta de
regressão correspondente. Ou seja, ir a todas as fórmulas apresentadas anterior-
mente e onde está x colocar y e onde está y colocar x e assim obtém
b = a∗ + b∗ y
x
sx
com a∗ = x − b∗ y e b∗ = rXY × sy
Exemplo 1
Um psicólogo efetuou uma pesquisa com o objetivo de analisar a forma como as
crianças aprendem um determinado jogo. Das diversas variáveis observadas foram
registados o número de jogos efetuados (X) e o número de erros realizados no jogo
(Y ):
7 Suponha que a criança errou apenas 1 vez e pretende obter uma estimativa
do número de jogos que a criança fez. Como deve fazer?
Tecnologia Biomédica Estatı́stica para a Saúde 2020-2021 38 / 43
Regressão Linear Simples Previsão
Ou seja, ir a todas as fórmulas apresentadas anteriormente e onde está x colocar y e onde está y colocar x:
n
P
(yi − y) (xi − x)
∗ i=1 ∗ ∗
b = n
e a =x−b y (uma possibilidade)
(yi − y)2
P
i=1
10
P
(yi − 5) (xi − 6.1)
−58
b∗ =
i=1
10
= = −1.2609
46
(yi − 5)2
P
i=1
Metodologia
5 Identificação de ”Outliers”
”Outliers”
Observações deste tipo podem dividir-se em duas classes:
I “outliers” não influentes - a sua existência não altera o modelo linear
ajustado
Funções do EXCEL
coeficiente de correlação linear de Pearson: CORREL()