Escolar Documentos
Profissional Documentos
Cultura Documentos
Correlação positiva Correlação positiva Correlação positiva Correlação Correlação negativa Correlação negativa Correlação negativa
perfeita forte fraca nula fraca forte perfeita
Coeficiente de correlação
Coeficiente de correlação
linear de Pearson
Mas não esquecer que o coeficiente de correlação de Pearson apenas deteta
correlações lineares
Não esquecer que se um R=0 não significa que não exista correlação; significa,
sim, que não existe correlação linear!
Onde:
◦ Y = variável dependente (ou explicada)
◦ X = variável independente (ou explicativa)
◦ = inclui outros factores explicativos de Y que não são medidos por X e os erros de
medição
◦ = constante que representa a ordenada na origem (a intercepção da recta com o
eixo vertical) – ou o valor de Y quando X é 0
◦ = constante que representa o declive (a inclinação) da recta – ou o impacto
absoluto que X tem em Y
Modelo de regressão linear
simples
Lembrando, a regressão vai explicar a variação da variável
dependente pela influência da variável independente
Assim, o valor da variável dependente vai ser igual à
ordenada na origem + o declive da recta * o valor da
variável independente + o erro
O erro ()
O erro contém toda a informação que não foi explicitada
pelo modelo. Portanto, nesta componente, vão estar
incluídas todas as variáveis omitidas no modelo
O erro pode igualmente surgir como erro de medição
Como não conhecemos o erro, vamos trabalhar com um
modelo de regressão ajustado
Modelo de regressão ajustado
Já sabemos que Y representa a variável dependente e X
representa a variável independente
E o alfa () e o beta ()?
100
X
Objectivo: ajustar a recta de modo a que ela passe o mais próximo
possível dos pontos observados
Por isso, vamos ajustar a recta de modo a que ela passe o mais próximo
possível dos pontos observados através da fórmula
Método dos mínimos
quadrados exemplo
Y 300
recta ajustada pelo
250 método dos
200 mínimos quadrados
150
100
50
0
0 1 2 3 4 5 6
X
Ainda no plano abstracto, o que o método dos mínimos quadrados vai fazer
é ajustar uma recta de tal forma que é minimizada a soma do quadrado dos
desvios entre os valores observados e a recta ajustada (daí chamar-se
método dos mínimos quadrados). Estes desvios são distâncias medidas na
vertical e correspondem às diferenças entre os valores observados e os
ajustados
Método dos mínimos
quadrados exemplo
Y 300
recta ajustada pelo
250 método dos
200 mínimos quadrados
150
100
50
0
0 1 2 3 4 5 6
Ordenada na origem ( ):
Declive da recta ( ):
Vamos concretizar com um
exemplo…
Pretende-se estimar qual o impacto que
Tempo diário em Nº de a realização de alongamentos no final
alongamentos lesões
(minutos) mensais dos treinos dos jogadores de
basquetebol tem no número de lesões
Jogador 1 3 4 musculares mensais.
Jogador 2 30 1
Jogador 3 10 2
Ainda, queremos prever quantas lesões
terá um jogador que faça 20 minutos de
Jogador 4 15 2
alongamentos por dia.
Jogador 5 8 3
Jogador 6 25 1
Jogador 7 35 0 Para tal, vamos fazer uma regressão
Jogador 8 40 1 linear simples (pelo que estamos a
assumir que existe uma relação linear
entre as duas variáveis)
Exemplo alongamentos e lesões
A primeira coisa a fazer é identificar qual é a
variável dependente e qual é a variável
Tempo diário em
Nº de lesões independente
alongamentos
mensais
(minutos)
Tempo diário em
Nº de lesões
alongamentos
mensais
(minutos)
Y 5
X
Jogador 5 8 3 0
0 10 20 30 40 50
Jogador 6 25 1
Minutos de alongamentos (X)
Jogador 7 35 0
Jogador 8 40 1
Modelo de regressão
Já conhecemos a tendência (dada pela recta de regressão). Assim sendo, agora
podemos fazer previsões. Recordem-se que, logo no início, dissemos que um dos
nossos objetivos era prever quantas lesões terá um jogador que faça 20 minutos de
alongamentos por dia.
Recordemo-nos então da equação que define a recta:
Estima-se que um jogador que faça 20 minutos de alongamentos por dia tenha 1,75
lesões mensais.
Modelo de regressão
Estima-se que um jogador que faça 20 minutos de
alongamentos por dia tenha 1,75 lesões mensais
5
Nº de lesões mensais (Y)
0
0 10 20 30 40 50
Minutos de alongamentos (X)
Ajustamento da recta
O modelo não é, obviamente, perfeito; não consegue representar fielmente
todas as observações (se conseguisse, todos os pontos estavam sobre a recta).
Não representa fielmente todas as observações, mas representa o melhor
possível; a recta ajustada está na posição em que a distância a todos os pontos
é a menor possível.
Porque é que o modelo não é perfeito? Porque o modelo não inclui todos os
factores de erro que vimos anteriormente. Não inclui erros de medição e não
inclui todas as outras variáveis que podem explicar o número de lesões, para
além do tempo de alongamentos (só estamos a prever as lesões pelos
alongamentos, não estando a considerar outras variáveis que podem
influenciar as lesões, como a genética dos jogadores, a alimentação, etc…)
Assim, sabemos sempre que o modelo não é perfeito, que não consegue
explicar toda a variação da variável dependente. Mas então, quanto da
variação da variável dependente é que o modelo consegue explicar?
Coeficiente de determinação
R2
Para saber isso, usamos o coeficiente de determinação R2, que mede a
qualidade do ajustamento do modelo. É, portanto, uma medida do
poder explicativo da equação de regressão
Tempo diário
Nº de Voltando ao nosso exemplo [já sabem calcular o
em coeficiente de correlação de Pearson…]
lesões
alongamentos 𝑋𝑌 𝑋 𝑌
mensais
(minutos) 𝑅=
∑ ∑ ∑
Y
X ∑ ∑ ∑ ∑
Jogador 1 3 4 12 9 16
Jogador 2 30 1 30 900 1
Jogador 3 10 2 20 100 4
Jogador 4 15 2 30 225 4 𝑅= = −0,89
Jogador 5 8 3 24 64 9
Jogador 6 25 1 25 625 1
Jogador 7 35 0 0 1225 0 𝑅 = −0,89 = 0,80
Jogador 8 40 1 40 1600 1
𝚺 166 14 181 4748 36