Você está na página 1de 29

Ciência Política e Relações Internacionais

REGRESSÃO LINEAR SIMPLES


Enquadramento
A regressão linear enquadra-se no conjunto dos métodos de
dependência, ou seja, que utilizam um conjunto de variáveis
independentes para predizer/prever o comportamento de uma ou mais
variáveis dependentes
Ao contrário da ACM, estes são métodos de inferência estatística, ou
seja, podemos extrapolar as conclusões
Vários técnicas de análise de dependência:
◦ Análise de regressão
◦ Análise discriminante
◦ Regressão logística
◦ Análise conjunta
◦ Análise de correlação canónica
Regressão linear simples
De entre os métodos de dependência, vamos estudar apenas a regressão linear
simples
A regressão linear simples estuda a relação entre uma variável dependente métrica
(Y) e uma variável independente métrica (X) [embora se possam também incluir
variáveis independentes não métricas, mas não vamos considerar isso aqui]
Pressupõe a existência de uma relação de causa-efeito, i.e., que a variação da
variável dependente possa ser atribuída à variação da variável independente
Permite fazer previsões, ou seja, estabelecer um modelo com base nos dados que
temos e prever o comportamento da variável dependente se a independente variar
A relação que se estabelece entre as duas variáveis tem de ser linear (para modelar
outros tipos de relações existem outro tipo de regressões)
E o que é uma relação linear?
O que é uma relação linear?
Uma relação linear é uma tendência nos dados que pode ser modelada
por uma linha recta
Graficamente, pode ser avaliada através de um diagrama de dispersão,
que é um gráfico onde cada ponto representa um par de valores
observados (Xi,Yi), ou seja, o valor que um indivíduo tem na variável X e
na variável Y
Coeficiente de correlação
linear de Pearson
Mas nunca é boa ideia olhar só para a representação gráfica (podemos ser
enganados por uma mudança de escalas, ou pela quantidade de espaço em
branco em torno do aglomerado dos pontos). Devemos, por isso, utilizar uma
medida numérica para complementar o gráfico.
E esta medida é o Coeficiente de Correlação Linear (R de Pearson)

Correlação positiva Correlação positiva Correlação positiva Correlação Correlação negativa Correlação negativa Correlação negativa
perfeita forte fraca nula fraca forte perfeita

Coeficiente de correlação
Coeficiente de correlação
linear de Pearson
Mas não esquecer que o coeficiente de correlação de Pearson apenas deteta
correlações lineares
Não esquecer que se um R=0 não significa que não exista correlação; significa,
sim, que não existe correlação linear!

Vários graus e sentidos de


correlação linear

Correlações lineares perfeitas


positivas e negativas

Correlações de outros tipos,


não detectadas pelo R (R=0)
Regressão e Correlação
Mas não confundir correlação com regressão: para fazer uma
regressão, a relação entre os dados tem de existir e de ser linear,
mas isso não significa que a correlação tenha de ser forte!

Correlação (Pearson) Regressão


Determinar/medir o grau de Explicar a variação de uma
Objetivo relacionamento (linear) entre duas variável (dependente) através da
variáveis. variação da outra (independente)
Tipo de variáveis Métricas Métricas
Uma variável dependente
Estatuto das variáveis Ambas as variáveis têm o mesmo
(explicada) e outra variável
na análise estatuto
independente (explicativa)
𝑅
𝑛∑𝑋 𝑌 − ∑𝑋 ∑𝑌
Fórmula de cálculo = 𝑌 = 𝛼 + 𝛽𝑋 + 𝜀
𝑛∑𝑋 − ∑𝑋 𝑛∑𝑌 − ∑𝑌

Modelo preditivo Não permite fazer previsões Permite fazer previsões


Voltando à regressão linear…
A regressão linear pretende explicar a variação de uma variável
(dependente) através da variação da outra (independente). Para tal, é
ajustada uma recta aos dados – daí a designação de regressão linear

◦ Quando só temos uma variável independente (explicativa), designa-se por


regressão linear simples
◦ Quando temos duas ou mais variáveis independentes (explicativas), designa-
se por regressão linear múltipla

Vamos apenas falar da regressão linear simples


Modelo de regressão linear
simples
Para estimar um modelo de regressão linear simples, vamos ajustar uma recta
aos dados, ou seja, vamos definir a recta que melhor descreve a relação que se
estabelece entre os dados.
A equação que descreve a recta de regressão é a seguinte:

Onde:
◦ Y = variável dependente (ou explicada)
◦ X = variável independente (ou explicativa)
◦  = inclui outros factores explicativos de Y que não são medidos por X e os erros de
medição
◦  = constante que representa a ordenada na origem (a intercepção da recta com o
eixo vertical) – ou o valor de Y quando X é 0
◦  = constante que representa o declive (a inclinação) da recta – ou o impacto
absoluto que X tem em Y
Modelo de regressão linear
simples
Lembrando, a regressão vai explicar a variação da variável
dependente pela influência da variável independente
Assim, o valor da variável dependente vai ser igual à
ordenada na origem + o declive da recta * o valor da
variável independente + o erro
O erro ()
O erro contém toda a informação que não foi explicitada
pelo modelo. Portanto, nesta componente, vão estar
incluídas todas as variáveis omitidas no modelo
O erro pode igualmente surgir como erro de medição
Como não conhecemos o erro, vamos trabalhar com um
modelo de regressão ajustado
Modelo de regressão ajustado
Já sabemos que Y representa a variável dependente e X
representa a variável independente
E o alfa () e o beta ()?

 = ordenada na origem. Traduz o valor de Y quando X é zero

 = declive. É a variação de Y por variação de uma unidade de X;


 representa a magnitude do impacto que a variável independente tem na
dependente
Método dos mínimos quadrados
Mas vamos voltar um pouco atrás. Como é que esta recta é calculada?
Como é que esta recta é ajustada aos dados?

O ajustamento da recta pode ser feito com recurso a diferentes métodos


O método dos mínimos quadrados permite o ajustamento de uma recta
de regressão (a recta ajustada) aos dados observados de tal forma que é
minimizada a soma do quadrado dos desvios entre os valores
observados e a recta ajustada. Estes desvios são distâncias medidas na
vertical e correspondem às diferenças entre os valores observados e os
ajustados
◦ Simplificando, ajustar a recta significa encontrar a posição da recta de modo a
que ela passe, simultaneamente, o mais próximo possível de todos os pontos
observados
Método dos mínimos
quadrados exemplo
Y 250
aqui?
200 ou aqui?
ou em outro sítio qualquer?
150

100

50 Não podemos fazer isto “a olho”!


0
0 1 2 3 4 5 6

X
Objectivo: ajustar a recta de modo a que ela passe o mais próximo
possível dos pontos observados
Por isso, vamos ajustar a recta de modo a que ela passe o mais próximo
possível dos pontos observados através da fórmula
Método dos mínimos
quadrados exemplo
Y 300
recta ajustada pelo
250 método dos
200 mínimos quadrados

150
100
50
0
0 1 2 3 4 5 6

X
Ainda no plano abstracto, o que o método dos mínimos quadrados vai fazer
é ajustar uma recta de tal forma que é minimizada a soma do quadrado dos
desvios entre os valores observados e a recta ajustada (daí chamar-se
método dos mínimos quadrados). Estes desvios são distâncias medidas na
vertical e correspondem às diferenças entre os valores observados e os
ajustados
Método dos mínimos
quadrados exemplo
Y 300
recta ajustada pelo
250 método dos
200 mínimos quadrados

150
100
50
0
0 1 2 3 4 5 6

A fórmula para o ajustamento da recta é, como vimos, ,


onde corresponde à ordenada na origem (traduz o valor de Y quando
X é zero) e é o declive/inclinação da recta (representa a magnitude
do impacto que a variável independente tem na dependente)
ordenada na origem ( )
Y 300
250
200
150
100
50
0
0 1 2 3 4 5 6

A ordenada na origem corresponde ao valor de Y quando X é zero.


Ou seja, se o valor da variável independente (X) for zero, então a
variável dependente (Y) vai assumir o valor
Declive ( )
Y 300
250
200
150
inclinação
100
50
0
0 1 2 3 4 5 6

O declive corresponde à inclinação da recta: representa a magnitude


do impacto que a variável independente tem na dependente.
Quanto maior for o , maior é o impacto, maior é a inclinação
Método dos mínimos
quadrados
Como calcular e ?

Ordenada na origem ( ):

onde é a média da variável dependente e é a média da variável


independente

Declive da recta ( ):
Vamos concretizar com um
exemplo…
Pretende-se estimar qual o impacto que
Tempo diário em Nº de a realização de alongamentos no final
alongamentos lesões
(minutos) mensais dos treinos dos jogadores de
basquetebol tem no número de lesões
Jogador 1 3 4 musculares mensais.
Jogador 2 30 1
Jogador 3 10 2
Ainda, queremos prever quantas lesões
terá um jogador que faça 20 minutos de
Jogador 4 15 2
alongamentos por dia.
Jogador 5 8 3
Jogador 6 25 1
Jogador 7 35 0 Para tal, vamos fazer uma regressão
Jogador 8 40 1 linear simples (pelo que estamos a
assumir que existe uma relação linear
entre as duas variáveis)
Exemplo alongamentos e lesões
A primeira coisa a fazer é identificar qual é a
variável dependente e qual é a variável
Tempo diário em
Nº de lesões independente
alongamentos
mensais
(minutos)

Jogador 1 3 4 Como queremos estimar qual o impacto que a


realização de alongamentos tem no número de
Jogador 2 30 1 lesões musculares:
Jogador 3 10 2
Jogador 4 15 2
Variável dependente (Y): lesões musculares mensais
Jogador 5 8 3 Variável independente (X): tempo diário em
Jogador 6 25 1 alongamentos
Jogador 7 35 0
Jogador 8 40 1

Ou seja, vamos ver como variam as lesões


musculares em função do tempo gasto em
alongamentos
Modelo de regressão
Cálculo do
Tempo diário
em
Nº de A segunda coisa a fazer é calcular as
lesões constantes e .
alongamentos 𝑋𝑌 𝑋
mensais
(minutos)
X
Y Começamos sempre pelo .
Jogador 1 3 4 12 9
Jogador 2 30 1 30 900
Jogador 3 10 2 20 100 Sabendo que n=8,
Jogador 4 15 2 30 225
Jogador 5 8 3 24 64 8 181 − 166 14
Jogador 6 25 1 25 625 𝛽= = −0,084
8 4748 − 166
Jogador 7 35 0 0 1225
Jogador 8 40 1 40 1600 Declive da recta de regressão: traduz a
𝚺 166 14 181 4748 variação de Y por variação de uma unidade
𝑛∑𝑋 𝑌 − ∑𝑋 ∑𝑌 de X
𝛽=
𝑛∑𝑋 − ∑𝑋 Neste caso, por cada minuto a mais de
alongamentos, os jogadores terão menos
0,084 lesões.
Modelo de regressão
cálculo do
Tempo diário
Nº de
em
lesões
alongamentos 𝑋𝑌 𝑋
(minutos)
mensais Sabendo que , podemos agora
Y calcular a ordenada na origem ( )
X
Jogador 1 3 4 12 9
Jogador 2 30 1 30 900
𝛼 = 𝑌 − 𝛽𝑋
Jogador 3 10 2 20 100
Jogador 4 15 2 30 225 𝛼= − −0,084 = 3,49
Jogador 5 8 3 24 64
Jogador 6 25 1 25 625
Jogador 7 35 0 0 1225
Jogador 8 40 1 40 1600 Ordenada na origem: traduz o valor de Y quando X
𝚺 166 14 181 4748 é zero.
Quando os jogadores não fazem alongamentos
nenhuns (quando o tempo despendido a fazer
alongamentos é 0), têm 3,49 lesões por mês.
Ajustamento da recta
São estes dois valores (𝛼 e 𝛽) que nos permitem ajustar a recta.
𝛽 = −0,08 (o declive é negativo: o aumento de X provoca uma diminuição em Y, ou seja, quanto
mais alongamentos, menos lesões)
𝛼 = 3,49 (quando X é zero, Y é igual a 𝛼, ou seja, quando o tempo despendido em alongamentos é
0, os jogadores devem ter 3,49 lesões por mês)

Tempo diário em
Nº de lesões
alongamentos
mensais
(minutos)
Y 5
X

Nº de lesões mensais (Y)


4
Jogador 1 3 4
3
Jogador 2 30 1
2
Jogador 3 10 2
Jogador 4 15 2 1

Jogador 5 8 3 0
0 10 20 30 40 50
Jogador 6 25 1
Minutos de alongamentos (X)
Jogador 7 35 0
Jogador 8 40 1
Modelo de regressão
Já conhecemos a tendência (dada pela recta de regressão). Assim sendo, agora
podemos fazer previsões. Recordem-se que, logo no início, dissemos que um dos
nossos objetivos era prever quantas lesões terá um jogador que faça 20 minutos de
alongamentos por dia.
Recordemo-nos então da equação que define a recta:

Já conhecemos (já estimámos) o eo


Se eu quero saber quantas lesões (Y) terá um jogador que faça 20 minutos de
alongamentos (X=20), já temos todas as informações que precisamos, só falta o Y,
que é o que queremos estimar [Ou seja, sabendo X, qual será Y?]

𝑌 = 3,49 + −0,08 20 = 1,75

Estima-se que um jogador que faça 20 minutos de alongamentos por dia tenha 1,75
lesões mensais.
Modelo de regressão
Estima-se que um jogador que faça 20 minutos de
alongamentos por dia tenha 1,75 lesões mensais

5
Nº de lesões mensais (Y)

0
0 10 20 30 40 50
Minutos de alongamentos (X)
Ajustamento da recta
O modelo não é, obviamente, perfeito; não consegue representar fielmente
todas as observações (se conseguisse, todos os pontos estavam sobre a recta).
Não representa fielmente todas as observações, mas representa o melhor
possível; a recta ajustada está na posição em que a distância a todos os pontos
é a menor possível.

Porque é que o modelo não é perfeito? Porque o modelo não inclui todos os
factores de erro que vimos anteriormente. Não inclui erros de medição e não
inclui todas as outras variáveis que podem explicar o número de lesões, para
além do tempo de alongamentos (só estamos a prever as lesões pelos
alongamentos, não estando a considerar outras variáveis que podem
influenciar as lesões, como a genética dos jogadores, a alimentação, etc…)
Assim, sabemos sempre que o modelo não é perfeito, que não consegue
explicar toda a variação da variável dependente. Mas então, quanto da
variação da variável dependente é que o modelo consegue explicar?
Coeficiente de determinação
R2
Para saber isso, usamos o coeficiente de determinação R2, que mede a
qualidade do ajustamento do modelo. É, portanto, uma medida do
poder explicativo da equação de regressão

O coeficiente de determinação dá-nos a proporção de variação da


variável dependente que é explicada pela presença da variável
independente
◦ Varia entre 0 e 1 (a variação de Y explicada por X será no máximo 100% e no
mínimo 0%)
◦ Obtém-se elevando ao quadrado o coeficiente de correlação de Pearson (e
multiplicando depois por 100 para ter %)
◦ Como se interpreta? Por exemplo, um R2=0,20 significa que a variação da
variável independente (X) explica 20% da variação da variável dependente (Y)
Coeficiente de correlação R
Coeficiente de determinação R2

Tempo diário
Nº de Voltando ao nosso exemplo [já sabem calcular o
em coeficiente de correlação de Pearson…]
lesões
alongamentos 𝑋𝑌 𝑋 𝑌
mensais
(minutos) 𝑅=
∑ ∑ ∑
Y
X ∑ ∑ ∑ ∑
Jogador 1 3 4 12 9 16
Jogador 2 30 1 30 900 1
Jogador 3 10 2 20 100 4
Jogador 4 15 2 30 225 4 𝑅= = −0,89
Jogador 5 8 3 24 64 9
Jogador 6 25 1 25 625 1
Jogador 7 35 0 0 1225 0 𝑅 = −0,89 = 0,80
Jogador 8 40 1 40 1600 1
𝚺 166 14 181 4748 36

Podemos concluir que a variação do tempo diário dispendido em alongamentos


explica cerca de 80% da variação do número mensal de lesões. Este é um bom
modelo!

Você também pode gostar