Você está na página 1de 36

MAT 229: Análise de Regressão

Leila Amorim

2024.1

Aula 1/Slide 1
MAT229: Análise de Regressão

Tópicos discutidos no curso:


1. Regressão linear simples
2. Correlação e causalidade
3. Estimação e inferência para o modelo de regressão
4. Diagnóstico para o modelo
5. Regressão linear múltipla: estimação, inferência e
diagnóstico
6. Regressão polinomial
7. Interação estatística
8. Seleção de modelos
9. Variáveis indicadoras
© Leila Amorim, UFBA Aula 1/Slide 2
Inicialmente nós vamos aprender sobre…
• Questões importantes para consideração em pesquisas
• Modelos estatísticos e como eles diferem de modelos determinísticos
• Avaliação de relações entre preditor e resposta através de diagramas de
dispersão
• Terminologia associada à analise de regressão
• Representação matemática do modelo populacional e interpretação de seus
componentes
– Uso de dados amostrais para motivar o uso de modelos de regressão
linear hipotetizados para a população
– Suposições necessárias para o uso de modelos de regressão linear
simples
• Ajuste do modelo aos dados — entendimento do método dos mínimos
quadrados
• Resíduos—definições e interpretações
• Usos do modelo de regressão ajustado
– Como o modelo de regressão ajustado contribui para a melhoria das
predições
• Variação explicada—o que é a estatística R2 ?

© Leila Amorim, UFBA Aula 1/Slide 3


Por que análise de regressão?

• Formulação da questão científica:


– Conhecimento sobre o tópico de investigação
– Clareza dos objetivos
– Dados disponíveis
– Definição estatística do problema: plano de análise

• Entendimento sobre os dados coletados:


– Estudo observacional ou experimental? Uso de
amostragem aleatória ou de conveniência?
– Existem dados faltantes?
– Como os dados estão codificados?
– Podem existir erros de mensuração? Erros de digitação?

• Análise exploratória SEMPRE necessária antes de utilizar


análise de regressão.

© Leila Amorim, UFBA Aula 1/Slide 4


Análise de Regressão

• Ferramenta estatística para avaliação das


relações entre uma ou mais variáveis
independentes (X1,X2,…, Xk) e uma variável
dependente (Y).

– Predição de Y a partir de X1,X2,…, Xk.

• Exemplos:
– A população de bactérias pode ser predita a partir
da relação entre população e o tempo de
armazenamento
– Número de acessos ao disco (disk I/O) e o tempo
de processamento para vários programas.
– Peso de um recém-nascido e hábito de fumar da
mãe.

© Leila Amorim, UFBA Aula 1/Slide 5


Criminalidade e Analfabetismo

QC: “Maiores taxas de


analfabetismo aumentam os
índices de criminalidade?”

Hipótese: “Regiões com maiores


taxas de analfabetismo enfrentam
maiores taxas de criminalidade”

População alvo: População


residente em todos os estados
americanos O que a análise desse
Amostra: Estados americanos com gráfico sugere?
taxas disponíveis.

© Leila Amorim, UFBA Aula 1/Slide 6


Efeitos do aumento da população idosa nos gastos com educação
Berkman & Plutzer (2004) Social Science Quarterly

QC: “Altas concentrações de idosos Variáveis:


representam um ‘peso’ para manutenção • Pct residentes distritos com idade > 60
dos gastos adequados com educação?” • Pct de idosos recentes
• Pct de idosos mais antigos
Hipótese: “A hipótese é uma caricatura de • SEc and var. demográficas
uma dinâmica política mais complexa… não • Gasto por aluno (GPE)
aplicável igualmente para todos os idosos:
Gastos com educação sao reduzidos com o
Método analítico: “Regressão de GPE em
aumento da concentração de idosos
relação ao % da população com idade maior
recentes nas comunidades; altas
que 60 anos…e controle das características
concentrações de idosos “mais antigos” não
econômicas e demográficas”
afetam o aumento dos gastos”

População alvo: Todos os distritos escolares Resultados: “Residentes idosos representam


dos EUA com > 35 estudantes entre 1989- uma fonte de suporte para os gastos
1990. educacionais, enquantos idosos recentes
diminuem os gastos… A hipótese deve ser
Amostra: Todos os 9,129 distritos com este rejeitada”
critério.

© Leila Amorim, UFBA Aula 1/Slide 7


Fatores importantes nas relações estudadas em análise de regressão
Tipos de respostas, preditores, e questão científica (QCs)

Covariáveis Descrição da QCs


Variáveis cujo efeito Uso de estatísticas
queremos ‘controlar’ descritivas para a resposta

Preditores da questão ? Resposta


variáveis cujo efeito variável usada para
queremos estudar medir o efeito dos
preditores

Atributos fixos QCs relacionais


(e.g., raça, sexo) Identificação de relações
entre um preditor e a
Características resposta
alteráveis
(e.g., tamanho turma,
gastos por aluno) QCs causais
Demonstração de um
Inovações impacto causal do
(e.g., um novo preditor na resposta
curriculum)

© Leila Amorim, UFBA Aula 1/Slide 8


Modelos: Representações simplificadas das relações entre variáveis

Modelos Matemáticos Modelos Estatísticos

Modelagem de figuras geométricas (e.g, Modelagem de pessoas, organizações,…,


quadrados) qualquer tipo de unidade social – modelos
• Perímetro = 4(lado) serão desenvolvidos e ajustados aos dados
• Área = (lado)2

Modelos matemáticos são determinísticos - Modelos estatísticos incluem:


• Alguns são lineares; alguns não-lineares, • Componentes sistemáticos (incluídos no
mas… modelo ou não mensurados)
• Todos os quadrados se comportam desta • Erros de mensuração
maneira— com o uso da “regra,” ajusta-se • Variação individual
um modelo aos dados perfeitamente.

Resposta = componente sistemático + Resíduo


Obj 1: Identificar os Obj 2: Avaliar a bondade
componentes sistemáticos do ajuste pelo exame da
e determinar como eles magnitude dos resíduos
ajustam os dados © Leila Amorim, UFBA Aula 1/Slide 9
Como é feita a modelagem estatística?

Passo 1: Articular as QCs


em termos da resposta,
dos preditores, e das Terminologia
covariáveis Termo Definição Sinônimos
(especificação ainda da
Resposta Variável cujo Resposta
população alvo e da
comportamento Variável dependente
amostra) tentamos explicar Y

Preditor Variável usada Variável independente


Passo 2: Postular um para explicar a X
modelo estatístico e seu variação na
resposta
ajuste aos dados amostrais
Relação Como duas Associação
variáveis se Correlação
relacionam, sem Covariação
Passo 3: Determinar se a
causalidade
relação encontrada nesta implícita
amostra é a que realmente
existe na população

© Leila Amorim, UFBA Aula 1/Slide 10


História da Análise de Regressão
• Desenvolvimentos teóricos relacionados:
– Método dos mínimos quadrados (Legendre, 1805; Gauss, 1809 ou antes? 1795?):
• Ambos aplicaram MMQ para determinar, a partir de observações astronômicas,
as órbitas de asteróides ao redor do sol (ciências físicas).
– Prova de que o MMQ provê soluções ótimas quando os erros seguem
distribuição normal (Gauss, 1809) e outros resultados, incluindo o teorema de
Gauss-Markov (1821).
– Origem das noções modernas de correlação e regressão (Galton, 1886) [primo de
Charles Darwin!]: estudo sobre hereditariedade em ervilhas.

– Tratamento matemático rigoroso da correlação momento-produto de Pearson


(Pearson, 1897), usando definições de Galton.

Sir Frances Galton (1822–1911) Karl Pearson (1857–1936)


Carl Friedrich Gauss (1777–1855) © Leila Amorim, UFBA Aula 1/Slide 11
História da Análise de Regressão
• Francis Galton (1886) introduziu o termo “regressão”: Estudo para
avaliação da relação entre altura de pais e filhos.

• Conclusões do seu estudo (sobre hereditariedade):


– Hereditariedade: tendência de pais altos terem filhos altos e de pais
baixos terem filhos baixos;
– Mas, em média, a altura dos filhos tendiam ou “regrediam” à altura
média da população como um todo: regressão em direção à média.

• Karl Pearson (1903) confirmou achados do estudo de Galton usando


mais de 1,000 registros de altura: (formalização dos resultados)
– verificou que a altura média dos filhos de pais altos era inferior à altura
de seus pais, e que altura média dos filhos de pais baixos era superior à
altura de seus pais;
– Filhos de pais altos ou baixos “regrediram” para a altura média de
todos os homens.
© Leila Amorim, UFBA Aula 1/Slide 12
História da Análise de Regressão: Estudo de Galton

Fonte: Fahrmeir et al (2013)


© Leila Amorim, UFBA Aula 1/Slide 13
Associação versus causalidade (1)

• Associação estatisticamente significante não estabelece relação


causal.

• Exemplo: DBP e nível de atividade física são medidas em um


estudo. Suponha que resultados indicam que a DBP média diminui
com o aumento da atividade física. Pode-se concluir que nível
baixo de atividade fisica causa BP alta?

• O conceito de causalidade é externo a características e


resultados específicos de um estudo.

• Para avaliação da causalidade da relação, alguns critérios tem


sido adotados por pesquisadores da área de Epidemiologia
(Bradford Hill, 1971).

© Leila Amorim, UFBA Aula 1/Slide 14


Associação versus causalidade (2)

• Os sete critérios estabelecidos por Bradford Hill incluem:


– Força da associação
– Efeito dose-resposta
– Ausência de ambiguidade temporal
– Consistência dos achados
– Plausabilidade biológica ou teórica das hipóteses
– Coerência da evidência
– Especificidade da associação.

• A relação causal não pode ser estabelecida com certeza mesmo


se todos estes critérios forem satisfeitos (KKMN, 1998).

• Critérios (matemáticos) de identificação causal são necessários.

© Leila Amorim, UFBA Aula 1/Slide 15


Exame da relação entre Y e X: Diagramas de dispersão

Direção da Observações Magnitude


relação? não usuais? da relação?

Linearidade Força da
da relação? relação?

© Leila Amorim, UFBA Aula 1/Slide 16


Como avaliar a relação entre duas variáveis quantitativas?
17

• PASSO 1: Graficamente - Construção de diagramas de dispersão


– representam os pares de valores num sistema cartesiano.

Aula 1/Slide 17
Como avaliar a relação entre duas variáveis quantitativas?
18

• PASSO 2: Numericamente -
Cálculo do Coeficiente de
S xy
Correlação Linear de Pearson (r) r=
SxS y
– Usado se for constatada alguma
tendência linear na relação entre
as duas variáveis no Passo 1;
Expressões equivalentes:
– quantificação da relação.
n n
( xi )( yi )
-1.0 ≤ r ≤ +1.0
n

x i yi − i =1
n
i =1

r = i =1

 n
 n

 n (  xi ) 2  n (  yi ) 2 
 xi2 − i =1   yi2 − i =1 
 i =1 n   i =1 n 

 
 

Aula 1/Slide 18
Diagramas de dispersão e Coeficiente de Correlação Linear de Pearson

© Leila Amorim, UFBA Aula 1/Slide 19


Diagramas de dispersão e Coeficiente de Correlação Linear de Pearson

© Leila Amorim, UFBA Aula 1/Slide 20


Importância da avaliação gráfica (1)

Tabela 1. Conjunto de dados hipoteticos


Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4
X Y X Y X Y X Y
10 8,04 10 9,14 10 7,46 8 6,58
8 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,74 8 7,71
9 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,47
14 9,96 14 8,1 14 8,84 8 7,04
6 7,24 6 6,13 6 6,08 8 5,25
4 4,26 4 3,1 4 5,39 19 12,5
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91
5 5,68 5 4,74 5 5,73 8 6,89

X = 9,00 Y = 7,50 s x = 3,32 s y = 2,03 r = 0,82

© Leila Amorim, UFBA Aula 1/Slide 21


Importância da avaliação gráfica (2)

C
onju
nto1
:r=
0,8
2
1
2

1
1

1
0

8
Y

3
2 4 6 8 1
0 1
2 1
4 1
6

© Leila Amorim, UFBA Aula 1/Slide 22


Importância da avaliação gráfica (2)

C
onju
nto2
:r=
0,8
2
1
0

6
Y

2
2 4 6 8 1
0 1
2 1
4 1
6

© Leila Amorim, UFBA Aula 1/Slide 23


Importância da avaliação gráfica (2)

C
onju
nto3
:r=
0,8
2
1
4

1
2

1
0
Y

4
2 4 6 8 1
0 1
2 1
4 1
6

© Leila Amorim, UFBA Aula 1/Slide 24


Importância da avaliação gráfica (2)

C
onju
nto4r=0
,82
1
4

1
2

1
0
VAR3

4
6 8 1
0 1
2 1
4 1
6 1
8 2
0
VAR2

© Leila Amorim, UFBA Aula 1/Slide 25


Importância da avaliação gráfica (2)
C
onju
nto1
:r=
0,8
2 C
onju
nto2
:r=
0,8
2
1
2 1
0

1
1 9

1
0 8

9
7
8
6

Y
Y

7
5
6
4
5

4 3

3 2
2 4 6 8 1
0 1
2 1
4 1
6 2 4 6 8 1
0 1
2 1
4 1
6

X X

C
onju
nto3
:r=
0,8
2 C
onju
nto4r=0
,82
1
4 1
4

1
2 1
2

1
0 1
0
VAR3
Y

8 8

6 6

4 4
6 8 1
0 1
2 1
4 1
6 1
8 2
0
2 4 6 8 1
0 1
2 1
4 1
6
VAR2
X
© Leila Amorim, UFBA Aula 1/Slide 26
Como avaliar a relação entre duas variáveis quantitativas?
27

• PASSO 3: Teste de Hipóteses para


o Coeficiente de Correlação Linear
Exemplo:
de Pearson (r ou ρ)

Aula 1/Slide 27
Como avaliar a relação entre duas variáveis quantitativas?
28

Metodologia estatística principal:


modelo de regressão linear

Aula 1/Slide 28
Como avaliar a relação entre duas variáveis quantitativas?
29

Aula 1/Slide 29
Outros Exemplos para Motivação
• A incidência de melanoma pode estar Dados Disponíveis
relacionada à quantidade de raios solares
de uma região, ou equivalentemente à
latitude da área.
– Considere dados referentes à taxa de
mortalidade por melanoma (por 10
milhões) em 48 estados americanos e a
latitude desta área (usando-se a latitude
obtida no centro do estado).

Pergunta de interesse:
• Existe relação entre mortalidade
por melanoma e latitude?
Aula 1/Slide 30
Como verificar relações entre as características de interesse?

• Como interpretar os resultados apresentados no gráfico?


• Como sumarizar a forma com a qual a taxa de melanoma muda de
acordo com a latitude do estado ?
Aula 1/Slide 31
Motivação – Exemplo 2

2. Para avaliar o condicionamento


físico de um indivíduo, é útil saber
quanto de energia ele é capaz de
gastar.
• Mensuração do gasto de energia:
consumo de oxigênio (dado pelo VO2
– que refere-se ao volume de O2 usado
por minuto por kg de peso do
indivíduo)

❖ Ex: Condicionamento físico avaliado


em 44 indivíduos ➔ variável:
duração de exercício em esteira
(medido em segundos).
• Questão: como predizer o nível VO2
pela duração do exercício?
Aula 1/Slide 32
Dados disponíveis

Aula 1/Slide 33
Como verificar relações entre as características de interesse?

• É possível visualizar variabilidade?


• Como caracterizar esta relação e predizê-la com acurácia?
Aula 1/Slide 34
O que estes exemplos têm em comum?

• Muitas características (variáveis) foram mensuradas em uma mesma


unidade de análise.

• Pelo menos duas das variáveis são quantitativas. A variável resposta


(Y) é sempre quantitativa contínua.

• Pergunta de investigação refere-se à descrição/sumarização da relação


entre pelo menos duas variáveis.

Aula 1/Slide 35
Quando usar análise de regressão?

Análise de regressão pode ser utilizada para estudo em diversas situações,


que têm como objetivos mais comuns:

a) Caracterizar a relação existente entre variáveis, determinando a


extensão, direção e força da associação;

b) Determinar que fatores são importantes ou não para descrever uma


resposta de interesse;

c) Predizer uma resposta em função de outros fatores.

Aula 1/Slide 36

Você também pode gostar