Escolar Documentos
Profissional Documentos
Cultura Documentos
1 Regressão Linear
Um modelo de regressão consiste numa relação matemática que relaciona os valores de uma
Fala-se em regressão linear quando a resposta Y se escreve como uma combinação linear dos
preditores X1 , X2 , . . . , Xp .
No caso em que p = 1, fala-se em regressão simples e, caso p > 1, o modelo diz-se de regressão
linear múltipla.
mais preditores.
2. Prever – usar o modelo para prever valores da variável resposta (não observados, não
Usar um modelo com o objetivo de descrever a relação entre resposta e preditores, implica
Num modelo de regressão linear simples, existe apenas um preditor x. Tem-se que cada
quantidade aleatória, ϵi , designada por erro. Este erro corresponde à parte não explicada
As variáveis aleatórias erro não são observadas pois dependem dos parâmetros desconhecidos
erros, podem ser calculados. As suposições sobre os erros do modelo são verificadas usando
os resı́duos. Assim, os resı́duos devem ser normalmente distribuı́dos com valor médio 0 e
Estas hipóteses sobre os resı́duos podem ser verificadas através de gráficos. O histograma e
o gráfico quantil-quantil dos resı́duos devem ser compatı́veis com o que se espera do modelo
variância 1) em função das previsões, não deve apresentar nenhum padrão de pontos, uma
vez que estas variáveis devem ser independentes. Os pontos deste diagrama devem estar
horizontal (entre -3 e 3). Qualquer observação fora do intervalo [−3, 3] é um outlier. Num
modelo Normal(0, 1) a probabilidade de uma observação ser outlier é muito baixa (menor
que 0.003).
yi = β0 + β1 x1 + β2 x2 + . . . + βp xp + ϵi
1.2.1 Incerteza
medida pelo erro padrão, SE, que deve tender para 0 quando a dimensão da amostra tende
para +∞.
obtidos pelo processo de minimização de SSE (soma dos quadrados dos resı́duos).
n
X n
X 2 n
X
min SSE = min Ei2 = Ybi − Yi = ((β0 + β1 x1 + β2 x2 + . . . + βp xp ) − Yi )2
i=1 i=1 i=1
Em termos gráficos, este método corresponde a fazer passar a reta (ou plano, ou hiperplano)
o mais próximo possı́vel dos valores observados de Y , de modo que a distância entre Ybi e Yi
Obtidas as estimativas dos parâmetros do modelo, importa testar se estes são significativa-
ajustado é significativo, pois pelo menos uma das variáveis independentes (preditores) in-
Para testar estas hipóteses, a variabilidade total em Y , dada pela Soma dos Quadrados Total,
X
SST = (Yi − Y )2 ,
X
SSA = (Ybi − Y )2 ;
• Soma dos Quadrados dos Desvios não explicada pelo ajustamento, mas sim pelos erros:
X
SSE = (Yi − Ybi )2
variância explicada pelo ajustamento, M SA = SSA/p, for maior que a fração da variância
O SPSS produz o valor p associado a esta estatı́stica de teste e resume os cálculos numa
tabela ANOVA:
Fonte de Variação SS g.l. MS F
(Yi − Y )2
P b
Regressão (Ajustamento) p M SA = SSA/p MSA/MSE
(Yi − Ybi )2
P
Erros (E) n − (p + 1) M SE = SSE/(n − p − 1)
(Yi − Y )2
P
Total (T) n−1
significativamente diferente de 0. Para averiguar que preditores são significativos, tem que
se proceder a testes para cada um dos preditores. Estes testes são teste t de Student, com ET
Tβi ∼ tn−p−1 , obtida para cada βi , assumindo que apenas a variável independente associada
a βi entra no modelo, ou seja, mantendo todas as outras variáveis constantes. Para testar a
influência de uma das variáveis independente na variável dependente, sem ignorar a infuência
que as outras variáveis independentes teriam sobre a resposta, deve considerar-se um nı́vel
preditor na resposta.
SSA
R2 =
SST
valores de R2 estão em [0, 1], com 0 a significar que o modelo não se ajusta aos dados e 1 a
De notar que sempre que se inclui mais uma variável independente no modelo, o valor de
R2 aumenta, mesmo que a sua influência sobre a resposta seja diminuta. Assim, é costume
variável conduzir a um melhor ajustamento do modelo aos dados, ou seja, se a variância dos
M SE n−1 p(1 − R2 )
Ra2 = 1 − =1− (1 − R2 ) = R2 −
M ST n−p−1 n−p−1
A ET
R2 n−p−1
F = 2
×
1−R p
pode ser usada para testar a significância do modelo, uma vez que a sua expressão é equiva-
lente a M SA/M SE. Assim, testar H0 : R2 = 0 vs. R2 > 0 é equivalente a testar as hipóteses
definidas em (1).
todos os preditores são nulos. Muitas vezes, este valor não tem significado no contexto do
estiverem centradas, todas têm média 0. Nesse caso, β0 representa a média da variação na
Como já se disse anteriormente, para avaliar a condição (1), os pontos no gráfico de dispersão
dos resı́duos (estandardizados) em função das estimativas da resposta não devem apresen-
válido. Além disso quer o histograma, quer o gráfico quantil-quantil dos resı́duos deve ser
Para avaliar a segunda condição, condição (2), independência dos resı́duos, o SPSS
d < 1.5, existe auto-correlação positiva entre os resı́duos; se d > 2.5, existe auto-correlação
negativa.
A condição (3) pode ser avaliada através de diagramas de dispersão da variável dependente
sobre cada um dos preditores. Se algum destes diagramas revelar uma relação não linear
desprovida de significado. Assim, se duas variáveis estão muito associadas entre si, não
devem ser incluı́das no mesmo modelo. Para avaliar a multicolinearidade, o SPSS devolve
o indicador VIF (variance infaction factor) para cada coeficiente de regressão. Se o valor
deste indicador for superior a 10, então, existem problemas na estimação do respetivo coefi-
ciente, devido a colinearidade entre essa variável e pelo menos uma das restantes variáveis.
do VIF. Assim, se a tolerância for inferior a 0.1, o VIF é superior a 10, pelo que existe
Quando o modelo, com variável dependente quantitativa, tem apenas um preditor qualitativo
(fator), com duas classes ou nı́veis, é possı́vel usar o teste t de Student para testar o efeito
em Análise da Variância – ANOVA. No caso do preditor ter mais de duas classes ou nı́veis,
tem-se a ANOVA unifatorial; se existirem k(k > 1) preditores qualitativos com dois ou mais
lineares gerais.
Sempre que possı́vel, os exercı́cios devem ser efetuados com recurso ao SPSS.
dia, variável NHHD), facultada quer a pacientes, quer a familiares, que recorrem a um
serviço de urgência (em min.), DASU, média da duração do primeiro atendimento psico-
(a) Indique a expressão do modelo de RLM que se obtém com o ajustamento de NHHD
(b) Indique os valores, produzidos pelo SPSS, de SSE, da estimativa da variância dos
(d) Indique os valores de R2 e de Ra2 e diga como pode obter estes valores a partir da
(g) Existe correlação forte entre as variáveis independentes, isto é, existem problemas
de multicolinearidade?