Análise de Regressão Linear

ANÁLISE DE
REGRESSÃO
LINEAR
SUMÁRIO
ANÁLISE DE REGRESSÃO LINEAR�� 3

DISTRIBUIÇÃO F DE SNEDECOR�� 3
TESTE DE HIPÓTESES DA VARIÂNCIA (TESTE F)��4
Análise de regressão linear 3
ANÁLISE DE REGRESSÃO LINEAR

DISTRIBUIÇÃO F DE SNEDECOR
Para dar continuidade a respeito da análise de regressão linear, precisamos conhecer uma
nova distribuição de probabilidade utilizada para efetuar testes de hipóteses na variância. A
distribuição F de Snedecor, também conhecida como distribuição de Fisher, corresponde
a uma distribuição de probabilidade contínua que é frequentemente utilizada na inferência
estatística para análise da variância.
Em testes de hipóteses, um importante exemplo da distribuição F de Snedecor corresponde
à estatística F. Suponha que tenhamos duas populações independentes com distribuições
Normais e variâncias iguais a σ . Ao extrair duas amostras, uma para cada população inde-
2
s2 s2
pendente, pode ser analisado se as variâncias amostrais A e B são diferentes entre si ou
não. Para isso, é preciso aplicar a divisão entre essas variâncias (variância maior sob a menor).
Amostra A → Apresenta variância s A2 com n elementos
Amostra B → Apresenta variância sB2 com m elementos
s A2 > sB2
Logo:
s A2
~ F de Snedecor ( n − 1, m − 1)
sB2
Desse modo, a divisão entre as variâncias amostrais corresponde a uma variável aleatória
com distribuição de Snedecor com n − 1 graus de liberdade no numerador e m − 1 graus
s A2 sB2
de liberdade no denominador, em que e são as variâncias amostrais da primeira e da
segunda amostra, respectivamente.
A razão entre as variâncias obtém um valor de quantas vezes a variância da amostra A é
superior à variância da amostra B. Em consequência, a Estatística de teste F verifica se essa
razão é significativa e se, portanto, as variâncias serão diferentes.
A distribuição F de Snedecor é determinada por dois tipos de graus de liberdade: os cor-
respondentes à variância no numerador e os que correspondem à variância no denominador.
A forma da distribuição F de Snedecor varia conforme esses parâmetros, porém, de modo
geral, a função densidade distribui os valores de F da seguinte forma:
4
É uma distribuição assi-

métrica para direita, tem limite inferior determinado e tende para o lado positivo sem limite (
+∞ ) . Não assume valores negativos, uma vez que a variância é sempre elevada ao quadrado.
A área total sob cada curva de uma distribuição F é igual a 1. Os valores de probabilidade
são tabelados conforme os graus de liberdade do numerador e do denominador. Geralmente,
apresenta uma tabela específica para cada nível de significância α . Segue em exemplo uma
tabela F para 5% de probabilidade de erro em que os graus de liberdade do numerador cor-
respondem às colunas e os graus de liberdade do denominador correspondem às linhas:
TESTE DE HIPÓTESES DA VARIÂNCIA (TESTE F)

Após conhecer sobre a distribuição de probabilidade F , podemos aplicar o conceito da Estatís-
tica F para testar os dois componentes da variância da regressão. Isto é, pode ser aplicado um
teste de hipótese que verifica se a variância explicada pela regressão é diferente e superior
à variância dos erros da regressão. Assim, se F corresponde à divisão de duas variâncias, a
estatística F para análise de variância da regressão é:
QME Variância Explicada
=F =
QMR Variância Residual
A razão QME/QMR para uma regressão linear simples tem distribuição F de Snedecor com 1
graus de liberdade no numerador e n − 2 graus de liberdade no denominador:
QME
=F ~ F de Snedecor (1, n − 2 )
QMR
Com a estatística F acima, obtém-se quantas vezes a variância explicada pela regressão é
superior à variância dos resíduos. Se esta estatística for significativa, temos que modelo de
regressão possui uma variância explicada significativamente superior aos efeitos aleatórios.
Portanto, o modelo apresenta inferências válidas.
Baseado nessa ideia, o teste F da análise de variância da regressão apresenta as seguintes
hipóteses:
Assim como qualquer teste de hipóteses, precisamos obter um Ftab conforme o nível de signi-
ficância α e os graus de liberdade 1 no numerador e n − 2 no denominador. O Ftab delimitará
a área de rejeição e aceitação de H0. Além disso, devemos calcular uma estatística Fcal, obtida
pela razão QME/QMR.
Com isso, confrontamos os valores na distribuição de probabilidade F de Snedecor e verificamos
o resultado do teste de hipóteses.
ͫ Se Fcal ficar na área de aceitação de H0, a hipótese nula será aceita e as variâncias serão
iguais. Portanto, o modelo de regressão linear não explicará eficientemente as variações
de Y.
ͫ Se Fcal ficar na área de rejeição de H0, a hipótese nula será rejeitada e a variância expli-
cada pela regressão será superior à variância residual. Portanto, o modelo de regressão
linear explicará eficientemente as variações de Y.
ͫ
O teste F pode ser apresentado na tabela de análise de variância da regressão:
6
Soma dos
Causas de Graus de Quadrado Médio
Quadrados Teste F
Variação Liberdade (ou Variância)
(ou Variação)
Explicada SQE QME

1 SQE QME =
(Regressão) 1 QMR
SQR
Resíduo (Erro) n−2 SQR QMR = -
n−2
SQT
Total n −1 SQT QMT = -
n −1
A estatística F pode também ser obtida a partir do coeficiente de determinação (r2), conforme
demonstrado a seguir:
SQE
QME 1
=F =
QMR SQR
n−2
Se dividir cada componente da fração por SQT, temos que:

SQE
QME SQT
=F =
QMR SQR
SQT ( n − 2 )
O valor da razão não é alterado se a mesma operação matemática ocorre no numerador e

denominador. Com isso, temos que:
SQE
r2 =
SQT
SQE
1− r 2 =
SQT
r2 r2 ( n − 2)
=F =
1− r2 1− r2
n−2
r2 ( n − 2)
F=
1− r2
Para finalizar a abordagem sobre análise de variância na regressão, vamos aplicar todo o
conhecimento obtido em um exemplo anteriormente trabalhado.
Objeto de estudo
Foram escolhidas 5 cidades com taxa de desemprego de 5, 10, 15, 20 e 25%, conforme registrado por órgãos de
pesquisas confiáveis. Em seguida, durante um mês, foi quantificada a ocorrência de homicídios em cada cidade.
Taxa de de-
5 10 15 20 25
semprego (X)
Nº de hom-
icídios/mês 10 13 18 26 39
(Y)
Neste exemplo, foi obtido o seguinte modelo de regressão linear:
1,5 1,34 X i +
åYi =+ i
Qual é conclusão sobre a validade desse modelo quanto à análise da variância, a 5% de

probabilidade de erro?
Para variável Y, temos cinco dados amostrais, portanto 4 graus de liberdade.
Primeiramente, é necessário obter todos os componentes da variância. Assim, procede-se da
seguinte maneira:
(Yˆ − Y )
2
Xi Yi (Yi − Y ) (Yi − Y ) 2 Yî Yî − Y i
5 12 -9,6 92,16 8,2 -13,4 179,56
10 13 -8,6 73,96 14,9 -6,7 44,89
15 18 -3,6 12,96 21,6 0 0
20 26 4,4 19,36 28,3 6,7 44,89
25 39 17,4 302,76 35 13,4 179,56
X = 15 Y = 21, 6 Ó=0 Ó = 501, 2 - Ó=0 Ó = 448,9
(Y − Yˆ )
2
Yi − Yî i i
3,8 14,44
-1,9 3,61
-3,6 12,96
-2,3 5,29
4 16
Ó=0 Ó = 52,3
Após os procedimentos matemáticos, temos os componentes da variação:
SQT = 501, 2
SQE = 448,9
SQR = 52,3
501,
= 2 448,9 + 52,3
8
Desse modo, a tabela de análise de variância pode ser preenchida:
Soma dos
Causas de Graus de Quadrado Médio
Quadrados Teste F
Variação Liberdade (ou Variância)
(ou Variação)
Explicada 448,9 448,9

1 448,9 = 448,9
(Regressão) 1 17, 43
52,3
Resíduo (Erro) 3 52,3 = 17, 43 -
3
501, 2
Total 4 501,2 = 125,3 -
4
O valor de Ftab para nível de significância de 5%, com 1 grau de liberdade no numerador e 3
no denominador, é igual a:
Ftab = 10,13
Em concomitante, o valor da estatística Fcal:

448,9
Fcal
= = 25, 75
17, 43
Veja que o valor de Fcal de 25,75 representa que a variância explicada pela regressão linear é
25,75 vezes maior que a variância residual. Para que essa estatística seja significativa, basta
que a variância explicada seja maior em 10,13 (Ftab) vezes que a residual. Portanto, o resultado
do teste de hipóteses:
Portanto, a variância explicada pela regressão é significativamente superior à variância resi-

dual. Dessa forma, o modelo de regressão linear explica as variações observadas da variável
dependente Y eficientemente. Assim, a regressão é significativa, a 5% de probabilidade de
erro, e o modelo é válido.
Em síntese, o teste F é equivalente ao teste de hipótese do coeficiente de regressão linear H0:
β = 0 , isso porque, ao rejeitar a hipótese nula, conclui-se que a variável independente tem
importância para explicar a variabilidade de Y.

Análise de Regressão Linear

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análise de Regressão Linear

Enviado por

Direitos autorais:

Formatos disponíveis

ANÁLISE DE