Você está na página 1de 9

ANÁLISE DE

REGRESSÃO
LINEAR
SUMÁRIO

ANÁLISE DE REGRESSÃO LINEAR��������������������������������������������������������������������������� 3


DISTRIBUIÇÃO F DE SNEDECOR������������������������������������������������������������������������������������������������������ 3
TESTE DE HIPÓTESES DA VARIÂNCIA (TESTE F)�������������������������������������������������������������������������������������������������������������4
Análise de regressão linear 3

ANÁLISE DE REGRESSÃO LINEAR


DISTRIBUIÇÃO F DE SNEDECOR
Para dar continuidade a respeito da análise de regressão linear, precisamos conhecer uma
nova distribuição de probabilidade utilizada para efetuar testes de hipóteses na variância. A
distribuição F de Snedecor, também conhecida como distribuição de Fisher, corresponde
a uma distribuição de probabilidade contínua que é frequentemente utilizada na inferência
estatística para análise da variância.
Em testes de hipóteses, um importante exemplo da distribuição F de Snedecor corresponde
à estatística F. Suponha que tenhamos duas populações independentes com distribuições
Normais e variâncias iguais a σ . Ao extrair duas amostras, uma para cada população inde-
2

s2 s2
pendente, pode ser analisado se as variâncias amostrais A e B são diferentes entre si ou
não. Para isso, é preciso aplicar a divisão entre essas variâncias (variância maior sob a menor).
Amostra A → Apresenta variância s A2 com n elementos

Amostra B → Apresenta variância sB2 com m elementos

s A2 > sB2

Logo:
s A2
~ F de Snedecor ( n − 1, m − 1)
sB2

Desse modo, a divisão entre as variâncias amostrais corresponde a uma variável aleatória
com distribuição de Snedecor com n − 1 graus de liberdade no numerador e m − 1 graus
s A2 sB2
de liberdade no denominador, em que e são as variâncias amostrais da primeira e da
segunda amostra, respectivamente.
A razão entre as variâncias obtém um valor de quantas vezes a variância da amostra A é
superior à variância da amostra B. Em consequência, a Estatística de teste F verifica se essa
razão é significativa e se, portanto, as variâncias serão diferentes.
A distribuição F de Snedecor é determinada por dois tipos de graus de liberdade: os cor-
respondentes à variância no numerador e os que correspondem à variância no denominador.
A forma da distribuição F de Snedecor varia conforme esses parâmetros, porém, de modo
geral, a função densidade distribui os valores de F da seguinte forma:
4

É uma distribuição assi-


métrica para direita, tem limite inferior determinado e tende para o lado positivo sem limite (
+∞ ) . Não assume valores negativos, uma vez que a variância é sempre elevada ao quadrado.
A área total sob cada curva de uma distribuição F é igual a 1. Os valores de probabilidade
são tabelados conforme os graus de liberdade do numerador e do denominador. Geralmente,
apresenta uma tabela específica para cada nível de significância α . Segue em exemplo uma
tabela F para 5% de probabilidade de erro em que os graus de liberdade do numerador cor-
respondem às colunas e os graus de liberdade do denominador correspondem às linhas:

TESTE DE HIPÓTESES DA VARIÂNCIA (TESTE F)


Após conhecer sobre a distribuição de probabilidade F , podemos aplicar o conceito da Estatís-
tica F para testar os dois componentes da variância da regressão. Isto é, pode ser aplicado um
teste de hipótese que verifica se a variância explicada pela regressão é diferente e superior
à variância dos erros da regressão. Assim, se F corresponde à divisão de duas variâncias, a
estatística F para análise de variância da regressão é:
QME Variância Explicada
=F =
QMR Variância Residual

A razão QME/QMR para uma regressão linear simples tem distribuição F de Snedecor com 1
graus de liberdade no numerador e n − 2 graus de liberdade no denominador:
Análise de regressão linear 5

QME
=F ~ F de Snedecor (1, n − 2 )
QMR

Com a estatística F acima, obtém-se quantas vezes a variância explicada pela regressão é
superior à variância dos resíduos. Se esta estatística for significativa, temos que modelo de
regressão possui uma variância explicada significativamente superior aos efeitos aleatórios.
Portanto, o modelo apresenta inferências válidas.
Baseado nessa ideia, o teste F da análise de variância da regressão apresenta as seguintes
hipóteses:

Assim como qualquer teste de hipóteses, precisamos obter um Ftab conforme o nível de signi-
ficância α e os graus de liberdade 1 no numerador e n − 2 no denominador. O Ftab delimitará
a área de rejeição e aceitação de H0. Além disso, devemos calcular uma estatística Fcal, obtida
pela razão QME/QMR.
Com isso, confrontamos os valores na distribuição de probabilidade F de Snedecor e verificamos
o resultado do teste de hipóteses.
ͫ Se Fcal ficar na área de aceitação de H0, a hipótese nula será aceita e as variâncias serão
iguais. Portanto, o modelo de regressão linear não explicará eficientemente as variações
de Y.
ͫ Se Fcal ficar na área de rejeição de H0, a hipótese nula será rejeitada e a variância expli-
cada pela regressão será superior à variância residual. Portanto, o modelo de regressão
linear explicará eficientemente as variações de Y.

ͫ
O teste F pode ser apresentado na tabela de análise de variância da regressão:
6

Soma dos
Causas de Graus de Quadrado Médio
Quadrados Teste F
Variação Liberdade (ou Variância)
(ou Variação)

Explicada SQE QME


1 SQE QME =
(Regressão) 1 QMR

SQR
Resíduo (Erro) n−2 SQR QMR = -
n−2

SQT
Total n −1 SQT QMT = -
n −1

A estatística F pode também ser obtida a partir do coeficiente de determinação (r2), conforme
demonstrado a seguir:
SQE
QME 1
=F =
QMR SQR
n−2

Se dividir cada componente da fração por SQT, temos que:


SQE
QME SQT
=F =
QMR SQR
SQT ( n − 2 )

O valor da razão não é alterado se a mesma operação matemática ocorre no numerador e


denominador. Com isso, temos que:
SQE
r2 =
SQT

SQE
1− r 2 =
SQT

r2 r2 ( n − 2)
=F =
1− r2 1− r2
n−2

r2 ( n − 2)
F=
1− r2

Para finalizar a abordagem sobre análise de variância na regressão, vamos aplicar todo o
conhecimento obtido em um exemplo anteriormente trabalhado.
Objeto de estudo

Foram escolhidas 5 cidades com taxa de desemprego de 5, 10, 15, 20 e 25%, conforme registrado por órgãos de
pesquisas confiáveis. Em seguida, durante um mês, foi quantificada a ocorrência de homicídios em cada cidade.
Análise de regressão linear 7

Taxa de de-
5 10 15 20 25
semprego (X)
Nº de hom-
icídios/mês 10 13 18 26 39
(Y)
Neste exemplo, foi obtido o seguinte modelo de regressão linear:
1,5 1,34 X i +
åYi =+ i

Qual é conclusão sobre a validade desse modelo quanto à análise da variância, a 5% de


probabilidade de erro?
Para variável Y, temos cinco dados amostrais, portanto 4 graus de liberdade.
Primeiramente, é necessário obter todos os componentes da variância. Assim, procede-se da
seguinte maneira:

(Yˆ − Y )
2
Xi Yi (Yi − Y ) (Yi − Y ) 2 Yˆi Yˆi − Y i

5 12 -9,6 92,16 8,2 -13,4 179,56

10 13 -8,6 73,96 14,9 -6,7 44,89

15 18 -3,6 12,96 21,6 0 0

20 26 4,4 19,36 28,3 6,7 44,89

25 39 17,4 302,76 35 13,4 179,56

X = 15 Y = 21, 6 Ó=0 Ó = 501, 2 - Ó=0 Ó = 448,9

(Y − Yˆ )
2
Yi − Yˆi i i

3,8 14,44

-1,9 3,61

-3,6 12,96

-2,3 5,29

4 16

Ó=0 Ó = 52,3
Após os procedimentos matemáticos, temos os componentes da variação:
SQT = 501, 2

SQE = 448,9

SQR = 52,3

501,
= 2 448,9 + 52,3
8

Desse modo, a tabela de análise de variância pode ser preenchida:

Soma dos
Causas de Graus de Quadrado Médio
Quadrados Teste F
Variação Liberdade (ou Variância)
(ou Variação)

Explicada 448,9 448,9


1 448,9 = 448,9
(Regressão) 1 17, 43

52,3
Resíduo (Erro) 3 52,3 = 17, 43 -
3

501, 2
Total 4 501,2 = 125,3 -
4
O valor de Ftab para nível de significância de 5%, com 1 grau de liberdade no numerador e 3
no denominador, é igual a:

Ftab = 10,13

Em concomitante, o valor da estatística Fcal:


448,9
Fcal
= = 25, 75
17, 43

Veja que o valor de Fcal de 25,75 representa que a variância explicada pela regressão linear é
25,75 vezes maior que a variância residual. Para que essa estatística seja significativa, basta
que a variância explicada seja maior em 10,13 (Ftab) vezes que a residual. Portanto, o resultado
do teste de hipóteses:
Análise de regressão linear 9

Portanto, a variância explicada pela regressão é significativamente superior à variância resi-


dual. Dessa forma, o modelo de regressão linear explica as variações observadas da variável
dependente Y eficientemente. Assim, a regressão é significativa, a 5% de probabilidade de
erro, e o modelo é válido.
Em síntese, o teste F é equivalente ao teste de hipótese do coeficiente de regressão linear H0:
β = 0 , isso porque, ao rejeitar a hipótese nula, conclui-se que a variável independente tem
importância para explicar a variabilidade de Y.

Você também pode gostar