Você está na página 1de 10

alfaconcursos.com.

br

SUMÁRIO
ANÁLISE DE REGRESSÃO LINEAR ....................................................................................................................... 2
ANÁLISE DE VARIÂNCIA DA REGRESSÃO ....................................................................................................... 2
COMPONENTES DA VARIÂNCIA DA REGRESSÃO ....................................................................................... 2
COEFICIENTE DE DETERMINAÇÃO (𝒓𝟐)..................................................................................................... 6
RESUMO DE FÓRMULAS IMPORTANTES NA REGRESSÃO LINEAR............................................................... 10

MUDE SUA VIDA!


1
alfaconcursos.com.br

ANÁLISE DE REGRESSÃO LINEAR


ANÁLISE DE VARIÂNCIA DA REGRESSÃO
O modelo básico da regressão linear expressa a relação de X e Y por meio de uma equação
da reta. Em adição, o teste de hipótese do coeficiente de regressão verifica a existência
significativa dessa relação linear entre X e Y. Além desses procedimentos, é necessário utilizar
a análise de variância para obter o quanto a reta de regressão explica os valores observados de
Y utilizados para o ajuste. Portanto, a análise de variância tem o objetivo de quantificar a
dispersão da regressão linear, analisando o quanto o modelo linear explica o comportamento
de Y e o quanto não pode ser explicado.
Sobretudo, ao efetuarmos uma análise de regressão, parte da variação de Y é explicada
em função da variação de X (por meio da reta de regressão 𝑌̂𝑖 = 𝑎 + 𝑏𝑋𝑖 ); a outra parte da
variação é causada por fatores aleatórios não explicados pelo modelo (𝜀𝑖 ). Desse modo, toda a
dispersão (ou variabilidade) de uma regressão linear (variação total da regressão) pode ser
expressa pelos seguintes componentes:

Esse é a essência da análise de variância da regressão: quantificar os componentes


causadores da variação de Y e evidenciar a capacidade do modelo de regressão linear em
explicar a variação de Y.
COMPONENTES DA VARIÂNCIA DA REGRESSÃO
O primeiro passo para compreender a análise de variância da regressão é particionar e
estudar os dois componentes da variação total de Y. É necessário entender o que cada
componente representa sobre os valores da variável dependente Y e como eles podem ser
quantificados e representados matematicamente.
A variabilidade de qualquer variável Y é mensurada a partir dos desvios em relação à sua
média (𝑌𝑖 − 𝑌̅), esses são os desvios que quantificam a variação total de Y. No entanto, na
regressão linear, cada desvio em relação à média é composto: pelo desvio da observação Y em
relação ao valor estimado pela regressão (𝑌𝑖 − 𝑌̂𝑖 ), que consiste no erro de regressão; e pelos
os desvios do valor estimado em relação à média (𝑌̂𝑖 − 𝑌̅), que consiste na dispersão captada
(explicada) pela regressão linear. Com isso, temos que cada desvio (a unidade de dispersão
de uma variável), na regressão linear, é denotado por:
𝑫𝒆𝒔𝒗𝒊𝒐 𝑻𝒐𝒕𝒂𝒍 𝒅𝒆 𝒀𝒊 = 𝑫𝒆𝒔𝒗𝒊𝒐 Explicado pela Regressão + Desvio do Erro de Regressão
Assim, cada observação de Y apresenta um desvio em relação à sua média, sendo
composto por uma parte explicada pela regressão e outra devido a fatores aleatórios (não
explicados). Matematicamente, um desvio de Y pode ser representado por:

MUDE SUA VIDA!


2
alfaconcursos.com.br

Em que:
𝑌𝑖 : são os valores observados da variável Y, que fazem o par com os valores X;
𝑌̂𝑖 : são os valores da variável Y estimados pela reta de regressão;
𝑌̅: é a média da variável Y.
Ao observar a construção de uma regressão linear, podemos identificar, graficamente, o
desvio da variável Y e sua partição em componentes – explicado e não explicado pela regressão
–, entenda:

O primeiro gráfico ilustra a dispersão dos pontos (valores observados de Y) em relação à


sua centralidade (média 𝑌̅). Nesse gráfico, podemos observar o desvio de um ponto
especificamente em relação à média, formando o desvio total. Ao construir uma regressão
linear entre X e Y, no segundo gráfico, observa-se que esse desvio total é particionado por um
desvio explicado pela regressão e um desvio devido ao erro da regressão (causa aleatória não
explicada). Portanto, observando um ponto específico, podemos ter a seguinte representação
de um desvio:

MUDE SUA VIDA!


3
alfaconcursos.com.br

Até o momento, estamos analisando a composição de apenas um desvio de uma


observação. Contudo, sabe-se que a regressão é composta por vários pontos e cada um possui
seu respectivo desvio. Assim, para representar toda a variabilidade da variável Y submetida à
regressão linear, é necessário ter os somatórios e todos os desvios. Porém, ao se falar de desvios
em relação à média, sabe-se que seu somatório é zero, e, para evitar esse problema, cada desvio
é elevado ao quadrado. Desse modo, tem-se o somatório dos desvios ao quadrado, ou
também denominado de variação, ou então de soma dos quadrados:

➢ O termo ∑(𝒀𝒊 − 𝒀 ̅ )𝟐 é denominado de Soma dos Quadrados Totais (SQT) ou


Variação Total, quantifica a variabilidade total da variável Y em torno da sua média;
➢ O termo ∑(𝒀 ̅ )2 é denominado de Soma dos Quadrados Explicados pela
̂𝒊 − 𝒀
Regressão (SQE), ou Variação Explicada, quantifica a variabilidade de Y estimado
pela regressão em torno da média, isto é, representa a parte do SQT explicada pela
regressão de Y em função de X;
➢ O termo ∑(𝒀𝒊 − 𝒀 ̂ 𝒊 )2 é denominado de Soma dos Quadrados dos Resíduos (SQR),
ou Variação Não Explicada, quantifica a variabilidade de 𝑌 observado com o 𝑌̂
estimado pela reta de regressão, isto é, o que não explicado pela regressão de Y em
função de X.
Assim, outra notação que pode ser usada para representar os componentes da
variabilidade de Y é:

𝑺𝑸𝑻 = 𝑺𝑸𝑬 + 𝑺𝑸𝑹


Após obter os valores dos desvios ao quadrado, podemos determinar a variância de cada
componente. Para isso, basta dividir cada soma dos quadrados (ou variação) pelo seu
respectivo grau de liberdade. Assim, temos que a soma dos quadrados dividida pelos
respectivos graus de liberdade gera a variância, que também é denominada Quadrado Médio
(QM). Portanto:
➢ 𝑺𝑸𝑻 corresponde à variação total de Y, desse modo, seus graus de liberdade
correspondem a 𝒏 − 𝟏 e, com isso, obtém-se a variância de Y (𝑠𝑌2 ), ou o quadrado
médio total:

𝑺𝑸𝑻 ∑(𝒀𝒊 − 𝒀̅ )𝟐
𝑸𝑴𝑻 = =
𝒏−𝟏 𝒏−𝟏
➢ 𝑺𝑸𝑬 corresponde à variação explicada pela regressão linear, desse modo, o grau de
liberdade corresponde a 1, pois temos apenas um coeficiente de regressão 𝑏 (uma
variável independente X) explicando a variação de Y (em regressões múltiplas, os
graus de liberdade correspondem ao número de variáveis independentes). Com isso,
obtém a variância explicada ou quadrado médio explicado pela regressão:

MUDE SUA VIDA!


4
alfaconcursos.com.br

2
̂𝒊 − 𝒀
𝑺𝑸𝑬 ∑(𝒀 ̅)
𝑸𝑴𝑬 = =
𝟏 𝟏
➢ 𝑺𝑸𝑹 corresponde à variação não explicada pela regressão linear, desse modo, os
graus de liberdade correspondem ao resto para completar o total, ou seja, se o total
de graus de liberdade é 𝑛 − 1, e 1 grau de liberdade corresponde ao componente
explicado, o resíduo terá 𝒏 − 𝟐 graus de liberdade. Com isso, obtém a variância não
explicada ou quadrado médio dos resíduos:

𝑺𝑸𝑹 ̂ 𝒊 )𝟐
∑(𝒀𝒊 − 𝒀
𝑸𝑴𝑬 = =
𝒏−𝟐 𝒏−𝟐
Por fim, podemos representar todos os componentes da variância de uma regressão linear
simples a partir de uma tabela:
Soma dos
Quadrado Médio
Causas de Variação Graus de Liberdade Quadrados
(ou Variância)
(ou Variação)
Explicada 𝑺𝑸𝑬
(Regressão)
1 SQE 𝑸𝑴𝑬 =
𝟏

𝑺𝑸𝑹
Resíduo (Erro) 𝒏−𝟐 SQR 𝑸𝑴𝑬 =
𝒏−𝟐

𝑺𝑸𝑻
Total 𝒏−𝟏 SQT 𝑸𝑴𝑬 =
𝒏−𝟏

Com isso, temos a tabela de análise de variância com a decomposição da soma dos
quadrados totais em seus dois componentes: a variação explicada e a não explicada pela
regressão linear.
Junto a esse conhecimento, outra informação muito importante pode ser deduzida pela
reta da regressão. Ao analisar o componente explicado pela regressão, podemos ter a seguinte
igualdade:

Em outras palavras, os desvios explicados pela regressão consistem no efeito da variação


de X multiplicado pela sua contribuição em Y (isto é, coeficiente de regressão 𝑏). Como os
desvios devem ser elevados ao quadrado, logo 𝑏 é elevado ao quadrado para multiplicar a
variação de X.
Assim, temos uma igualdade muito importante, pois a partir de uma tabela de variância
podemos obter o coeficiente de regressão linear (𝒃) ou a variação de X! Um detalhe
importante para essa fórmula é que não conseguimos definir o sinal de 𝑏, pois foi elevado ao
quadrado. Assim, ou questão fornece a relação entre X e Y, ou deve ser detectado nos valores
observados.

MUDE SUA VIDA!


5
alfaconcursos.com.br

COEFICIENTE DE DETERMINAÇÃO (𝒓𝟐 )


Conhecendo os componentes da variância da regressão, podemos definir um novo
coeficiente muito aplicado na análise de regressão. O r2 é denominado de coeficiente de
determinação (ou explicação), pois consiste na proporção da variação total de Y que é explicada
pela regressão linear (pela variação da variável independente X), em outras palavras, esse
coeficiente determina o poder explicativo de um modelo de regressão linear.
O poder explicativo da regressão tem por objetivo avaliar a “qualidade” do ajuste da reta
de regressão aos pontos (X, Y). Baseado nesse conceito, podemos obter o coeficiente de
determinação a partir da seguinte proporção:
𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑬𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒂 𝒑𝒆𝒍𝒂 𝑹𝒆𝒈𝒓𝒆𝒔𝒔ã𝒐 𝑺𝑸𝑬
𝐫𝟐 = =
𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑻𝒐𝒕𝒂𝒍 𝑺𝑸𝑻
Com esse cálculo, obtém a proporção (ou porcentagem) do quanto o modelo de regressão
linear explica o comportamento variável de Y. Sobretudo, como a variação explicada se trata de
um componente do total, o valor de r2 sempre irá oscilar entre 0 até 1 (0 a 100%). Se r2 é
próximo de 1, isso significa que a variação explicada responde por uma grande percentagem da
variação total, isto é, o modelo de regressão linear explica eficientemente a variação de Y. Por
outro lado, valores de r2 próximos de zero indicam que há muito variação de Y não explicada
pelo modelo de regressão, isto é, muitas variações devido a fatores aleatórios.
O cálculo de r2 pode também ser pela variação dos resíduos SQR, uma vez que SQE
corresponde à diferença do total menos os erros (SQT – SQR). Veja:
𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑻𝒐𝒕𝒂𝒍 − 𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍 𝑺𝑸𝑻 − 𝑺𝑸𝑹
𝐫𝟐 = =
𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑻𝒐𝒕𝒂𝒍 𝑺𝑸𝑻
Como SQR é a complementar de SQE para obter o total, também podemos deduzir que o
complementar do coeficiente de determinação é a proporção da variação residual sobre o
total. Logo:
𝑺𝑸𝑹
𝟏 − 𝐫𝟐 =
𝑺𝑸𝑻
Em síntese, o ajustamento da reta de regressão aos pontos observados é mais eficiente
quanto mais perto de 1 estiver o valor do coeficiente de determinação r2. Se 𝑟 2 = 0,81, por
exemplo, indica que aproximadamente 81% da variação em Y está relacionada com a variação
de X e é explicada eficientemente pelo modelo linear. Em contraponto, 19% da variação em Y
não é explicada em função de X.

Esse coeficiente, não por acaso, é representado por 𝑟 2 , pois se trata do coeficiente de
correlação 𝒓 elevado ao quadrado. Ou seja, quanto maior a correlação linear (força de
associação) entre uma variável (X,Y), maior é eficiência de explicar Y em função de X por um
modelo de regressão linear.

MUDE SUA VIDA!


6
alfaconcursos.com.br

𝒓𝟐 = (𝒓)𝟐
𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝑫𝒆𝒕𝒆𝒓𝒎𝒊𝒏𝒂çã𝒐 = (𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝑪𝒐𝒓𝒓𝒆𝒍𝒂çã𝒐)𝟐
É muito comum questões de Estatística cobrarem sobre coeficiente de correlação, a partir
da análise de variância da regressão. Para obter o resultado, basta encontrar a proporção que
representa o coeficiente de determinação e extrair a raiz quadrada. O contrário também é
comum, ou seja, em questões de correlação perguntar o valor de r2. Essa igualdade resolve
facilmente esses tipos de questões. Veja que não conseguimos definir o sinal da correlação,
para isso é preciso observar a relação entre as variáveis.
Vejamos o que ocorre com a Soma dos Quadrados em duas situações particulares:
➢ Correlação Perfeita (𝑟 = 1 ou 𝑟 =– 1): Nessa situação, a reta ajustada passa
exatamente sobre todos os pontos observados. Assim, todos os erros são iguais a
zero, e a regressão linear explica toda a variação de Y. Logo:

SQR = 0
SQT = SQE
Coeficiente de Determinação (r2) = 100%

➢ Correlação Nula (𝒓 = 𝟎): Nesse caso, a reta de regressão é paralela ao eixo X


(coeficiente angular “𝑏” igual a zero). A reta de regressão não consegue explicar as
variações de Y e praticamente não passa por nenhum ponto, logo:

SQE = 0
SQT = SQR
Coeficiente de Determinação (r2) = 0

MUDE SUA VIDA!


7
alfaconcursos.com.br

Para finalizar a abordagem sobre análise de variância na regressão, vamos aplicar todo o
conhecimento obtido em um exemplo anteriormente trabalhado.
OBJETO DE ESTUDO:
Foram escolhidas 5 cidades com taxa de desemprego de 5, 10, 15, 20 e 25% registrado
por órgãos de pesquisas confiáveis. Em seguida, durante um mês, foi quantificada a ocorrência
de homicídios, em cada cidade.

Taxa de desemprego (X) 5 10 15 20 25


Nº de homicídios/mês (Y) 10 13 18 26 39
Nesse exemplo, foi obtido o seguinte modelo de regressão linear:
𝒀𝒊 = 𝟏, 𝟓 + 𝟏, 𝟑𝟒𝑿𝒊 + 𝜺𝒊
Para variável Y, temos cinco dados amostrais, portanto 4 graus de liberdade.
Primeiramente, é necessário obter todos os componentes da variância, assim procede-se da
seguinte maneira:

𝑿𝒊 𝒀𝒊 ̅)
(𝒀𝒊 − 𝒀 ̅ )𝟐
(𝒀𝒊 − 𝒀 ̂𝒊
𝒀 ̂𝒊 − 𝒀
𝒀 ̅ ̂𝒊 − 𝒀
(𝒀 ̅ )𝟐

5 12 -9,6 92,16 8,2 -13,4 179,56

10 13 -8,6 73,96 14,9 -6,7 44,89

15 18 -3,6 12,96 21,6 0 0

20 26 4,4 19,36 28,3 6,7 44,89

25 39 17,4 302,76 35 13,4 179,56


̅ = 𝟏𝟓
𝑿 ̅ = 𝟐𝟏, 𝟔
𝒀 𝜮=𝟎 𝜮 = 𝟓𝟎𝟏, 𝟐 - 𝜮=𝟎 𝜮 = 𝟒𝟒𝟖, 𝟗

̂𝒊
𝒀𝒊 − 𝒀 ̂ 𝒊 )𝟐
(𝒀𝒊 − 𝒀
3,8 14,44
-1,9 3,61
-3,6 12,96
-2,3 5,29
4 16
𝜮=𝟎 𝜮 = 𝟓𝟐, 𝟑

MUDE SUA VIDA!


8
alfaconcursos.com.br

Após os procedimentos matemáticos, temos os componentes da variação:

𝑺𝑸𝑻 = 𝟓𝟎𝟏, 𝟐
𝑺𝑸𝑬 = 𝟒𝟒𝟖, 𝟗
𝑺𝑸𝑹 = 𝟓𝟐, 𝟑
𝟓𝟎𝟏, 𝟐 = 𝟒𝟒𝟖, 𝟗 + 𝟓𝟐, 𝟑
Desse modo, a tabela de análise de variância pode ser preenchida:
Soma dos
Causas de Graus de Quadrado Médio
Quadrados
Variação Liberdade (ou Variância)
(ou Variação)
Explicada 𝟒𝟒𝟖, 𝟗
1 448,9 = 𝟒𝟒𝟖, 𝟗
(Regressão) 𝟏
𝟓𝟐, 𝟑
Resíduo (Erro) 𝟑 52,3 = 𝟏𝟕, 𝟒𝟑
𝟑
𝟓𝟎𝟏, 𝟐
Total 𝟒 501,2 = 𝟏𝟐𝟓, 𝟑
𝟒
Agora que quantificamos cada componente da variância da regressão, podemos obter o
coeficiente de determinação:
𝟒𝟒𝟖, 𝟗
𝐫𝟐 = = 𝟎, 𝟖𝟗 = 𝟖𝟗%
𝟓𝟎𝟏, 𝟐
Por conseguinte, 89% da variação da variável dependente Y é explicada pelo modelo de
regressão linear 𝑌̂𝑖 = 1,5 + 1,34𝑋𝑖 , enquanto apenas 11% dela é devido a causas aleatórias não
explicadas (𝜀𝑖 ).

MUDE SUA VIDA!


9
alfaconcursos.com.br

RESUMO DE FÓRMULAS IMPORTANTES NA REGRESSÃO LINEAR


Durante toda essa construção teórica da análise de regressão linear, obtivemos várias
fórmulas que podem ser utilizadas para obter os valores da correlação (r), coeficiente de
determinação (𝑟 2 ) e coeficiente de regressão linear (b).
Fique ligado nessas fórmulas que são muito utilizadas nas questões de concurso público
sobre o assunto de análise de regressão linear!
➢ Relação entre variação explicada da regressão linear (SQE) com o coeficiente de
regressão (b):

➢ Relação entre o coeficiente de determinação (𝑟 2 ) e coeficiente de correlação (r):

➢ Relação entre o coeficiente de regressão (b) e coeficiente de correlação (r):

𝑪𝒐𝒗(𝑿, 𝒀) 𝐂𝐨𝐯(𝐗, 𝐘)
𝒃= 𝐫=
𝒔𝟐𝑿 𝐬𝐗 × 𝐬𝐘
𝑪𝒐𝒗(𝑿, 𝒀) 𝐂𝐨𝐯(𝐗, 𝐘)
𝒃= 𝐫=
𝒔𝑿 × 𝒔𝑿 𝐬𝐗 × 𝐬𝐘
𝑪𝒐𝒗(𝑿, 𝒀) 𝐂𝐨𝐯(𝐗, 𝐘)
𝒃 × 𝒔𝑿 = 𝐫 × 𝐬𝐘 =
𝒔𝑿 𝐬𝐗
𝒃 × 𝒔𝑿 = 𝐫 × 𝐬𝐘

MUDE SUA VIDA!


10

Você também pode gostar