Escolar Documentos
Profissional Documentos
Cultura Documentos
br
SUMÁRIO
ANÁLISE DE REGRESSÃO LINEAR ....................................................................................................................... 2
ANÁLISE DE VARIÂNCIA DA REGRESSÃO ....................................................................................................... 2
COMPONENTES DA VARIÂNCIA DA REGRESSÃO ....................................................................................... 2
COEFICIENTE DE DETERMINAÇÃO (𝒓𝟐)..................................................................................................... 6
RESUMO DE FÓRMULAS IMPORTANTES NA REGRESSÃO LINEAR............................................................... 10
Em que:
𝑌𝑖 : são os valores observados da variável Y, que fazem o par com os valores X;
𝑌̂𝑖 : são os valores da variável Y estimados pela reta de regressão;
𝑌̅: é a média da variável Y.
Ao observar a construção de uma regressão linear, podemos identificar, graficamente, o
desvio da variável Y e sua partição em componentes – explicado e não explicado pela regressão
–, entenda:
𝑺𝑸𝑻 ∑(𝒀𝒊 − 𝒀̅ )𝟐
𝑸𝑴𝑻 = =
𝒏−𝟏 𝒏−𝟏
➢ 𝑺𝑸𝑬 corresponde à variação explicada pela regressão linear, desse modo, o grau de
liberdade corresponde a 1, pois temos apenas um coeficiente de regressão 𝑏 (uma
variável independente X) explicando a variação de Y (em regressões múltiplas, os
graus de liberdade correspondem ao número de variáveis independentes). Com isso,
obtém a variância explicada ou quadrado médio explicado pela regressão:
2
̂𝒊 − 𝒀
𝑺𝑸𝑬 ∑(𝒀 ̅)
𝑸𝑴𝑬 = =
𝟏 𝟏
➢ 𝑺𝑸𝑹 corresponde à variação não explicada pela regressão linear, desse modo, os
graus de liberdade correspondem ao resto para completar o total, ou seja, se o total
de graus de liberdade é 𝑛 − 1, e 1 grau de liberdade corresponde ao componente
explicado, o resíduo terá 𝒏 − 𝟐 graus de liberdade. Com isso, obtém a variância não
explicada ou quadrado médio dos resíduos:
𝑺𝑸𝑹 ̂ 𝒊 )𝟐
∑(𝒀𝒊 − 𝒀
𝑸𝑴𝑬 = =
𝒏−𝟐 𝒏−𝟐
Por fim, podemos representar todos os componentes da variância de uma regressão linear
simples a partir de uma tabela:
Soma dos
Quadrado Médio
Causas de Variação Graus de Liberdade Quadrados
(ou Variância)
(ou Variação)
Explicada 𝑺𝑸𝑬
(Regressão)
1 SQE 𝑸𝑴𝑬 =
𝟏
𝑺𝑸𝑹
Resíduo (Erro) 𝒏−𝟐 SQR 𝑸𝑴𝑬 =
𝒏−𝟐
𝑺𝑸𝑻
Total 𝒏−𝟏 SQT 𝑸𝑴𝑬 =
𝒏−𝟏
Com isso, temos a tabela de análise de variância com a decomposição da soma dos
quadrados totais em seus dois componentes: a variação explicada e a não explicada pela
regressão linear.
Junto a esse conhecimento, outra informação muito importante pode ser deduzida pela
reta da regressão. Ao analisar o componente explicado pela regressão, podemos ter a seguinte
igualdade:
Esse coeficiente, não por acaso, é representado por 𝑟 2 , pois se trata do coeficiente de
correlação 𝒓 elevado ao quadrado. Ou seja, quanto maior a correlação linear (força de
associação) entre uma variável (X,Y), maior é eficiência de explicar Y em função de X por um
modelo de regressão linear.
𝒓𝟐 = (𝒓)𝟐
𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝑫𝒆𝒕𝒆𝒓𝒎𝒊𝒏𝒂çã𝒐 = (𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝑪𝒐𝒓𝒓𝒆𝒍𝒂çã𝒐)𝟐
É muito comum questões de Estatística cobrarem sobre coeficiente de correlação, a partir
da análise de variância da regressão. Para obter o resultado, basta encontrar a proporção que
representa o coeficiente de determinação e extrair a raiz quadrada. O contrário também é
comum, ou seja, em questões de correlação perguntar o valor de r2. Essa igualdade resolve
facilmente esses tipos de questões. Veja que não conseguimos definir o sinal da correlação,
para isso é preciso observar a relação entre as variáveis.
Vejamos o que ocorre com a Soma dos Quadrados em duas situações particulares:
➢ Correlação Perfeita (𝑟 = 1 ou 𝑟 =– 1): Nessa situação, a reta ajustada passa
exatamente sobre todos os pontos observados. Assim, todos os erros são iguais a
zero, e a regressão linear explica toda a variação de Y. Logo:
SQR = 0
SQT = SQE
Coeficiente de Determinação (r2) = 100%
SQE = 0
SQT = SQR
Coeficiente de Determinação (r2) = 0
Para finalizar a abordagem sobre análise de variância na regressão, vamos aplicar todo o
conhecimento obtido em um exemplo anteriormente trabalhado.
OBJETO DE ESTUDO:
Foram escolhidas 5 cidades com taxa de desemprego de 5, 10, 15, 20 e 25% registrado
por órgãos de pesquisas confiáveis. Em seguida, durante um mês, foi quantificada a ocorrência
de homicídios, em cada cidade.
𝑿𝒊 𝒀𝒊 ̅)
(𝒀𝒊 − 𝒀 ̅ )𝟐
(𝒀𝒊 − 𝒀 ̂𝒊
𝒀 ̂𝒊 − 𝒀
𝒀 ̅ ̂𝒊 − 𝒀
(𝒀 ̅ )𝟐
̂𝒊
𝒀𝒊 − 𝒀 ̂ 𝒊 )𝟐
(𝒀𝒊 − 𝒀
3,8 14,44
-1,9 3,61
-3,6 12,96
-2,3 5,29
4 16
𝜮=𝟎 𝜮 = 𝟓𝟐, 𝟑
𝑺𝑸𝑻 = 𝟓𝟎𝟏, 𝟐
𝑺𝑸𝑬 = 𝟒𝟒𝟖, 𝟗
𝑺𝑸𝑹 = 𝟓𝟐, 𝟑
𝟓𝟎𝟏, 𝟐 = 𝟒𝟒𝟖, 𝟗 + 𝟓𝟐, 𝟑
Desse modo, a tabela de análise de variância pode ser preenchida:
Soma dos
Causas de Graus de Quadrado Médio
Quadrados
Variação Liberdade (ou Variância)
(ou Variação)
Explicada 𝟒𝟒𝟖, 𝟗
1 448,9 = 𝟒𝟒𝟖, 𝟗
(Regressão) 𝟏
𝟓𝟐, 𝟑
Resíduo (Erro) 𝟑 52,3 = 𝟏𝟕, 𝟒𝟑
𝟑
𝟓𝟎𝟏, 𝟐
Total 𝟒 501,2 = 𝟏𝟐𝟓, 𝟑
𝟒
Agora que quantificamos cada componente da variância da regressão, podemos obter o
coeficiente de determinação:
𝟒𝟒𝟖, 𝟗
𝐫𝟐 = = 𝟎, 𝟖𝟗 = 𝟖𝟗%
𝟓𝟎𝟏, 𝟐
Por conseguinte, 89% da variação da variável dependente Y é explicada pelo modelo de
regressão linear 𝑌̂𝑖 = 1,5 + 1,34𝑋𝑖 , enquanto apenas 11% dela é devido a causas aleatórias não
explicadas (𝜀𝑖 ).
𝑪𝒐𝒗(𝑿, 𝒀) 𝐂𝐨𝐯(𝐗, 𝐘)
𝒃= 𝐫=
𝒔𝟐𝑿 𝐬𝐗 × 𝐬𝐘
𝑪𝒐𝒗(𝑿, 𝒀) 𝐂𝐨𝐯(𝐗, 𝐘)
𝒃= 𝐫=
𝒔𝑿 × 𝒔𝑿 𝐬𝐗 × 𝐬𝐘
𝑪𝒐𝒗(𝑿, 𝒀) 𝐂𝐨𝐯(𝐗, 𝐘)
𝒃 × 𝒔𝑿 = 𝐫 × 𝐬𝐘 =
𝒔𝑿 𝐬𝐗
𝒃 × 𝒔𝑿 = 𝐫 × 𝐬𝐘