Você está na página 1de 49

ECONOMETRIA

Prof. Victor Azambuja Gama


Nenhuma parte deste material poderá ser reproduzida para
fins comerciais. Este material foi desenvolvido com o propósito
de auxiliar as aulas da disciplina de Econometria do curso de
Ciências Econômicas da Universidade Estadual de Mato
Grosso do Sul (UEMS).
EMENTA
 Análise de Regressão (com duas variáveis, com regressão
múltipla);
 O modelo clássico de regressão linear e suas hipóteses básicas;
 Estimadores de mínimos quadrados ordinários e suas
propriedades;
 Intervalos de confiança e teste de hipóteses;
 Regressão com variável “dummy”;
 Regressão com variáveis binárias;
 Violação das hipóteses básicas do modelo clássico de regressão

linear: testes de diagnóstico e procedimentos de correção;


 Modelos auto-regressivos e de defasagens distribuídas;
 Modelos de equações simultâneas;
 Introdução a modelos de séries de tempo: Modelos
autoregressivos, de médias móveis e mistos;
 Tendência determinística e estocástica; raízes unitárias e
cointegração.
OBJETIVOS

 Demonstrar ao aluno as técnicas e métodos


econométricos básicos, capacitando-o a entender
e analisar trabalhos empíricos na área de
economia. Possibilitando a utilização deste
instrumental em análises econômicas e no próprio
trabalho de conclusão de curso.
REFERÊNCIA

GUJARATI, Damodar N.; PORTER, Dawn


C. Econometria Básica. 5 ed., Amgh Editora,
2011.
Capítulo 3 - Modelo de regressão de duas
variáveis: o problema da estimação
3.1 Método dos mínimos quadrados ordinários

• Carl Friedrich Gauss (matemático alemão);

• MQO tem algumas propriedades estatísticas


desejáveis;

• Inicialmente, trataremos do princípio dos mínimos


quadrados.

• Recordando a FRP de duas variáveis:

𝑌𝑖 = 𝛽1 + 𝛽2 𝑋 + 𝑢𝑖 (2.4.2)
3.1 Método dos mínimos quadrados ordinários

• Contudo, a FRP não pode ser observada diretamente.


Temos de estimá-la por meio da FRA:

𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 = 𝑌𝑖 + 𝑢𝑖 (2.6.2) e (2.6.3)

em que 𝑌𝑖 é o valor estimado (média condicional) de 𝑌𝑖 .

• Mas como determinamos a FRA propriamente dita?


Primeiro, expressar (2.6.3) como:

𝑢𝑖 = 𝑌𝑖 − 𝑌𝑖 = 𝑌𝑖 − 𝛽1 − 𝛽2 𝑋𝑖 (3.1.1)

em que 𝑢𝑖 são simplesmente as diferenças entre os valores


observados e estimados de Y.
3.1 Método dos mínimos quadrados ordinários

• Objetivo: dados n pares de observações de Y e X,


queremos determinar a FRA de maneira que fique o mais
próximo possível do Y observado.

• Qual critério adotar? Escolher a FRA de tal forma:

min 𝑢𝑖 = (𝑌𝑖 − 𝑌𝑖 )

• Observando o diagrama de dispersão hipotético


apresentado na Figura 3.1, o que podemos afirmar sobre
este critério?
3.1 Método dos mínimos quadrados ordinários
3.1 Método dos mínimos quadrados ordinários

• O ideal é adotar o critério dos mínimos quadrados,


segundo o qual a FRA pode ser fixada de tal forma:

2 2
𝑢𝑖 = 𝑌𝑖 − 𝑌𝑖
2
= 𝑌𝑖 − 𝛽1 − 𝛽2 𝑋𝑖 (3.1.2)

seja o menor possível, onde os 𝑢𝑖 2 são os resíduos


elevados ao quadrado.

• Portanto, o princípio dos mínimos quadrados procura


ajustar uma reta aos valores dos dados.
3.1 Método dos mínimos quadrados ordinários

• Todavia, devemos procurar a reta tal que a


soma dos quadrados das distâncias verticais de
cada ponto à reta seja a menor possível.

• Qual é o benefício do método de mínimos


quadrados?
R: evita que grandes distâncias positivas sejam
canceladas pelas negativas;

• Os estimadores obtidos têm algumas


propriedades estatísticas muito desejáveis.
3.1 Método dos mínimos quadrados ordinários

• Com base na Equação (3.1.2), torna-se óbvio que:

𝑢𝑖 2 = 𝑓(𝛽1 , 𝛽2 ) (3.1.3)

• Para qualquer conjunto de dados, a escolha de valores


diferentes para 𝛽1 e 𝛽2 resultará em 𝑢𝑖 diferentes

• Considere os valores hipotéticos de Y e X apresentados nas


duas primeiras;

• Façamos dois experimentos:


Experimento 1: 𝛽1 =1,572 e 𝛽2 = 1,357
Experimento 2: 𝛽1 =3 e 𝛽2 = 1
3.1 Método dos mínimos quadrados ordinários

• Conclusão: a soma dos quadrados desses resíduos são


diferentes, já que têm como base conjuntos diferentes de
valores de 𝛽 ;

• Que conjunto de valores de 𝜷 devemos escolher?


R.: Devemos escolher os valores de 𝛽 que fornece o menor 𝑢𝑖 2

• Propriedade estatística desejável: o MQO escolhe 𝛽1 e 𝛽2


de tal forma que, para qualquer amostra ou conjunto de dados,
o 𝑢𝑖 2 é o menor possível.

• Como isso é feito?


R.: É um exercício direto de cálculo diferencial (Apêndice 3A).
3.1 Método dos mínimos quadrados ordinários

• O processo de diferenciação resulta nas seguintes


equações para estimar 𝛽1 e 𝛽2 :
𝑥𝑖 𝑦𝑖 (3.1.6)
𝑏2 =
𝑥𝑖 2

em que 𝑦𝑖 = 𝑌𝑖 − 𝑌 e 𝑥𝑖 = 𝑋𝑖 − 𝑋

• Daqui em diante, usaremos letras minúsculas para indicar


os desvios em relação aos valores médios.

𝑏1 = 𝑌 − 𝑏2 𝑋 (3.1.7)

em que 𝑋 e 𝑌 são as médias amostrais de X e de Y.


3.1 Método dos mínimos quadrados ordinários

• Exemplo numérico

• Ilustraremos a teoria econométrica apresentada até agora


considerando os dados fornecidos na Tabela 2.6, que relaciona o
salário-hora médio (Y) com a escolaridade (X);

• A teoria econômica básica do trabalho nos informa que, dentre


muitas variáveis, a escolaridade é um determinante importante dos
salários;

• Na Tabela 3.2. fornecemos os dados brutos necessários para


estimar o impacto quantitativo dos anos de estudo nos salários;

•Tendo isso em vista, calcule as estimativas de Mínimos Quadrados


Ordinários (MQO) do coeficiente angular e do intercepto associados
ao seguinte modelo: 𝑌 = 𝛽1 + 𝛽2 𝑋 + 𝑒.
3.1 Método dos mínimos quadrados ordinários

• Exemplo numérico
Linha de regressão estimada para os dados salário- escolaridade da Tabela 2.6
16

14
Y = 0,7241X - 0,0145
12

10
Salário-hora médio

0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Anos de escolaridade
3.1 Método dos mínimos quadrados ordinários

• Os estimadores obtidos anteriormente são conhecidos como


estimadores de mínimos quadrados;

• Propriedades numéricas dos estimadores:

I. Os estimadores de MQO são expressos unicamente em termos


de quantidades observáveis (amostrais), como X e Y;

II. São estimadores pontuais, isto é, dada a amostra, cada


estimador proporciona apenas um único valor (ponto) do parâmetro
populacional relevante;

III. Uma vez obtidas as estimativas de MQO para os dados


amostrais, a linha de regressão amostral (Figura 3.1) pode ser
obtida facilmente.
3.1 Método dos mínimos quadrados ordinários
3.2 O modelo clássico de regressão linear: as
hipóteses subjacentes ao método dos mínimos
quadrados

•As hipóteses feitas quanto à(s) variável(is) Xi e


ao termo de erro são fundamentais para a
interpretação das estimativas da regressão;

• Apresentaremos essas hipóteses considerando


o modelo clássico de regressão linear,
gaussiano ou padrão (MCRL);

• Inicialmente, as hipóteses serão discutidas no


contexto do modelo de regressão de duas
variáveis.
3.2 O modelo clássico de regressão linear: as
hipóteses subjacentes ao método dos mínimos
quadrados
Hipótese Descrição

Hipótese 1 Modelo de regressão linear: o modelo de regressão é linear nos


parâmetros, embora possa não ser linear nas variáveis. Este é o
modelo de regressão como mostrado na Equação (2.4.2):
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖
Hipótese 2 Valores de X fixos ou independentes do termo de erro: valores
assumidos pelo regressor X podem ser fixos em amostras repetidas
(caso do regressor fixo) ou seus valores podem mudar de acordo com
a variável dependente Y (no caso do regressor estocástico). No
segundo caso, supõe-se que as variáveis X e o termo de erro são
independentes, isto é, 𝐶𝑜𝑣 𝑋𝑖 , 𝑢𝑖 = 0.

Hipótese 3 Valor médio do termo de erro ui é zero: dado o valor de 𝑋𝑖 , o valor


médio ou esperado, do termo de erro aleatório 𝑢𝑖 é zero.
Simbolicamente, temos:
𝐸 𝑢𝑖 |𝑋𝑖 = 0
ou, se X é não estocástico,
𝐸 𝑢𝑖 = 0
3.2 O modelo clássico de regressão linear: as
hipóteses subjacentes ao método dos mínimos
quadrados

Hipótese Descrição

Hipótese 4 Homocedasticidade ou variância constante de 𝑢𝑖 : A


variância do termo de erro é a mesma independentemente
do valor de X. De maneira simbólica, Var 𝑢𝑖 = 𝜎 2 .

Hipótese 5 Não há autocorrelação entre os termos de erro: dados


quaisquer dois valores de X, 𝑋𝑖 e 𝑋𝑖 (i ≠ j), a correlação
entre quaisquer dois 𝑢𝑖 e 𝑢𝑗 (i ≠ j) é zero. Simbolicamente,

Cov 𝑢𝑖 , 𝑢𝑗 |𝑋𝑖 𝑒 𝑋𝑗 = 0 (3.2.5)


Cov 𝑢𝑖 , 𝑢𝑗 = 0, se X for não estocástica.

em que i e j são duas observações diferentes e cov


significa covariância.
3.2 O modelo clássico de regressão linear: as
hipóteses subjacentes ao método dos mínimos
quadrados

Hipótese Descrição

Hipótese 6 O número de observações n deve ser maior que o


número de parâmetros a serem estimados: como
alternativa, o número de observações n deve ser maior
que o número de variáveis explanatórias.

Hipótese 7 Variabilidade dos valores de X: os valores de X em uma


amostra não devem ser os mesmos. Tecnicamente, var (X)
deve ser um número positivo. Além disso, não pode haver
valores extremos (outliers) da variável X, isto é, valores
muito grandes ou discrepantes em relação ao resto das
observações.
3.3 Precisão ou erros padrão das estimativas
de mínimos quadrados

• Ao analisarmos as Equações (3.1.6) e (3.1.7), fica


evidente que as estimativas de mínimos quadrados
são uma função dos dados amostrais;

• Mas como os dados costumam mudar de amostra


para amostra, precisamos de alguma medida de
“confiabilidade” ou precisão dos estimadores 𝛽1 e
𝛽2 ;

• Em estatística, a precisão de uma estimativa é


medida por seu erro padrão (ep).
3.3 Precisão ou erros padrão das estimativas
de mínimos quadrados

• Dadas as hipóteses gaussianas, a Seção 3A.3 do


Apêndice 3A mostra que os erros padrão das estimativas
de MQO podem ser obtidos como se segue:

𝜎2 𝜎2
𝑣𝑎𝑟 𝑏2 = (3.3.1) ep 𝑏2 = (3.3.2)
𝑥2 𝑥2

𝑋2 𝑋2
𝑣𝑎𝑟 𝑏1 = 𝜎2 (3.3.3) ep 𝑏1 = 𝜎2 (3.3.4)
𝑛 𝑥2 𝑛 𝑥2

em que var = variância, ep = erro padrão e 𝜎 2 é a variância


constante ou homocedástica de 𝑢𝑖 da Hipótese 4.
3.3 Precisão ou erros padrão das estimativas
de mínimos quadrados

• Na estatística, a variância é uma medida de dispersão que


mostra o quão distante cada valor desse conjunto está do
valor central (médio).

• Portanto, quanto menor é a variância, mais próximos os


valores estão da média; mas quanto maior ela é, mais os
valores estão distantes da média.

• Na análise de regressão, a variância mede o quanto as


estimativas produzidas por aquele estimador podem variar
de uma amostra para outra;

• Mede a dispersão da distribuição de probabilidade de 𝑏1 e


𝑏2 .
3.3 Precisão ou erros padrão das estimativas
de mínimos quadrados

• O erro padrão é apenas o desvio padrão da distribuição


amostral do estimador, e esta é simplesmente a probabilidade ou
distribuição de frequência do estimador;

• Em outras palavras, o erro padrão é a distribuição do conjunto


de valores dos estimadores obtidos de todas as amostras
possíveis, do mesmo tamanho, de uma dada população;

• As distribuições amostrais são usadas para fazer inferências


sobre os valores dos parâmetros populacionais com base nos
valores calculados dos estimadores baseados em uma ou mais
amostras.

• Em estatística, a precisão de uma estimativa é medida por seu


erro padrão (ep).
3.3 Precisão ou erros padrão das estimativas
de mínimos quadrados

• O erro padrão é apenas o desvio padrão da distribuição


amostral do estimador, e esta é simplesmente a probabilidade ou
distribuição de frequência do estimador;

• Em outras palavras, o erro padrão é a distribuição do conjunto


de valores dos estimadores obtidos de todas as amostras
possíveis, do mesmo tamanho, de uma dada população;

• As distribuições amostrais são usadas para fazer inferências


sobre os valores dos parâmetros populacionais com base nos
valores calculados dos estimadores baseados em uma ou mais
amostras.

• Em estatística, a precisão de uma estimativa é medida por seu


erro padrão (ep).
3.3 Precisão ou erros padrão das estimativas
de mínimos quadrados
• A variância do erro (𝜎 2 ) é estimada pela seguinte fórmula:

𝑢𝑖 2
𝜎2 = (3.3.5)
𝑛−2

Em que 𝜎 2 é o estimador de MQO do verdadeiro, mas desconhecido, 𝜎 2 , a


expressão n – 2 é conhecida como número de graus de liberdade (gl) e 𝑢𝑖 2 é
a soma do quadrado dos resíduos (SQR).

• Note que a raiz quadrada positiva de 𝜎 2

𝑢𝑖 2
𝜎2 = (3.3.8)
𝑛−2

é conhecida como erro padrão da estimativa ou erro padrão da regressão


(ep). É simplesmente o desvio padrão dos valores de Y em relação à linha
de regressão estimada.
3.3 Precisão ou erros padrão das estimativas
de mínimos quadrados
• O erro padrão da estimativa é frequentemente usada como uma medida
sintética da “qualidade do ajustamento” da linha de regressão estimada;

• Note as seguintes características das variâncias (e, portanto, dos erros


padrão) de 𝛽1 e 𝛽2 :

a) A variância de 𝛽2 é diretamente proporcional a 𝜎 2 , mas inversamente


proporcional a 𝑥 2 . Isto é, dado 𝜎 2 , quanto maior a variação dos valores de
X, menor a variância de 𝛽2 e, portanto, maior a precisão com que 𝛽2 pode
ser estimado.

b) A variância de 𝛽1 é diretamente proporcional a 𝜎 2 e 𝑋 2 , mas


inversamente proporcional a 𝑥 2 e ao tamanho da amostra n;

c) Como 𝛽1 e 𝛽2 são estimadores, eles não só variam de amostra para


amostra, como tendem a ser dependentes um do outro em determinada
amostra.
3.3 Precisão ou erros padrão das estimativas
de mínimos quadrados

• Essa dependência é medida pela covariância entre eles.


𝜎2
𝑐𝑜𝑣 𝛽1 , 𝛽2 = −𝑋var 𝛽2 = −𝑋 (3.3.9)
𝑥𝑖 2

• Como var (𝛽2 ) é sempre positiva, assim como a variância


de qualquer variável, a natureza da covariância entre 𝛽1 e
𝛽2 depende do sinal de X. Se o sinal for positivo, como
mostra a fórmula, a covariância será negativa.
3.3 Precisão ou erros padrão das estimativas
de mínimos quadrados

• Exemplo numérico

• Ilustraremos a teoria econométrica apresentada até agora


considerando os dados fornecidos na Tabela 2.6, que relaciona o
salário-hora médio (Y) com a escolaridade (X);

• Na Tabela 3.2. fornecemos os dados brutos necessários para


estimar o impacto quantitativo dos anos de estudo nos salários;

• Tendo isso em vista, calcule:


a) Variância do erro (𝜎 2 );
b) Variância dos estimadores 𝑏1 e 𝑏2 ;
c) Erros padrão dos estimadores 𝑏1 e 𝑏2 ;
d) Covariância de 𝛽1 e 𝛽2 .
3.4 Propriedades dos estimadores de mínimos
quadrados: o teorema de Gauss-Markov
• Dadas as hipóteses do modelo clássico de regressão linear, as estimativas de
mínimos quadrados possuem algumas propriedades ideais ou ótimas;

• Estas estão contidas no conhecido teorema de Gauss-Markov. Para entendê-


lo, precisamos considerar a propriedade de melhor estimador linear não
viesado (ou não tendencioso): MELNT ou BLUE de um estimador;

• Por exemplo, o estimador de MQO 𝛽2 , é considerado o melhor estimador linear


não viesado (ou não tendencioso) de 𝛽2 se atender às seguintes condições:

1. É linear, isto é, uma função linear de uma variável aleatória, como a variável
dependente Y no modelo de regressão.

2. É não viesado (ou não tendencioso), isto é, seu valor médio ou esperado E(𝛽2 )
é igual ao verdadeiro valor 𝛽2 .

3. Tem variância mínima na classe de todos os estimadores lineares não


viesados; um estimador não viesado com a menor variância é conhecido como um
estimador eficiente.
3.4 Propriedades dos estimadores de mínimos
quadrados: o teorema de Gauss-Markov

• No contexto da regressão, podemos provar que os


estimadores de MQO são MELNT. Essa é a essência do
famoso teorema de Gauss-Markov, que afirma o seguinte:

Teorema de Gauss-Markov:
Dadas as premissas do modelo clássico de regressão linear, os
estimadores de mínimos quadrados da classe dos estimadores lineares
não viesados têm variância mínima, isto é, são o melhor estimador linear
não viesado (MELNT).

• Podemos explicar o significado de tudo isso com auxílio da


Figura 3.7.

• Na Figura 3.7 (a) apresentamos a distribuição amostral do


estimador de MQO 𝛽2 , isto é, a distribuição dos valores
assumidos por 𝛽2 em experimentos amostrais repetidos.
3.4 Propriedades dos estimadores de mínimos
quadrados: o teorema de Gauss-Markov
3.4 Propriedades dos estimadores de mínimos
quadrados: o teorema de Gauss-Markov
• Figura 3.7(a): a média dos valores de 𝛽2 , E(𝛽2 ), é igual ao verdadeiro
𝛽2 . Nessa situação, dizemos que 𝛽2 é um estimador não viesado de 𝛽2 ;

• Figura 3.7(b): a distribuição amostral de 𝛽2 ∗ , um estimador alternativo


de 𝛽2 obtido usando outro método (diferente de MQO). Por conveniência,
supusemos que 𝛽2 ∗ , assim como 𝛽2 , é não viesado, ou seja, que seu valor
médio ou esperado é igual a 𝛽2 . Vamos supor, ainda, que tanto 𝛽2 quanto
𝛽2 ∗ são estimadores lineares. Qual dos dois estimadores você escolheria?

Figura 3.7(c): embora tanto 𝛽2 quanto 𝛽2 ∗ sejam não viesados, a


distribuição de 𝛽2 ∗ é mais difusa ou espalhada em torno da média do que
a distribuição de 𝛽2 . Em outras palavras, a variância de 𝛽2 ∗ é maior que a
variância de 𝛽2 . Agora, dados dois estimadores lineares e não viesados,
escolhemos o estimador com menor variância, porque é mais provável que
esteja mais próximo de 𝛽2 do que o estimador alternativo. Em resumo,
escolhemos o melhor estimador linear não viesado (MELNT ou BLUE).
3.5 O coeficiente de determinação 𝒓𝟐 : uma
medida da “qualidade do ajustamento”

• Agora, consideraremos a qualidade do ajustamento da linha


de regressão ajustada a um conjunto de dados;

• Vamos descobrir quão “bem” uma linha de regressão amostral


é adequada aos dados;

• O coeficiente de determinação 𝒓𝟐 (no caso de duas


variáveis) ou 𝑹𝟐 (regressão múltipla) é uma medida resumida
que diz quanto a linha de regressão amostral ajusta-se aos
dados.

• Antes de mostrarmos como se calcula o 𝒓𝟐 , vejamos uma


explicação heurística de 𝒓𝟐 em termos de um recurso gráfico
conhecido como diagrama de Venn, ou Ballentine, como mostra
a Figura 3.8.
3.5 O coeficiente de determinação 𝒓𝟐 : uma
medida da “qualidade do ajustamento”
3.5 O coeficiente de determinação 𝒓𝟐 : uma
medida da “qualidade do ajustamento”
• Nessa figura, o círculo Y representa a variação da variável
dependente Y e o círculo X, a variação da variável explanatória X;

•A sobreposição dos círculos (a área sombreada) indica a extensão em


que a variação de Y é explicada pela variação de X;

• Quanto maior a área de sobreposição, maior a parte da variação de


Y explicada por X. O r 2 é apenas a medida numérica dessa
sobreposição;

• Na figura, à medida que nos movemos da esquerda para a direita, a


área de sobreposição aumenta, isto é, uma proporção cada vez maior
da variação de Y é explicada por X. Em resumo, r 2 aumenta;

• Quando não há sobreposição, r 2 é obviamente zero; mas, quando a


sobreposição é total, r 2 é igual a 1. Como mostraremos em breve, r 2
situa-se entre 0 e 1.
3.5 O coeficiente de determinação 𝒓𝟐 : uma
medida da “qualidade do ajustamento”
• Para calcularmos r 2 é preciso lembrar que:

𝑌𝑖 = 𝐸 𝑌𝑖 + 𝑢𝑖 (2.6.3)

• É possível decompor o valor de 𝑌𝑖 como:

𝑌𝑖 = 𝑌𝑖 + 𝑢𝑖

• Subtraindo a média amostral de ambos os membros da equação,


obtemos

𝑌𝑖 − 𝑌 = (𝑌𝑖 − 𝑌) + 𝑢𝑖

• O desdobramento em leva a uma decomposição útil da variabilidade


total em Y, dentro de toda uma amostra, em parte explicada e parte
não explicada.
3.5 O coeficiente de determinação 𝒓𝟐 : uma
medida da “qualidade do ajustamento”
• Há muitas formas de medir a variação total em uma variável. Uma
forma conveniente consiste em somar, sobre toda a amostra, os
quadrados das diferenças entre 𝑌𝑖 e sua média.

• Elevando ao quadrado ambos os membros da última equação,


obtemos:

2
2
(𝑌𝑖 − 𝑌) = 2
(𝑌𝑖 − 𝑌) − 𝑢𝑖

• O desdobramento leva a uma decomposição útil da variabilidade


total em Y, dentro de toda uma amostra, em parte explicada e parte
não explicada.

SQT = SQE + SQR (3.5.3)


3.5 O coeficiente de determinação 𝒓𝟐 : uma
medida da “qualidade do ajustamento”

• Especificamente, essas somas dos quadrados são:

i) Soma dos quadrados total = SQT: uma medida da variação


total em Y em relação a sua média amostral.

ii) Soma dos quadrados explicados (da regressão) = SQE:


uma medida da variação total em Y estimado em relação a sua
média amostral.

iii) Soma dos quadrados dos resíduos (erros) = SQR: parcela


da variação total de Y em relação ao seu valor estimado, que não
é explicada pela regressão.
3.5 O coeficiente de determinação 𝒓𝟐 : uma
medida da “qualidade do ajustamento”
3.5 O coeficiente de determinação 𝒓𝟐 : uma
medida da “qualidade do ajustamento”

• Portanto, o r 2 é definido como:

2
𝑆𝑄𝐸 𝑌𝑖 − 𝑌
𝑟2 = = 2
𝑆𝑄𝑇 𝑌𝑖 − 𝑌

2
𝑆𝑄𝑅 𝑢2
𝑟 =1− =1− 2
𝑆𝑄𝑇 𝑌𝑖 − 𝑌
3.5 O coeficiente de determinação 𝒓𝟐 : uma
medida da “qualidade do ajustamento”

• Interpretação do 𝒓𝟐 (Coeficiente de determinação): quanto mais


próximo de 1 estiver r 2 melhor terá sido nosso trabalho para explicar a
variação em Y e maior será a nossa capacidade de previsão do modelo.

a) 𝒓𝟐 = 1: todos os dados amostrais estão examente sobre a reta


ajustada de mínimos quadrados, de forma que SQR = 0. O modelo se
ajusta perfeitamente aos dados.

b) 𝒓𝟐 = 0: os dados amostrais de Y e X não são correlacionados, não


apresentando qualquer associação linear. Então, a reta ajustada de
mínimos quadrados é horizontal e idêntica a média de Y, de forma que
SQE = 0

c) 0 < 𝒓𝟐 < 1: porcentagem da variação em Y, em torno de sua média,


que é explicada pelo modelo de regressão.
3.5 O coeficiente de determinação 𝒓𝟐 : uma
medida da “qualidade do ajustamento”

• Algo estreitamente relacionado, mas conceitualmente


muito diferente de 𝑟 2 , é o coeficiente de correlação (r),
que, como foi visto no Capítulo 1, é uma medida do grau de
associação entre duas variáveis;

𝑟 = ± 𝑟2 (3.5.12)

ou, com base em sua definição:

(𝑥𝑖 .𝑦𝑖 )
𝑟= (3.5.13)
(𝑥𝑖 )2 (𝑦𝑖 )2
3.5 O coeficiente de determinação 𝒓𝟐 : uma
medida da “qualidade do ajustamento”

• Estas são algumas das propriedades de r:

1. Pode ser positivo ou negativo, o que dependerá do sinal


do termo no numerador da Equação (3.5.13), que mede a
covariação amostral das duas variáveis;

2. Se situa entre os limites de -1 e +1 , isto é, −1 ≤ 𝑟 ≤ +1;

3) Sua natureza é simétrica, isto é, o coeficiente de


correlação entre X e Y (𝑟𝑋𝑌 ) é o mesmo que aquele entre Y
e X (𝑟𝑌𝑋 );

4) É independente da origem e da escala.


3.5 O coeficiente de determinação 𝒓𝟐 : uma
medida da “qualidade do ajustamento”

• Estas são algumas das propriedades de r:

5. Se X e Y são estatisticamente independentes (veja a definição no


Apêndice A), o coeficiente de correlação entre elas é zero, mas se r =
0, isso não significa que as variáveis sejam independentes. Em outras
palavras, correlação zero não implica necessariamente independência
(veja Figura 3.10(h));

6. É uma medida de associação linear ou de dependência linear. Não é


significativa para descrever relações não lineares. Assim, na Figura
3.10 (h), 𝑌 = 𝑋 2 é uma relação exata, embora r
seja zero;

7. Mesmo sendo uma medida de associação linear entre duas variáveis,


ela não implica necessariamente qualquer relação de causa e feito,
como observado no Capítulo 1.
3.5 O coeficiente de determinação 𝒓𝟐 : uma
medida da “qualidade do ajustamento”

Você também pode gostar