Escolar Documentos
Profissional Documentos
Cultura Documentos
𝑌 =𝑋+𝜀
◦ Y é a variável dependente;
◦ X é a variável independente;
◦ 𝜀 é o termo de erro (parcela de Y não explicada por X)
O modelo estatístico da regressão
A partir do modelo teórico formulado pelo pesquisador, a análise de regressão projeta uma
equação de primeiro grau (reta), composto por quatro parâmetros:
Ŷ = 𝛽0 + 𝛽1𝑋
A modelagem mais utilizada para estimar os valores de 𝛽0 e 𝛽1 é a de mínimos quadrados ordinários, que
minimiza a soma dos erros quadrados da previsão (distância entre os pontos reais e a reta de regressão).
O modelo estatístico da regressão
Colocando a equação da análise de regressão no plano cartesiano, temos:
Interpretando o modelo de regressão
A equação projetada pela análise de regressão nos dá dois parâmetros estatísticos (𝛽0 e 𝛽1 ):
Ŷ = 𝛽0 + 𝛽1𝑋
◦ 𝛽0 é o intercepto da reta, e representa o valor da variável dependente previsto pelo modelo caso a
variável independente é 0;
◦ 𝛽1 é o coeficiente de regressão, e representa a variação da variável dependente para cada unidade da
variável independente. No caso de regressão múltipla, haverá um coeficiente para cada variável
independente;
O termo de erro (𝜀), também chamado de resíduo da equação, é diferença entre o Y (coletado
da amostra) real e o Ŷ projetado pelo modelo (resultante da equação 𝛽0 + 𝛽1𝑋):
𝑌– Ŷ = 𝜀
Interpretando o modelo de regressão
Um exemplo prático: Um estudo com 100 empresas de grande porte visa estabelecer a relação
do número de patentes depositadas (dependente) com o faturamento da empresa em milhões
de reais (independente). A análise de regressão reportou o seguinte modelo:
◦ O intercepto (2) indica que empresas sem faturamento tem, em média 2 patentes depositadas;
◦ O coeficiente (0,02) indica que para cada R$ 1 milhão de faturamento, em média, há um acréscimo de
0,02 patentes depositadas, ou que a cada R$ 50 milhões de faturamento há um acréscimo de uma
patente depositada pela empresa;
◦ A partir do modelo, podemos “prever” o número de patentes de uma empresa de acordo com seu
faturamento. Por exemplo, se uma empresa A apresenta um faturamento de R$ 100 milhões, o modelo
prevê que terá depositada 3 patentes: Ŷ = 2 + 0,02 ∗ 100.000.000;
◦ O resíduo (𝜀), neste caso, é a diferença entre o número real de patentes da empresa. Se por exemplo, a
empresa A tiver na verdade 4 patentes depositadas, o resíduo da regressão para esta empresa é 1.
Poder explicativo do modelo
Para verificarmos o quanto da variável dependente é explicada pelo modelo estatístico da
análise de regressão pode-se calcular o coeficiente de determinação do modelo (R2).
De forma semelhante ao coeficiente de correlação (R de Pearson), o R2 pode variar de 0 a 1.
◦ Por se tratar de um termo quadrático, o R2 nunca será negativo;
◦ Um R2 igual a zero indica que o modelo não explica nada da variável dependente;
◦ Um R2 igual a 1 indica que o modelo prevê com máxima precisão a variável dependente.
◦ Quanto maior o R2, maior o poder explicativo no modelo.
Quando se trabalha com mais de uma variável independente (regressão linear múltipla), o R2
deve ser ajustado, o quer normalmente os programas estatísticos fazem por padrão.
Poder explicativo do modelo
De acordo com os objetivos da análise de regressão, o poder explicativo do modelo poderá ser
mais relevante:
◦ Quando o propósito é de previsão, um modelo com maior R2 é mais relevante, pois prevê com maior
precisão a variável dependente;
◦ Quando o propósito é explicação, normalmente o maior interesse do pesquisador é ver o coeficiente de
regressão das variáveis independentes do que o poder explicativo do modelo.
Exemplo: um R2 de 0,700 indica que o modelo estatístico explica 70% da variância da variável
dependente, mas não fala nada sobre o impacto individual das variáveis independentes que
compõe o modelo.
Significância estatística da análise de
regressão
Para verificar os resultados de uma análise de regressão podem ser representativos da
população, precisamos verificar sua significância estatística.
Verificamos a significância do modelo completo (R2) através de um teste F:
◦ Hipótese nula: R2 é igual a zero
◦ Hipótese alternativa: R2 é maior do que zero
Para analisar a significância de cada coeficiente (𝛽0, 𝛽1) fazemos um teste de diferença de
médias (t) para uma amostra:
◦ Hipótese nula: O coeficiente é igual a zero
◦ Hipótese alternativa: O coeficiente é diferente de zero
Neste sentido, o modelo poderá ser generalizado para uma população se os testes F e t forem
estatisticamente significantes.
Regressão linear múltipla
A regressão linear múltipla apresenta a mesma estrutura conceitual da regressão linear simples,
com a diferença no número de variáveis independentes do modelo.
◦ Modelo teórico da regressão linear múltipla:
Y = 𝑋1 + 𝑋2 … + 𝑋𝑛 + 𝜀
Ŷ = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 … + 𝛽𝑛 𝑋𝑛
A decisão de incluir variáveis adicionais ao modelo é do pesquisador, que deve sempre se basear
na literatura. Entretanto, deve-se ter em mente os efeitos destas variáveis sobre o modelo:
◦ O aumento das variáveis independentes pode gerar colinearidade.
◦ Por outro lado, ao não incluir variáveis de controle relevantes, eleva-se o risco de endogeneidade.
Regressão linear múltipla
Um exemplo prático: Um estudo com 100 empresas de grande porte visa estabelecer a relação
do número de patentes depositadas (dependente) com o faturamento e o valor de mercado da
empresa em milhões de reais (independentes). A análise de regressão reportou o seguinte
modelo:
◦ O intercepto (2) indica que empresas com faturamento e valor 0 tem, em média 2 patentes depositadas;
◦ O coeficiente (0,02) indica que para cada R$ 1 milhão de faturamento, em média, há um acréscimo de
0,02 patentes depositadas, ou que a cada R$ 50 milhões de faturamento há um acréscimo de uma
patente depositada pela empresa;
◦ O coeficiente (0,05) indica que para cada R$ 1 milhão de valor, em média, há um acréscimo de 0,05
patentes depositadas, ou que a cada R$ 50 milhões de faturamento há um acréscimo de uma patente
depositada pela empresa;
Regressão linear múltipla
𝑃𝑎𝑡𝑒𝑛𝑡𝑒𝑠 𝑑𝑒𝑝𝑜𝑠𝑖𝑡𝑎𝑑𝑎𝑠 = 2 + 0,02 ∗ 𝐹𝑎𝑡𝑢𝑟𝑎𝑚𝑒𝑛𝑡𝑜 + 0,05 ∗ 𝑉𝑎𝑙𝑜𝑟
◦ A partir do modelo, podemos “prever” o número de patentes de uma empresa de acordo com seu
faturamento e valor. Por exemplo, se uma empresa A apresenta um faturamento de R$ 100 milhões e
valor de mercado de R$ 20 milhões, o modelo prevê que terá depositada 4 patentes: Ŷ = 2 + 0,02 ∗
100.000.000 + 0,05 ∗ 20.000.000;
◦ O resíduo (𝜀), neste caso, é a diferença entre o número real de patentes da empresa. Se por exemplo, a
empresa A tiver na verdade 3 patentes depositadas, o resíduo da regressão para esta empresa é - 1.
Pressupostos da análise de regressão
A análise de regressão, assim como outras técnicas paramétricas, deve atender a alguns
pressupostos para que seus resultados sejam confiáveis.
Os resíduos (erros) do modelo devem ter as seguintes propriedades:
◦ Distribuição normal (principalmente para amostras pequenas).
◦ Homoscedasticidade em relação às variáveis independentes;
◦ Ausência de autocorrelação serial (quando os dados estão dispostos em “painel”);
Quando se tratar de análise de regressão múltipla deve-se observar as associações entre estas
variáveis:
◦ Ausência de colinearidade entre pares de variáveis independentes;
◦ Ausência de multicolinearidade entre todas as variáveis independentes.
Pressupostos da análise de regressão
Os softwares estatísticos normalmente dispõe de testes para identificar problemas relacionados
à quebra de pressupostos da análise de regressão (não normalidade dos resíduos,
heterocedasticidade dos resíduos, autocorrelação serial dos resíduos e colinearidade entre
variáveis independentes)
Para corrigir estes problemas, pode-se realizar alguns procedimentos
◦ O pressuposto da normalidade dos resíduos pode ser relaxado para amostras grandes;
◦ Alguns programas de estatística apresentam correções para problemas de autocorrelação e
heterocedasticidade dos resíduos;
◦ Na presença de colinearidade, o pesquisador deve excluir uma das variáveis que apresenta este
problema.
Algumas informações adicionais
Alguns pontos discutidos em aulas passadas devem ser observados na análise de regressão:
◦ Observações atípicas, que apresentem variáveis ou resíduos com valores muito discrepantes, podem
estar afetando os resultados, o que requer cuidado por parte do pesquisador;
◦ Características qualitativas (nominais ou ordinais) podem ser incluídas no modelo na forma de variáveis
binárias;
◦ O efeito conjunto de duas ou mais variáveis pode ser mensurado por meio de variáveis interativas (𝑋1 ∗
𝑋2);
◦ Estatística descritiva e testes de hipóteses bivariáveis (entre variáveis dependentes e independentes)
podem auxiliar muito na análise dos resultados da regressão.
◦ A análise de regressão, como outras técnicas estatísticas, não deve ser realizada sem uma
fundamentação teórica que sustente a relação esperada entre variáveis dependentes e independentes.