Você está na página 1de 18

Análise de regressão

PESQUISA TECNOLÓGICA QUALITATIVA E QUANTITATIVA


Análise multivariada
Até aqui vimos os principais testes de hipótese relativos a análise univariada (uma variável) e
bivariada (associação entre duas variáveis)
Quando precisamos analisar relações entre mais de duas variáveis precisamos recorrer a
técnicas estatísticas mais complexas, denominados de análise multivariada.
A análise multivariada compreende dois grupos de técnicas estatísticas:
◦ Testes de dependência: buscam relações entre uma ou mais variáveis dependentes e uma ou mais
variáveis independentes;
◦ Testes de interdependência: buscam associações entre duas ou mais variáveis, sem definir quais destas
variáveis são dependentes ou independentes.

Na nossa disciplina vamos explorar três técnicas de análise multivariada:


◦ Análise de regressão (dependência);
◦ Análise fatorial (interdependência);
◦ Análise de conglomerados (interdependência).
Análise de regressão
A análise de regressão é uma técnica estatística multivariada que pode ser utilizada para analisar
a relação entre uma única variável dependente métrica e uma ou mais variáveis
independentes.
◦ Variável dependente é a variável que está sendo prevista ou explicada pelo conjunto de variáveis
independentes;
◦ Variável independente é a variável selecionada pelo pesquisador como possível previsora ou explicativa
da variável dependente.

O objetivo da análise de regressão, portanto, é prever ou explicar o comportamento de uma


variável dependente a partir do conhecimento de uma ou mais variáveis independentes.
De acordo com o número de variáveis independentes, a análise de regressão pode ser simples
(uma variável independente) ou múltipla (duas ou mais variáveis independentes). Para melhor
ilustrar a análise de regressão, vamos explanar a teoria da regressão a partir da análise de
regressão simples. Depois falaremos sobre a análise de regressão múltipla.
O modelo teórico da regressão
A análise de regressão (simples) parte de um modelo teórico que o pesquisador deve ter
embasado na teoria, em que ele deve identificar as variáveis dependente (Y) e independente
(X):

𝑌 =𝑋+𝜀

◦ Y é a variável dependente;
◦ X é a variável independente;
◦ 𝜀 é o termo de erro (parcela de Y não explicada por X)
O modelo estatístico da regressão
A partir do modelo teórico formulado pelo pesquisador, a análise de regressão projeta uma
equação de primeiro grau (reta), composto por quatro parâmetros:

Ŷ = 𝛽0 + 𝛽1𝑋

◦ Ŷ é a variável dependente projetada pelo modelo estatístico;


◦ 𝛽0 é o intercepto (valor de Ŷ quando X é 0);
◦ 𝛽1 é o coeficiente angular da reta(inclinação da reta);
◦ X é a variável independente.

A modelagem mais utilizada para estimar os valores de 𝛽0 e 𝛽1 é a de mínimos quadrados ordinários, que
minimiza a soma dos erros quadrados da previsão (distância entre os pontos reais e a reta de regressão).
O modelo estatístico da regressão
Colocando a equação da análise de regressão no plano cartesiano, temos:
Interpretando o modelo de regressão
A equação projetada pela análise de regressão nos dá dois parâmetros estatísticos (𝛽0 e 𝛽1 ):

Ŷ = 𝛽0 + 𝛽1𝑋

◦ 𝛽0 é o intercepto da reta, e representa o valor da variável dependente previsto pelo modelo caso a
variável independente é 0;
◦ 𝛽1 é o coeficiente de regressão, e representa a variação da variável dependente para cada unidade da
variável independente. No caso de regressão múltipla, haverá um coeficiente para cada variável
independente;

O termo de erro (𝜀), também chamado de resíduo da equação, é diferença entre o Y (coletado
da amostra) real e o Ŷ projetado pelo modelo (resultante da equação 𝛽0 + 𝛽1𝑋):

𝑌– Ŷ = 𝜀
Interpretando o modelo de regressão
Um exemplo prático: Um estudo com 100 empresas de grande porte visa estabelecer a relação
do número de patentes depositadas (dependente) com o faturamento da empresa em milhões
de reais (independente). A análise de regressão reportou o seguinte modelo:

𝑃𝑎𝑡𝑒𝑛𝑡𝑒𝑠 𝑑𝑒𝑝𝑜𝑠𝑖𝑡𝑎𝑑𝑎𝑠 = 2 + 0,02 ∗ 𝐹𝑎𝑡𝑢𝑟𝑎𝑚𝑒𝑛𝑡𝑜

◦ O intercepto (2) indica que empresas sem faturamento tem, em média 2 patentes depositadas;
◦ O coeficiente (0,02) indica que para cada R$ 1 milhão de faturamento, em média, há um acréscimo de
0,02 patentes depositadas, ou que a cada R$ 50 milhões de faturamento há um acréscimo de uma
patente depositada pela empresa;
◦ A partir do modelo, podemos “prever” o número de patentes de uma empresa de acordo com seu
faturamento. Por exemplo, se uma empresa A apresenta um faturamento de R$ 100 milhões, o modelo
prevê que terá depositada 3 patentes: Ŷ = 2 + 0,02 ∗ 100.000.000;
◦ O resíduo (𝜀), neste caso, é a diferença entre o número real de patentes da empresa. Se por exemplo, a
empresa A tiver na verdade 4 patentes depositadas, o resíduo da regressão para esta empresa é 1.
Poder explicativo do modelo
Para verificarmos o quanto da variável dependente é explicada pelo modelo estatístico da
análise de regressão pode-se calcular o coeficiente de determinação do modelo (R2).
De forma semelhante ao coeficiente de correlação (R de Pearson), o R2 pode variar de 0 a 1.
◦ Por se tratar de um termo quadrático, o R2 nunca será negativo;
◦ Um R2 igual a zero indica que o modelo não explica nada da variável dependente;
◦ Um R2 igual a 1 indica que o modelo prevê com máxima precisão a variável dependente.
◦ Quanto maior o R2, maior o poder explicativo no modelo.

Quando se trabalha com mais de uma variável independente (regressão linear múltipla), o R2
deve ser ajustado, o quer normalmente os programas estatísticos fazem por padrão.
Poder explicativo do modelo
De acordo com os objetivos da análise de regressão, o poder explicativo do modelo poderá ser
mais relevante:
◦ Quando o propósito é de previsão, um modelo com maior R2 é mais relevante, pois prevê com maior
precisão a variável dependente;
◦ Quando o propósito é explicação, normalmente o maior interesse do pesquisador é ver o coeficiente de
regressão das variáveis independentes do que o poder explicativo do modelo.

Exemplo: um R2 de 0,700 indica que o modelo estatístico explica 70% da variância da variável
dependente, mas não fala nada sobre o impacto individual das variáveis independentes que
compõe o modelo.
Significância estatística da análise de
regressão
Para verificar os resultados de uma análise de regressão podem ser representativos da
população, precisamos verificar sua significância estatística.
Verificamos a significância do modelo completo (R2) através de um teste F:
◦ Hipótese nula: R2 é igual a zero
◦ Hipótese alternativa: R2 é maior do que zero

Para analisar a significância de cada coeficiente (𝛽0, 𝛽1) fazemos um teste de diferença de
médias (t) para uma amostra:
◦ Hipótese nula: O coeficiente é igual a zero
◦ Hipótese alternativa: O coeficiente é diferente de zero

Neste sentido, o modelo poderá ser generalizado para uma população se os testes F e t forem
estatisticamente significantes.
Regressão linear múltipla
A regressão linear múltipla apresenta a mesma estrutura conceitual da regressão linear simples,
com a diferença no número de variáveis independentes do modelo.
◦ Modelo teórico da regressão linear múltipla:

Y = 𝑋1 + 𝑋2 … + 𝑋𝑛 + 𝜀

◦ Modelo estatístico da regressão linear múltipla:

Ŷ = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 … + 𝛽𝑛 𝑋𝑛

Significância estatística do modelo de regressão linear múltipla:


◦ Para se verificar a significância estatística das variáveis independentes do modelo de regressão linear
múltipla são feitos testes t separadamente.
◦ O teste de significância do modelo (do R2) é feito de forma similar à regressão linear simples.
Regressão linear múltipla
Na prática os modelos de regressão linear múltipla são mais utilizados, por apresentar mais
robustez aos resultados da pesquisa.
As variáveis independentes do modelo de regressão linear múltipla com objetivos de explicação
podem ser divididas em dois grupos:
◦ Variáveis de interesse, que o pesquisador deseja medir o efeito sobre a variável dependente;
◦ Variáveis de controle, que são adicionadas ao modelo para dar mais robustez aos resultados.

A decisão de incluir variáveis adicionais ao modelo é do pesquisador, que deve sempre se basear
na literatura. Entretanto, deve-se ter em mente os efeitos destas variáveis sobre o modelo:
◦ O aumento das variáveis independentes pode gerar colinearidade.
◦ Por outro lado, ao não incluir variáveis de controle relevantes, eleva-se o risco de endogeneidade.
Regressão linear múltipla
Um exemplo prático: Um estudo com 100 empresas de grande porte visa estabelecer a relação
do número de patentes depositadas (dependente) com o faturamento e o valor de mercado da
empresa em milhões de reais (independentes). A análise de regressão reportou o seguinte
modelo:

𝑃𝑎𝑡𝑒𝑛𝑡𝑒𝑠 𝑑𝑒𝑝𝑜𝑠𝑖𝑡𝑎𝑑𝑎𝑠 = 2 + 0,02 ∗ 𝐹𝑎𝑡𝑢𝑟𝑎𝑚𝑒𝑛𝑡𝑜 + 0,05 ∗ 𝑉𝑎𝑙𝑜𝑟

◦ O intercepto (2) indica que empresas com faturamento e valor 0 tem, em média 2 patentes depositadas;
◦ O coeficiente (0,02) indica que para cada R$ 1 milhão de faturamento, em média, há um acréscimo de
0,02 patentes depositadas, ou que a cada R$ 50 milhões de faturamento há um acréscimo de uma
patente depositada pela empresa;
◦ O coeficiente (0,05) indica que para cada R$ 1 milhão de valor, em média, há um acréscimo de 0,05
patentes depositadas, ou que a cada R$ 50 milhões de faturamento há um acréscimo de uma patente
depositada pela empresa;
Regressão linear múltipla
𝑃𝑎𝑡𝑒𝑛𝑡𝑒𝑠 𝑑𝑒𝑝𝑜𝑠𝑖𝑡𝑎𝑑𝑎𝑠 = 2 + 0,02 ∗ 𝐹𝑎𝑡𝑢𝑟𝑎𝑚𝑒𝑛𝑡𝑜 + 0,05 ∗ 𝑉𝑎𝑙𝑜𝑟

◦ A partir do modelo, podemos “prever” o número de patentes de uma empresa de acordo com seu
faturamento e valor. Por exemplo, se uma empresa A apresenta um faturamento de R$ 100 milhões e
valor de mercado de R$ 20 milhões, o modelo prevê que terá depositada 4 patentes: Ŷ = 2 + 0,02 ∗
100.000.000 + 0,05 ∗ 20.000.000;
◦ O resíduo (𝜀), neste caso, é a diferença entre o número real de patentes da empresa. Se por exemplo, a
empresa A tiver na verdade 3 patentes depositadas, o resíduo da regressão para esta empresa é - 1.
Pressupostos da análise de regressão
A análise de regressão, assim como outras técnicas paramétricas, deve atender a alguns
pressupostos para que seus resultados sejam confiáveis.
Os resíduos (erros) do modelo devem ter as seguintes propriedades:
◦ Distribuição normal (principalmente para amostras pequenas).
◦ Homoscedasticidade em relação às variáveis independentes;
◦ Ausência de autocorrelação serial (quando os dados estão dispostos em “painel”);

Quando se tratar de análise de regressão múltipla deve-se observar as associações entre estas
variáveis:
◦ Ausência de colinearidade entre pares de variáveis independentes;
◦ Ausência de multicolinearidade entre todas as variáveis independentes.
Pressupostos da análise de regressão
Os softwares estatísticos normalmente dispõe de testes para identificar problemas relacionados
à quebra de pressupostos da análise de regressão (não normalidade dos resíduos,
heterocedasticidade dos resíduos, autocorrelação serial dos resíduos e colinearidade entre
variáveis independentes)
Para corrigir estes problemas, pode-se realizar alguns procedimentos
◦ O pressuposto da normalidade dos resíduos pode ser relaxado para amostras grandes;
◦ Alguns programas de estatística apresentam correções para problemas de autocorrelação e
heterocedasticidade dos resíduos;
◦ Na presença de colinearidade, o pesquisador deve excluir uma das variáveis que apresenta este
problema.
Algumas informações adicionais
Alguns pontos discutidos em aulas passadas devem ser observados na análise de regressão:
◦ Observações atípicas, que apresentem variáveis ou resíduos com valores muito discrepantes, podem
estar afetando os resultados, o que requer cuidado por parte do pesquisador;
◦ Características qualitativas (nominais ou ordinais) podem ser incluídas no modelo na forma de variáveis
binárias;
◦ O efeito conjunto de duas ou mais variáveis pode ser mensurado por meio de variáveis interativas (𝑋1 ∗
𝑋2);
◦ Estatística descritiva e testes de hipóteses bivariáveis (entre variáveis dependentes e independentes)
podem auxiliar muito na análise dos resultados da regressão.
◦ A análise de regressão, como outras técnicas estatísticas, não deve ser realizada sem uma
fundamentação teórica que sustente a relação esperada entre variáveis dependentes e independentes.

Você também pode gostar