Você está na página 1de 19

MÉTODOS

ESTATÍSTICOS

Juliane Silveira Freire da Silva


Regressão linear simples
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:

„„ Identificar as características de um modelo de regressão linear simples.


„„ Avaliar a significância do modelo de regressão linear simples.
„„ Aplicar a regressão linear simples com o uso de recurso computacional.

Introdução
Muitas vezes, quando estudamos fenômenos da natureza, não estamos
interessados em apenas avaliar variáveis sozinhas, isoladamente. Faz-se
necessário analisar variáveis conjuntamente, onde uma esteja corre-
lacionada à outra. Em alguns casos, há interesse, também, em realizar
projeções — por exemplo, projetar os gastos com limpeza em uma
empresa para o próximo ano.
Nesse capítulo, você estudará as características de um modelo de
regressão linear simples, avaliando sua significância e aplicando por meio
de recurso computacional.

1 Correlação e regressão linear simples


Duas variáveis podem correlacionar-se de diversas formas, pois o comporta-
mento dos dados pode aproximar-se de uma exponencial, de uma parábola,
de um logaritmo. Mas o modelo mais frequentemente utilizado é o de ajuste
linear, por meio do qual podemos resumir os dados de uma amostra em uma
reta e, posteriormente, realizar projeções, se o ajuste for significativo.
No modelo de regressão simples, temos duas variáveis: uma independente,
denominada de x, e uma dependente, y.
2 Regressão linear simples

Na literatura, os termos variável dependente e variável explicativa são


descritos de vários modos, conforme representado na Figura 1, a seguir.

Figura 1. Terminologias para variáveis x e y.


Fonte: Gujarati e Porter (2011, p. 44).

A análise de dados bivariados (isto é, com duas variáveis) inicia-se ge-
ralmente com um gráfico de dispersão, que apresenta cada par de dados
observados (xi, yi) como um ponto em um gráfico X-Y. Esse diagrama fornece
uma indicação visual da intensidade da relação ou da associação entre as duas
variáveis (DOANE; SEWARD, 2014).
Com o diagrama de dispersão podemos verificar o comportamento dos
dados e, assim, optar ou não por realizar uma análise de regressão linear
simples, ou por algum outro ajuste.
A correlação entre essas duas variáveis pode ser direta, ou seja, a variável x
aumenta e explica o aumento da variável y. Ou inversa, ou seja, a variável x
aumenta e explica a diminuição da variável y.
Regressão linear simples 3

Na Figura 2, podemos verificar graficamente uma correlação direta


(ou positiva), uma correlação inversa (ou negativa) e uma correlação inexistente,
por meio de representações das retas de regressão de cada um dos modelos.

y y y

x x x
Correlação positiva Correlação negativa Nenhuma correlação

Figura 2. Tipos de correlação linear.


Fonte: Freund (2007, p. 434).

Realizada essa análise gráfica e verificado o comportamento linear, pas-


samos a calcular a intensidade dessa correlação e o poder explicativo da
variável independente. Além de chegar à correlação, podemos estimar a reta
de regressão que resume os dados.

Coeficiente de correlação
A análise de correlação, cujo principal objetivo é medir a intensidade da asso-
ciação linear entre duas variáveis, está estreitamente relacionada à análise de
regressão, mas conceitualmente é muito diferente. O coeficiente de correlação
mede a força dessa associação (linear). Na análise de regressão, não estamos
interessados prioritariamente nessa medida. Em vez disso, buscamos estimar
ou prever o valor médio de uma variável com base nos valores fixos de outras
(GUJARATI; PORTER, 2011).
O resultado do coeficiente de correlação de Pearson varia entre –1 e 1:
quanto mais próximo de 1 ou de –1, mais forte será a correlação. Uma cor-
relação negativa indica uma correlação inversa, enquanto uma correlação
positiva indica uma correlação direta. A equação que calcula o coeficiente de
correlação é dada pela soma de quadrados de x, y e x · y.
4 Regressão linear simples

O critério que, hoje em dia, é usado quase que exclusivamente para definir
uma reta de “melhor” ajuste remonta à primeira metade do século XIX e ao
trabalho do matemático francês Adrien Legendre. Ele é conhecido como o
método dos mínimos quadrados. Da maneira como será utilizado aqui, esse
método requer que a reta que ajustamos aos dados tenha a propriedade de
ser mínima à soma dos quadrados das distâncias verticais dos pontos à reta
(FREUND, 2007).
Então, o coeficiente de correlação considera as distâncias dos pontos for-
mados pelos pares x, y em relação à reta que melhor se ajusta aos dados:

onde:

„„ r é o coeficiente de correlação de Pearson;


„„ ∑x é o somatório das n observações de x;
„„ ∑y é o somatório das n observações de y;
„„ ∑xy é o somatório das n observações de x multiplicado por y;
„„ ∑x2 é o somatório de cada uma das n observações de x elevada ao
quadrado;
„„ ∑y2 é o somatório de cada uma das n observações de y elevada ao
quadrado;
„„ n é o número de pares x, y.

Observe, na Figura 3, a seguir, o intervalo de variação do coeficiente


de correlação, onde vamos desde a correlação perfeita inversa (r = –1) até a
correlação perfeita direta (r = 1).

Figura 3. Intervalo de variação do coeficiente de correlação.


Fonte: Doane e Seward (2014, p. 486).
Regressão linear simples 5

Vejamos, no Quadro 1, uma aplicação com 5 observações de uma amostra.

Quadro 1. Aplicação de uma amostra para o intervalo de variação do coeficiente de cor-


relação

x y x·y x2 y2

2 14 28 4 196

5 16 80 25 256

7 21 147 49 441

9 25 225 81 625

11 31 341 121 961

Soma 34 107 821 280 2479

Aplicando-se a fórmula, temos:

Desse resultado, podemos afirmar que a correlação linear entre as duas


variáveis é forte, pois se aproxima de 1. E esses dados têm uma correlação
direta, pois o resultado foi positivo. Conforme os valores de x aumentam,
os de y também aumentam.
6 Regressão linear simples

Coeficiente de determinação
O coeficiente de determinação é um valor percentual que estipula o poder
explicativo da variável x sobre a variável y. Em programas que realizam a
análise de correlação e regressão, esse valor é apresentado como R-quadrado,
ou R2, ou, ainda, na regressão linear simples, por r2.
Na regressão linear simples, podemos resolver o coeficiente por mínimos
quadrados ordinários ou, então, somente elevar ao quadrado o valor do coe-
ficiente de correlação. Isso vale somente para a regressão bivariada:

r2 = (r)2

onde:

„„ r é o coeficiente de correlação;
„„ r2 é o coeficiente de determinação.

Para os dados do exemplo anterior, temos:

r2 = 0,97202 = 0,9448

Nesse caso, teríamos que 94,48% do aumento na variável x explica o


aumento na variável y, e 5,52% devido a causas aleatórias ou a variáveis não
inseridas no modelo.

Vale ressaltar que, no caso de uma correlação negativa, teremos a seguinte interpretação:
K% do aumento da variável x explica a queda da variável y, e o restante devido a
causas aleatórias ou a variáveis não inseridas no modelo.
Regressão linear simples 7

Reta de regressão
Ainda no diagrama de dispersão, vimos que existe uma reta que resume os
pontos dos pares (x, y).
O método dos mínimos quadrados ordinários é usado para estimar uma
regressão de maneira a assegurar o melhor ajuste. O ‘‘melhor’’ ajuste, nesse
caso, significa que o coeficiente angular e o intercepto são de tal forma que
os resíduos sejam os menores possíveis (DOANE; SEWARD, 2014):

yi = β0 + β1xi + εi

onde:

„„ yi é a variável dependente;
„„ xi é a variável independente;
„„ β0 é o intercepto;
„„ β1 é o coeficiente angular da reta;
„„ εi é o erro.

Aqui será́ necessário, ainda, introduzir algumas suposições para as variáveis


aleatórias envolvidas. Supomos que a variável x é, por hipótese, controlada e
não está sujeita a variações aleatórias. Dizemos, primeiro, que x é uma variável
fixa (ou determinística); segundo, para dado valor de x, os erros se distribuem
ao redor da média β0 + β1x com média zero; terceiro, supomos que os erros
tenham a mesma variabilidade em torno dos níveis de x; e quarto, a restrição
de que os erros sejam não correlacionados (BUSSAB; MORETTIN, 2017).
Assim, definimos a estimativa da reta como:

O coeficiente angular e o intercepto são calculados, respectivamente, por:


8 Regressão linear simples

Então, voltando aos dados utilizados no exemplo, temos:

Assim, a reta de regressão resulta em:

Com isso, podemos estimar o valor de y para qualquer valor de x. Supo-


nhamos que, para um x = 20 o valor estimado para y seja:

Estes são os objetivos da análise de regressão: poder fazer previsões,


estimar valores da variável y para qualquer valor futuro ou desconhecido de x.

Em estatística, comumente utilizamos o símbolo “^” para representar estimativas


sempre que utilizamos dados amostrais.

2 Teste de significância para validação


do modelo
Temos como avaliar o modelo pelo coeficiente de correlação que mede a
intensidade e a direção da correlação. Podemos, também, calcular o poder
explicativo da variável x. Mas como saber se é possível considerar o modelo
escolhido como sendo significativo? Ou como avaliar quando um modelo
representa bem os dados ou não?
Regressão linear simples 9

Isso é possível quando utilizamos uma análise estatística para avaliar esse
modelo de regressão. Uma maneira mais rigorosa de validar uma equação
de regressão é pela análise de variância — ANOVA. Essa análise verifica,
primeiramente, os resíduos da variável y comparados aos valores esperados
para y( ), calculando-se, assim, as diferenças entre yi e .
Essas diferenças podem ser precipitadamente confundidas com os erros.
Mas não são. Os erros são as diferenças entre os valores de y e a reta verda-
deira, isto é, a reta dada pelos valores populacionais de β0 e β1 (que não são
conhecidos). As diferenças encontradas são entre os valores de e os dados pela
reta com os valores estimados (amostrais) de e . Não são, portanto, os
erros, mas os estimadores dos erros, ou simplesmente os resíduos da regressão
(SARTORIS, 2013).
A ANOVA é calculada com base na soma de quadrados de resíduos: a soma
de quadrados total (SQTotal), a soma de quadrados do resíduo (SQResíduos)
e a soma de quadrados explicados pela regressão (SQRegressão).
Na Figura 4, podemos verificar a tabela ANOVA para a validação do modelo
de regressão linear simples. O valor que nos interessa é o de F, pois essa é a
estatística de teste que verifica se a regressão é válida ou não. Se o valor F for
significativo (p < 0,05), indica que o modelo de regressão é estatisticamente
significativo e representa bem os dados amostrados, gerando, assim, projeções
confiáveis para a variável dependente.

Figura 4. Tabela ANOVA para o modelo de regressão simples.


Fonte: Bussab e Morettin (2017, p. 472).

Apesar de termos constatado uma correlação forte (r = 0,9720) e um poder


explicativo também alto (r2 = 0,9448), vamos verificar a significância desse
modelo encontrado e definido por:
10 Regressão linear simples

A tabela ANOVA (Figura 5) foi gerada com o Excel, com a análise de dados
(ferramenta de análise VBA) e a ferramenta de análise Regressão.

Figura 5. Tabela ANOVA.

Na análise de regressão, os resultados que nos são importantes são os


valores do coeficiente de correlação e do coeficiente de determinação.
Na tabela ANOVA, as somas de quadrados resultaram em uma estatística de teste
F = 51,38 e seu respectivo nível de significância p = 0,00559, que é inferior
ao nível de significância de 5% (α = 0,05). Isso comprova que o modelo é
significativo e representa bem os dados, sendo um bom modelo preditivo
para os dados.
Podemos observar, também, os valores do coeficiente angular e do inter-
cepto que também são significativos nesse modelo.
Quando realizamos um teste de hipóteses sobre o que ocorre nesses casos,
calculamos uma estatística de teste para testar as hipóteses. Caso a signifi-
cância do teste seja inferior ao nível de significância de 5% (α = 0,05), diz-se
que o teste é significativo, rejeitando a hipótese nula e assumindo que existe
regressão entre as variáveis.

3 Recursos computacionais
A análise de regressão linear simples poder ser realizada facilmente com a
habilitação de um suplemento do Excel, além de claramente poder ser rea-
lizada em quaisquer programas estatísticos, como SPSS, SAS, MINITAB,
entre outros.
Regressão linear simples 11

Aqui, veremos os comandos necessários para rodar a ANOVA para a


validação do modelo de regressão pelo software R.
Para instruções sobre a instalação do software, que é livre, e saber um pouco
mais sobre alguns comandos básicos, existem vários tutoriais disponíveis.
Esse software é por linhas de programação.

Busque em seu navegador, no site do Studio-pubs, o texto “Primeiros passos para


instalação do software R”.

Para exemplificar a sintaxe do R para a análise de regressão linear simples,


vamos adaptar o tutorial disponível em português, por Godoy (2019).
No Quadro 2, será apresentada apenas a sintaxe para a análise de regres-
são e feito o teste ANOVA, bem como a identificação da reta de regressão
do coeficiente de determinação e da significância do modelo de regressão.
Os dados utilizados são os disponíveis em Bodo Winter (2013).

Quadro 2. Dados utilizados na análise de regressão linear simples

Idade Pitch

14 252 Hz

23 244 Hz

35 240 Hz

48 233 Hz

52 212 Hz

67 204 Hz
12 Regressão linear simples

O diagrama de dispersão para esses dados indica uma correlação inversa


para as duas variáveis, onde a variável independente é a idade, e a variável
dependente é o pitch.
Os comandos necessários para a leitura dos dados são os mostrados na
Figura 6, a seguir.

Figura 6. Comandos para leitura de dados em R.


Fonte: Godoy (2019, documento on-line).
Regressão linear simples 13

Como, por meio do diagrama de dispersão, foi possível verificar que temos
um ajuste linear para esses dados, então, para criarmos um modelo linear
no R, utilizamos a função lm( ) da seguinte maneira, mostrada na Figura 7.

Figura 7. Comandos para criação de um modelo linear em R.


Fonte: Godoy (2019, documento on-line).
14 Regressão linear simples

É possível ver os valores ajustados e os resíduos. Agora, na Figura 8, vamos


às funções para determinar a equação da reta, o coeficiente de determinação
e o teste ANOVA.

Figura 8. Resultados da regressão do modelo linear em R.


Fonte: Godoy (2019, documento on-line).
Regressão linear simples 15

Esses resultados mostram que o modelo é significativo, pois o nível de


significância para o modelo (p-value) igual a 0,004395 é inferior ao nível de
significância de 5%. Assim sendo, a equação da reta apresenta o intercepto e
o coeficiente angular significativos, que resultam na reta:

A análise ainda apresenta o valor do coeficiente de determinação r2 = 0,8937.


Independentemente do software utilizado, a resposta será a mesma. O que
muda de um para outro é a maneira de realizar o teste com os comandos a
serem utilizados e a formatação da saída do resultado dos modelos de regressão
linear simples.
Os modelos de regressão linear simples podem ser calculados manualmente
ou com a ajuda de pacotes computacionais. Esses modelos podem solucionar
vários problemas na ciência de dados. Porém, algumas vezes, é necessário
estudarmos mais de uma variável para explicar um modelo linear. A partir
daí, utilizaremos a regressão linear multivariada.

BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 9. ed. São Paulo: Saraiva, 2017.
DOANE, D. P.; SEWARD, L. E. Estatística aplicada à administração e economia. 4. ed. Porto
Alegre: Bookman, 2014.
FREUND, J. E. Estatística aplicada: economia, administração e contabilidade. 11. ed. Porto
Alegre: Bookman, 2007. E-book.
GODOY, M. C. Introdução aos modelos lineares mistos para os estudos da linguagem.
2019. Disponível em: https://doi.org/10.17605/OSF.IO/9T8UR. Acesso em: 4 ago. 2020.
GUJARATI, D. N.; PORTER, D. C. Econometria básica. 5. ed. Porto Alegre: AMGH, 2011.
SARTORIS, A. Estatística e introdução à econometria. 2. ed. São Paulo: Saraiva, 2013.
WINTER, B. Linear models and linear mixed effects models in R with linguistic applications.
2013. Disponível em: http://arxiv.org/pdf/1308.5499.pdf. Acesso em: 4 ago. 2020.

Leitura recomendada
HAIR JR., J. F. et al. Análise multivariada de dados. 6. ed. Porto Alegre: Bookman, 2009.
16 Regressão linear simples

Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a
rede é extremamente dinâmica; suas páginas estão constantemente mudando de
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade
sobre qualidade, precisão ou integralidade das informações referidas em tais links.

Você também pode gostar