Escolar Documentos
Profissional Documentos
Cultura Documentos
ESTATÍSTICOS
Introdução
Muitas vezes, quando estudamos fenômenos da natureza, não estamos
interessados em apenas avaliar variáveis sozinhas, isoladamente. Faz-se
necessário analisar variáveis conjuntamente, onde uma esteja corre-
lacionada à outra. Em alguns casos, há interesse, também, em realizar
projeções — por exemplo, projetar os gastos com limpeza em uma
empresa para o próximo ano.
Nesse capítulo, você estudará as características de um modelo de
regressão linear simples, avaliando sua significância e aplicando por meio
de recurso computacional.
A análise de dados bivariados (isto é, com duas variáveis) inicia-se ge-
ralmente com um gráfico de dispersão, que apresenta cada par de dados
observados (xi, yi) como um ponto em um gráfico X-Y. Esse diagrama fornece
uma indicação visual da intensidade da relação ou da associação entre as duas
variáveis (DOANE; SEWARD, 2014).
Com o diagrama de dispersão podemos verificar o comportamento dos
dados e, assim, optar ou não por realizar uma análise de regressão linear
simples, ou por algum outro ajuste.
A correlação entre essas duas variáveis pode ser direta, ou seja, a variável x
aumenta e explica o aumento da variável y. Ou inversa, ou seja, a variável x
aumenta e explica a diminuição da variável y.
Regressão linear simples 3
y y y
x x x
Correlação positiva Correlação negativa Nenhuma correlação
Coeficiente de correlação
A análise de correlação, cujo principal objetivo é medir a intensidade da asso-
ciação linear entre duas variáveis, está estreitamente relacionada à análise de
regressão, mas conceitualmente é muito diferente. O coeficiente de correlação
mede a força dessa associação (linear). Na análise de regressão, não estamos
interessados prioritariamente nessa medida. Em vez disso, buscamos estimar
ou prever o valor médio de uma variável com base nos valores fixos de outras
(GUJARATI; PORTER, 2011).
O resultado do coeficiente de correlação de Pearson varia entre –1 e 1:
quanto mais próximo de 1 ou de –1, mais forte será a correlação. Uma cor-
relação negativa indica uma correlação inversa, enquanto uma correlação
positiva indica uma correlação direta. A equação que calcula o coeficiente de
correlação é dada pela soma de quadrados de x, y e x · y.
4 Regressão linear simples
O critério que, hoje em dia, é usado quase que exclusivamente para definir
uma reta de “melhor” ajuste remonta à primeira metade do século XIX e ao
trabalho do matemático francês Adrien Legendre. Ele é conhecido como o
método dos mínimos quadrados. Da maneira como será utilizado aqui, esse
método requer que a reta que ajustamos aos dados tenha a propriedade de
ser mínima à soma dos quadrados das distâncias verticais dos pontos à reta
(FREUND, 2007).
Então, o coeficiente de correlação considera as distâncias dos pontos for-
mados pelos pares x, y em relação à reta que melhor se ajusta aos dados:
onde:
x y x·y x2 y2
2 14 28 4 196
5 16 80 25 256
7 21 147 49 441
9 25 225 81 625
Coeficiente de determinação
O coeficiente de determinação é um valor percentual que estipula o poder
explicativo da variável x sobre a variável y. Em programas que realizam a
análise de correlação e regressão, esse valor é apresentado como R-quadrado,
ou R2, ou, ainda, na regressão linear simples, por r2.
Na regressão linear simples, podemos resolver o coeficiente por mínimos
quadrados ordinários ou, então, somente elevar ao quadrado o valor do coe-
ficiente de correlação. Isso vale somente para a regressão bivariada:
r2 = (r)2
onde:
r é o coeficiente de correlação;
r2 é o coeficiente de determinação.
r2 = 0,97202 = 0,9448
Vale ressaltar que, no caso de uma correlação negativa, teremos a seguinte interpretação:
K% do aumento da variável x explica a queda da variável y, e o restante devido a
causas aleatórias ou a variáveis não inseridas no modelo.
Regressão linear simples 7
Reta de regressão
Ainda no diagrama de dispersão, vimos que existe uma reta que resume os
pontos dos pares (x, y).
O método dos mínimos quadrados ordinários é usado para estimar uma
regressão de maneira a assegurar o melhor ajuste. O ‘‘melhor’’ ajuste, nesse
caso, significa que o coeficiente angular e o intercepto são de tal forma que
os resíduos sejam os menores possíveis (DOANE; SEWARD, 2014):
yi = β0 + β1xi + εi
onde:
yi é a variável dependente;
xi é a variável independente;
β0 é o intercepto;
β1 é o coeficiente angular da reta;
εi é o erro.
Isso é possível quando utilizamos uma análise estatística para avaliar esse
modelo de regressão. Uma maneira mais rigorosa de validar uma equação
de regressão é pela análise de variância — ANOVA. Essa análise verifica,
primeiramente, os resíduos da variável y comparados aos valores esperados
para y( ), calculando-se, assim, as diferenças entre yi e .
Essas diferenças podem ser precipitadamente confundidas com os erros.
Mas não são. Os erros são as diferenças entre os valores de y e a reta verda-
deira, isto é, a reta dada pelos valores populacionais de β0 e β1 (que não são
conhecidos). As diferenças encontradas são entre os valores de e os dados pela
reta com os valores estimados (amostrais) de e . Não são, portanto, os
erros, mas os estimadores dos erros, ou simplesmente os resíduos da regressão
(SARTORIS, 2013).
A ANOVA é calculada com base na soma de quadrados de resíduos: a soma
de quadrados total (SQTotal), a soma de quadrados do resíduo (SQResíduos)
e a soma de quadrados explicados pela regressão (SQRegressão).
Na Figura 4, podemos verificar a tabela ANOVA para a validação do modelo
de regressão linear simples. O valor que nos interessa é o de F, pois essa é a
estatística de teste que verifica se a regressão é válida ou não. Se o valor F for
significativo (p < 0,05), indica que o modelo de regressão é estatisticamente
significativo e representa bem os dados amostrados, gerando, assim, projeções
confiáveis para a variável dependente.
A tabela ANOVA (Figura 5) foi gerada com o Excel, com a análise de dados
(ferramenta de análise VBA) e a ferramenta de análise Regressão.
3 Recursos computacionais
A análise de regressão linear simples poder ser realizada facilmente com a
habilitação de um suplemento do Excel, além de claramente poder ser rea-
lizada em quaisquer programas estatísticos, como SPSS, SAS, MINITAB,
entre outros.
Regressão linear simples 11
Idade Pitch
14 252 Hz
23 244 Hz
35 240 Hz
48 233 Hz
52 212 Hz
67 204 Hz
12 Regressão linear simples
Como, por meio do diagrama de dispersão, foi possível verificar que temos
um ajuste linear para esses dados, então, para criarmos um modelo linear
no R, utilizamos a função lm( ) da seguinte maneira, mostrada na Figura 7.
BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 9. ed. São Paulo: Saraiva, 2017.
DOANE, D. P.; SEWARD, L. E. Estatística aplicada à administração e economia. 4. ed. Porto
Alegre: Bookman, 2014.
FREUND, J. E. Estatística aplicada: economia, administração e contabilidade. 11. ed. Porto
Alegre: Bookman, 2007. E-book.
GODOY, M. C. Introdução aos modelos lineares mistos para os estudos da linguagem.
2019. Disponível em: https://doi.org/10.17605/OSF.IO/9T8UR. Acesso em: 4 ago. 2020.
GUJARATI, D. N.; PORTER, D. C. Econometria básica. 5. ed. Porto Alegre: AMGH, 2011.
SARTORIS, A. Estatística e introdução à econometria. 2. ed. São Paulo: Saraiva, 2013.
WINTER, B. Linear models and linear mixed effects models in R with linguistic applications.
2013. Disponível em: http://arxiv.org/pdf/1308.5499.pdf. Acesso em: 4 ago. 2020.
Leitura recomendada
HAIR JR., J. F. et al. Análise multivariada de dados. 6. ed. Porto Alegre: Bookman, 2009.
16 Regressão linear simples
Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a
rede é extremamente dinâmica; suas páginas estão constantemente mudando de
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade
sobre qualidade, precisão ou integralidade das informações referidas em tais links.