Você está na página 1de 7

Método dos mínimos quadrados

Assim, a estatística dispõe de inúmeras ferramentas que relacionam duas ou mais variáveis
permitindo a construção de modelos de análise e interpretação de dados. Neste âmbito,
importa explicar os modelos de regressão linear que, tradicionalmente, são os modelos que
permitem construir uma representação gráfica da relação entre duas variáveis X e Y, através de
uma recta crescente ou decrescente. Para tal, estes modelos apoiam-se no método dos
mínimos quadrados que, essencialmente, ajusta a recta e apresenta a que melhor espelha a
relação linear entre as duas variáveis que se pretendam estudar.

Portanto, no presente trabalho abordar-se-á sobre o método dos mínimos quadrados, numa
abordagem de regressão linear. O objectivo deste trabalho é caracterizar este método, visando
identificar e analisar os pontos de estimação e previsão e, portanto, explicar a relevância do
mesmo na formulação da equação da linha de regressão. Este trabalho foi realizado através de
pesquisa bibliográfica, incrementada com material consultado por via de internet, no sentido
de garantir coerência e objectividade no desenvolvimento do mesmo.

Adiante, Hoffmann (2006) define a regressão linear como a função que ilustra as alterações de
Y considerando a variável X. Associado a análise de regressão, o diagrama de dispersão que,
Para Larson e Farber (2010) e Kazmier (2004) é a representação gráfica dos pares ordenados
de X e Y, apresentados sob forma de pontos.

Mas segundo Kazmier (2004), para modelar os dados da melhor forma, é necessário
determinar o tipo de relação que as variáveis partilham e, assim, o autor afirma que a
correlação mede até que ponto duas variáveis podem estar relacionadas.

Explicando, Larson e Farber (2010) destacam que os pares ordenados de x e y podem ser
representados num diagrama de dispersão, no sentido de verificar se existe uma correlação
linear entre as variáveis e, fundamentalmente, o tipo de correlação existente. Entretanto, os
mesmos autores mencionam que encontrar a correlação entre duas variáveis através do
diagrama de dispersão pode ser subentendido, ou seja, é relativo ao facto de que cada analista
poderá trazer um ponto de vista diferente. Por esta razão, referem que a forma mais adequada
e eficaz o nível de correlação linear entre duas variáveis é determinar o coeficiente de
correlação.

Portanto, Larson e Farber (2010), após testar o coeficiente de correlação, procede-se a


formulação de uma equação linear que enquadra da melhor forma os dados. Assim, a equação
da linha de regressão populacional é dada por: Y = β1 + β 2 X +ui
1
Neste contexto, Triola (2005) salienta que:
Afirmamos que a equação de regressão representa a recta que melhor se ajusta aos dados.
Descreveremos agora o critério usado para se determinar qual recta é a melhor. Esse critério se
baseia nas distâncias verticais entre os pontos de dados originais e a recta de regressão
(p.402).

Por conseguinte, o método dos mínimos, para Larson e Farber (2010), “é a linha de regressão,
também chamada de linha de melhor ajuste, é a linha para a qual a soma dos quadrados dos
resíduos é um mínimo” (p.409).

Entretanto, Hill, Griffiths e Judge (2010) refere que:


Este princípio afirma que para ajustar uma recta aos valores dos dados, devemos procurar a
recta tal que a soma dos quadrados das distancias verticais de cada ponto à recta seja a menor
possível. Tomam-se os quadrados das distancias para evitar que grandes distancia positivas
sejam canceladas pelas negativas (p.56).

Assim, é uma técnica estatística utilizada para ajustar e adequar a recta que representa um
conjunto de dados, fazendo com que a soma dos quadrados das diferenças entre os valores das
amostras observadas e os valores estimados seja a menor possível, ou seja, minimiza os
resíduos na distância entre esses dois pontos. Assim, Triola (2005) explica que “para uma
mostra emparelhada (x, y), um resíduo é a diferença ( y− ^y ¿ entre um valor amostral y
observado e o valor de ^y , que é o valor de y previsto pelo uso da equação da regressão”
(p.402).

Desta forma, esta equação da recta ajustada e amostral é representada da seguinte forma:
^y =mx+b

Onde: ^y representa os valores de Y previstos; 𝑚 representa o coeficiente de inclinação da recta


e 𝑏 é o intercepto de Y. Assim, Larson e Farber (2010) apresentam as seguintes expressões
para determinação destes dois últimos parâmetros:

m=
n ∑ xy−(∑ x)(∑ y )
2 2 b= y−m x=
∑ y −m ∑ x
n ∑ x −(∑ x) n n

Explicando, Hill, Griffiths e Judge (2010) dizem que os parâmetros y e x representam as


medias amostrais das observações de y e x. Relativamente aos resíduos, estes autores
apresentam a seguinte fórmula: e^ = y t −^y t , onde y t representam os valores de y observados e
^y t os valores de y estimados aplicando a expressão ^y =mx+b .

Adiante, Hill, Griffiths e Judge (2010) explicam que “considerando os valores amostrais de y
e x, aplicados na expressão resolvente de b 1 e b 2, obtém-se as estimativas dos mínimos
2
quadrados dos parâmetros b 2 (declive da recta) e b 1 (intercepto de y)” (p.61). Assim, os
pontos de estimação do método dos mínimos quadrados são os parâmetros m e b que,
essencialmente, representam os pontos desconhecidos da recta de regressão que permitem
estimar e prever os valores de y em função dos valores de x.

Por conseguinte, Hill, Griffiths e Judge (2010) afirmam que “as propriedades amostrais dos
estimadores acima (o valor esperado e variância) ilustram os intervalos de valores que b 1 e b 2
provavelmente tomarão. O conhecimento desses intervalos é importante porque o objectivo é
obter estimativas próximas dos verdadeiros valores dos parâmetros” (p.78). Portanto, uma vez
que as fórmulas para o cálculo das médias amostrais destes parâmetros já foram apresentadas,
Gujarati (2000) apresenta as seguintes fórmulas para variância:

^β = ∑ Xi 2 ×σ 2 ^β 2= σ2
onde, σ
2 ∑e
=
^2
1
n ∑ Xi
2
∑ Xi 2 n−2

Todavia, Gujarati (2000) destaca que o método dos mínimos quadrados estima os seus
parâmetros em função de dados amostrais e, deste modo, diferentes amostras produzem
diferentes estimativas. Assim, é necessário avaliar a qualidade da aproximação da recta
ajustada à realidade, ou seja, testar a precisão dos estimadores e, para tal, recorre-se ao erro
padrão das estimativas.

Mas para Triola (2005), “o erro padrão da estimativa é uma medida das diferenças (ou
distâncias) entre os valores amostrais de y observados e os valores preditos, que são obtidos
com o uso da recta de regressão” (p.410). Assim, o erro de estimativa compreende o valor
pelo qual se pode assumir um erro na previsão de intervalos de y em função do valor previsto
^y .

Portanto, Gujarati (2000) apresenta as seguintes expressões:

√ ∑ X i2 ×σ

^β 2= σ ∑ e^ 2
^β = onde, σ =
1
n ∑ X i2 √∑ X i
2
n−2

Portanto, o autor explica que quanto mais próximo o erro padrão ou desvio padrão da recta de
regressão, mais aproximada a realidade e aos valores verdadeiros a equação se encontra.
Associado aos pressupostos acima, Ribeiro (2014) realça que “as principais propriedades do
estimador b são: não enviesamento, linearidade e eficiência. Estas propriedades designam-se
exactas, uma vez que são verdadeiras qualquer que seja o número n de observações” (p.94).

3
Explicando, Gujarati (2000) afirma que estas propriedades integram a teoria de Gauss-
Markov, onde se considera que o coeficiente angular da recta de mínimos quadrados é o
estimador que melhor se aproxima do coeficiente angular da recta de regressão populacional.
Deste modo, Ribeiro (2014) afirma que “o estimador de MQ de β , b (m), condicionado ou não
por X, é não enviesado ou centrado. Assim, E ( b| X )=β ou E ( b ) =β . Pode, então, afirmar-se
que o não enviesamento de b garante que este estimador é correcto em média” (p.95).

Por outro lado, “o estimador b (m), condicionado por X, é linear em Y,


U 2 −U 1
^β 2=β 2 + → E ( b|X )= β , provando-se, assim, que o estimador é não enviesado. Para se
X 2 −X 1
ter linearidade, é indispensável supor que a matriz X é dada. Caso contrário, a matriz A é
estocástica e o estimador não é linear” (p.96).

Por fim, Gujarati (2000) explica que um estimador é eficiente quando “tem mínima variância
na classe de todos os estimadores lineares não-viesados; um estimador não-viesado é
conhecido com menor variância é conhecido como estimador eficiente” (p.62).

Exemplo: considere a relação entre a altura (em cm) e peso (em kg) de 12 estudantes
universitários:

Peso (kg) Altura xy x2 ^y e^ e^ 2


X (cm) Y
70 155 10.850 4.900 164,36 -9,36 87,6096
63 150 9.450 3.969 141,82 8,18 66,9124
72 180 12.960 5.184 170,80 9,20 84,64
60 135 8.100 3.600 132,16 2,84 8,0656
66 156 10.296 4.356 151,48 4,52 20,4304
70 168 11.760 4.900 164,36 3,64 13,2496
74 178 13.172 5.476 177,24 0,76 0,5776
65 160 10.400 4.225 148,26 11,74 137,8276
62 132 8.184 3.844 138,6 -6,60 43,56
67 145 9.715 4.489 154,70 -9,70 94,09
65 139 9.035 4.225 148,26 -9,26 85,7476
68 152 10.336 4.624 157,92 -5,92 35,0464
802 1.850 124.258 53.792 - - 677,7568
Fonte: Spiegel, 1993.

4
(12 ×124.258)−(802 ×1850) 1850 802
m= =3,22 b= −3,22× =−61,04
12× 53.792−643.204 12 12

Assim, a recta dos mínimos quadrados é dada por: ^y =3,22 X −61,04

2 677,7568
A variância será: σ = =67,77568 o erro padrão: σ =√ 67,77568=8,23
12−2

53.792
Assim, a variância dos parâmetros serão: ^β 1= ×67,77568=5,65
12×53.792

^β 2= 67,77568 =0,0013; o erro padrão será: ^β =


53.792 1
√53.792
12 ×53.792
× 8,23=2,37

^β 2= 8,23 =0,035
√53.792
Portanto, o aumento do peso dos estudantes em 1kg, estima-se aproximadamente um aumento
em 3,22 cm de altura em cada estudante e, deste modo, o erro padrão de estimativa ilustra que
a recta dos mínimos quadrados aproxima razoavelmente os valores a realidade.

Exercício proposto: encontre a equação da reta da regressão para o nível de rendimento e os


dados da percentagem de contribuição:

Nível de rendimento X Percentagem de contribuição Y


50 8
65 6
48 10
42 9
59 5
72 3
Fonte: Larson e Farber, 2010.

Assim, conclui-se que o método dos mínimos quadrados e um método eficiente para
construção da equação da linha de regressão, pois permite minimizar os resíduos das
distancias entre os pontos tabelados de X e Y e os pontos onde a recta passa. Deste modo,
importa salientar que para aplicar o método dos mínimos quadrados é necessário existir uma
relação linear satisfatória entre as variáveis que se pretendem estudar, pois esta dita se de
facto existe um relacionamento plausível e explicável entre X e Y.

Portanto, através deste método é possível estimar os parâmetros m e b permitindo prever os


valores de y e compara-los com os valores das amostras observadas e, com recurso as
5
estimativas pontuais (média, variância e desvio padrão), determinar se a recta que melhor
ajusta o conjunto de dados aproxima os resultados aos verdadeiros valores.

6
Referências Bibliográficas
Gujarati, D.N. (2000). Econometria básica. (3ª. ed.). São Paulo, Brasil: Pearson.
Hill, R.C., Griffiths, W.E. & Judge, G.G. (2010). Econometria. (3ª. ed.). São Paulo, Brasil:
Editora saraiva.
Hoffmann, R. (2006). Estatística para economistas. (4ª. ed.). São Paulo, Brasil: Pioneira
Thomson Learning.
Kazmier, L.J. (2004). Estatística aplicada à economia e administração. São Paulo, Brasil:
Pearson Makron Books.
Larson, R. & Farber, B. (2010). Estatística aplicada. (4ª. ed.). São Paulo, Brasil: Pearson
Prentice Hall.
Ribeiro, C.S. (2014). Econometria. Lisboa, Portugal: Escolar editora.
Spiegel, M.R. (1993). Estatística. (3ª. ed.). São Paulo, Brasil: Pearson Makron Books.
Triola, M.F. (2005). Introdução à Estatística. (9ª. ed.). Rio de Janeiro, Brasil: LTC editora.

Você também pode gostar