Você está na página 1de 9

Capítulo 5: Ajuste de curvas pelo método dos mínimos quadrados

1. Diagrama de dispersão
No capítulo anterior estudamos uma forma de lidar com funções
matemáticas definidas por uma tabela de valores. Frequentemente, no
entanto, estas tabelas são obtidas com base em dados experimentais
contendo erros inerentes ao método de medição utilizado.
Para ilustrar o problema, considere-se uma série de medições de
natureza física (xi,yi), i=0,...,n, onde cada yi foi obtido experimentalmente
e aproxima o valor de uma função no ponto xi, i.e., yi≅f(xi).
Estes valores podem representar-se num gráfico cartesiano formando
uma “nuvem de pontos”, a este gráfico chamamos diagrama de
dispersão.

Exemplo
90

80

70

60

50

40

30
20 40 60 80 100 120 140 160

Figura 1: Diagrama de dispersão

A relação funcional y=f(x) pode ser completamente desconhecida e a


sua forma sugerida pelo gráfico dos pontos, consistindo o problema na
procura da curva y=g(x) que melhor se ajusta, num dado sentido, à
“nuvem de pontos” observada. Nestas condições a função g(x) diz-se uma
aproximação da relação funcional desconhecida y=f(x).

1
Como os valores tabelados não são “exactos” não é razoável nestes
casos utilizar interpolação, ou seja, exigir que a função aproximante
satisfaça exactamente os dados. De facto, em vez de recorrer a um
polinómio que passe exactamente por todos os pares de valores (xi,f(xi)),
i=0,..,n, uma melhor abordagem será a fazer passar a função aproximante,
g(x), o mais próximo possível dos pontos (xi,f(xi)), i=0,..,n.

2. Rectas de regressão. Coeficiente de determinação e resíduos


O modelo mais simples que relaciona duas variáveis x e y é dado por
y=β0+β1x
que é a equação de uma recta. β0 e β1 são os parâmetros do modelo.
Consideremos o seguinte diagrama de dispersão

-1

-2
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Figura 2: Diagrama de dispersão e recta ajustada

E consideremos uma recta arbitrária, y=β0+β1x, desenhada no diagrama.


A xi chamamos valor da variável explicativa ou independente e à imagem
de xi pela recta y=β0+β1x chamamos valor predito, que denotamos por ŷi ,
yi é o valor da variável resposta ou dependente.

2
A diferença entre yi e ŷi , i.e., d i = yi − yˆ i chama-se desvio e é a
distância vertical do ponto à linha recta. Se consideramos a soma dos
quadrados dos desvios anteriores, i.e.,
n
D= ∑ d i2
i =1

obtemos uma medida do desvio total dos pontos observados à recta


estimada.
A medida anterior depende da recta considerada, ou seja depende de β0
e β1. Assim, podemos escrever
n n
D ( β 0 , β1 ) = ∑ d i2 = ∑ ( yi − yˆ i ) 2
i =1 i =1

n n
ou ainda, D ( β 0 , β1 ) = ∑ d i2 = ∑ ( yi − ( β 0 + β1 xi )) 2 .
i =1 i =1

Pretendemos então os valores de β0 e β1 que minimizem D(β0, β1), i.e.,


pretendemos o valo mínimo de D(β0, β1).

Um modo de estimar os coeficientes β0 e β1 é determinar o mínimo da


função D(β0,β1) em relação a β0 e β1 e resolver as equações normais.
Temos então que:
n n
D ( β 0 , β1 ) = ∑ d i2 = ∑ ( yi − β 0 − β1 xi ) 2
i =1 i =1

∂D( β 0 , β1 ) n
e = ∑ − 2( yi − β 0 − β1 xi )
∂β 0 i =1

∂D( β 0 , β1 ) n
= ∑ − 2 x i ( y i − β 0 − β 1 xi )
∂β1 i =1

3
Os valores de b0 e b1 para os quais a função D(β0,β1) apresenta um valor
mínimo são obtidos igualando as equações anteriores a zero, i.e.,
resolvendo as equações normais. Assim,
⎧ n ⎧n n
⎪− 2 ∑ ( yi − β 0 − β1 xi ) = 0 ⎪∑ yi − nb0 − b1 ∑ xi = 0
⎪ i =1 ⎪
(1) ⎨ ⇔ ⎨i =1 i =1

n n n n
⎪− 2 ( y x − β x − β x 2 ) = 0 ⎪ y x −b
⎪ ∑ i i ⎪∑ i i 0 ∑ xi − b1 ∑ xi = 0
2
0 i 1 i
⎩ i =1 ⎩i =1 i =1 i =1

⎧ n n
⎪ ∑ i 1 ∑ xi
y − b
⎪b = i =1 i =1
⎪⎪ 0 n
⎨ n n n n


⎪ n ∑ xi ∑ yi − b1 ∑ xi ∑ xi n
⎪ 1∑ i ∑ xi yi
2 i =1 i =1 i =1 i =1
− b x − = −
⎪⎩ i =1 n i =1

⎧ __________
⎪⎪
⇔ ⎨ ⎛⎜ n 2 1 ⎛ n ⎞ ⎞⎟
2 n 1 n n ⇔
⎪ 1 ⎜⎜ ∑ i n ⎜ ∑ i ⎟ ⎟⎟ ∑ i i n ∑ i ∑ yi
− b x − ⎜ x ⎟ = − x y + x
⎪⎩ ⎝ i =1 ⎝ i =1 ⎠ ⎠ i =1 i =1 i =1

⎧ __________
⎪ n n n

⎪ n ∑ i i ∑ i ∑ yi
x y − x
⇔⎨ ⇔
b1 = i =1 i =1 i =1
⎪ 2

n ⎛ n ⎞
n ∑ xi2 −⎜ ∑ xi ⎟
⎪ ⎜ ⎟
⎩ i =1 ⎝ i =1 ⎠

Temos então que


n n n n n
∑ yi − b1 ∑ xi n ∑ xi yi − ∑ xi ∑ yi
i =1 i =1 i =1 i =1 i =1
b0 = e b1 = 2
n n ⎛ n ⎞
n ∑ xi2 − ⎜⎜ ∑ xi ⎟⎟
i =1 ⎝ i =1 ⎠

4
n
n ∑ xi yi − n 2 x y
ou b0 = y − b1 x e b1 = i =1 ,
n
n∑ xi2 −n x
2 2

i =1

são as soluções dos sistema (1) sendo além disso os valores de β0 e β1 que
minimizam D(β0,β1).
Este método é conhecido pelo método dos mínimos quadrados, uma vez
que estamos a minimizar uma função quadrática.
A melhor recta, no sentido dos mínimos quadrados, que melhor se ajusta
aos dados do diagrama de dispersão é dada por: y=b0 + b1x.

Exemplo: Determinar a recta dos mínimos quadrados que melhor se


ajusta aos dados da tabela abaixo.
xi yi xi2 xiyi
1.3 2.0 1.69 2.6
3.4 5.2 11.56 17.68
5.1 3.8 26.01 19.36
6.8 6.1 46.24 41.48
8.0 5.8 64 46.4
∑ 24.6 22.9 149.5 127.54
Temos então que
5 × 127.54 − 24.6 × 22.9
b1 = ⇔ b1=0.522
5 × 149.5 − 24.6 2
22.9 − 0.522 × 24.6
e, b0 = ⇔ b0=2.012
5
A recta pedida é: y=2.012+0.522x.

Um modo de medir a qualidade do ajuste linear simples efectuado é


através do coeficiente de determinação dado por:

5
2
⎛ n 1 n n ⎞
⎜ ∑ xi yi − ∑ xi ∑ yi ⎟
⎜ n i =1 i =1 ⎟⎠
R2 = ⎝ i =1
⎛ n 2 ⎞⎛ n 2⎞
⎜ x 2 − 1 ⎛⎜ x ⎞⎟ ⎟⎜ y 2 − 1 ⎛⎜ y ⎞⎟ ⎟
n n
⎜⎜ ∑ i n ⎜ ∑ i ⎟ ⎟⎟⎜⎜ ∑ i n ⎜ ∑ i ⎟ ⎟⎟
⎝ i= ⎝ i =1 ⎠ ⎠⎝ i = ⎝ i =1 ⎠ ⎠

Note-se que 0≤R2≤1. Quanto mais próximo o coeficiente de


determinação estiver da unidade melhor será o ajuste.

Exemplo: Medir a qualidade do ajustamento efectuado no exemplo


anterior.
xi yi xi2 ŷi di di2 yi2
1.3 2.0 1.69 2.7 -0.7 0.49 4
3.4 5.2 11.56 3.8 1.4 1.96 27.04
5.1 3.8 26.01 4.7 -0.9 0.81 14.44
6.8 6.1 46.24 5.6 0.5 0.25 37.21
8.0 5.8 64 6.2 -0.4 0.16 33.64
∑ 24.6 22.9 149.5 3.67 116.33

Temos que
2
⎛ 24.6 × 22.9 ⎞
⎜127.51 − ⎟
R =
2 ⎝ 5 ⎠ ⇔R2=0.679
⎛ 1 2 ⎞⎛ 1 2⎞
⎜149.5 − 24.6 ⎟⎜116.33 − 22.9 ⎟
⎝ 5 ⎠⎝ 5 ⎠
ou seja, o ajuste efectuado é relativamente bom.

Outra maneira de verificar a adequação do modelo é comparar cada


valor observado yi com o respectivo valor predito pelo modelo ŷi , i é, os
resíduos
ri=yi- ŷi
onde ŷi é dado pela equação ŷ =b0+b1x.

6
Quando b0 e b1 são estimadores dos mínimos quadrados de β0 e β1 dados
por (2) então os desvios di são idênticos aos resíduos ri.

3. Ajuste linear múltiplo


Um modelo linear para relacionar uma variável resposta ou dependente
y com P+1 variáveis explicativas ou independentes é dado por:
Y=β0+β1x1+β2x2+...+βPxP
ou na forma matricial
⎡ y1 ⎤ ⎡ 1 x11 x12 ... x1n ⎤
⎢ y ⎥ ⎢1 x x22 ... x2n ⎥⎥
⎢ 2⎥ ⎢ 21
⎢ y3 ⎥ = ⎢ 1 x31 x32 ... x3n ⎥ ou Y=Xβ.
⎢ ⎥ ⎢ ⎥
⎢ ... ⎥ ⎢... ... ... ... ... ⎥
⎢⎣ yn ⎥⎦ ⎢⎣ 1 x P1 x P 2 ... x Pn ⎥⎦

Mostra-se, de maneira análoga à efectuada para o ajuste linear simples,


que o vector das estimativas do vector β que minimiza a soma dos
quadrados dos resíduos é a solução do sistema de equações lineares:
⎡ ∑ yi ⎤ ⎡ n ∑ x1i ∑ x 2i ... ∑ x Pi ⎤ ⎡ b0 ⎤
⎢ yx ⎥ ⎢ x 2 ⎥⎢ ⎥
⎢ ∑ i 1i ⎥ ⎢ ∑ 1i ∑ x1i ∑ x2i x1i ... ∑ x Pi x1i ⎥ ⎢ b1 ⎥
⎢ ∑ yi x2i ⎥ = ⎢ ∑ x2i ∑ x1i x2i
2
∑ x 2i ... ∑ x Pi x2i ⎥ ⎢ b2 ⎥
⎢ ⎥ ⎢ ⎥⎢ ⎥
⎢ ... ⎥ ⎢ ... ... ... ... ... ⎥ ⎢ ... ⎥
⎢⎣∑ yi x Pi ⎥⎦ ⎢⎣∑ x Pi ∑ x1i x Pi ∑ x2i x Pi ... ∑ x Pi ⎥⎦ ⎢⎣bP ⎥⎦
2

Conhecido por sistema de equações normais. A matriz do sistema anterior


é simétrica e tem solução única se det(XTX)≠0.
O coeficiente de determinação goza ainda das mesmas propriedades que
no caso linear e é dado por:
bT X T Y − nY 2
R =
2
Y T Y − nY 2

7
n
∑ ( yi − yˆ i )2
ou por R2 = 1 − i =1 onde ŷi é o valor estimado de yi pela
2
2 1 ⎛⎜ ⎞
n n
∑ i n ⎜ ∑ i ⎟⎟
y − y
i =1 ⎝ i =1 ⎠
equação ajustada.

4. Ajuste Polinomial
Um caso especial de ajuste linear múltiplo ocorre quando x1=x,
x2=x2,...,xP=xP. Neste caso a equação do modelo é dada por:
Y=β0+β1x+β2x2+...+βPxP
ou seja, estamos perante um ajuste polinomial, i.e., estamos a ajustar os
dados a um polinómio de grau P.

O sistema normal é agora dado por:


⎡ ∑ yi ⎤ ⎡ n ∑ xi ∑ xi2 ... ∑ xiP ⎤⎥ ⎡ b0 ⎤
⎢ ⎥ ⎢ ⎢ ⎥
⎢ ∑ y i xi ⎥ ⎢ ∑ xi ∑ xi2 ∑ xi3 ... ∑ xiP +1 ⎥ ⎢ b1 ⎥
⎢ ∑ yi xi ⎥ = ⎢ ∑ xi2
2
∑ xi3 ∑ xi4 ... ∑ xiP + 2 ⎥⎥ ⎢⎢ b2 ⎥⎥
⎢ ⎥ ⎢
⎢ ... ⎥ ⎢ ... ... ... ... ... ⎥ ⎢ ... ⎥
⎢∑ yi xiP ⎥ ⎢ x P ⎥ ⎢b ⎥
⎣ ⎦ ⎣∑ i ∑ xiP +1 ∑ xiP + 2 ... ∑ xi2 P ⎦⎣ P ⎦

O coeficiente de determinação e os resíduos determinam-se de modo


análogo ao caso do ajuste linear múltiplo.

5. Transformações de modelos não lineares


O procedimento anterior pode aplicar-se a qualquer modelo não linear
g(x) para o qual possam encontrar-se transformações de linearização, por
exemplo, X=X(x,y) e Y=Y(x,y) que transformem a curva y=g(x) numa
recta y=ax+b.

8
Exemplo: Ajustar os pontos da tabela abaixo à equação y=aebx.
xi yi ln(yi) xi ln(yi) xi2 ln2(yi)
0.1 5.9 1.77 0.177 0.01 3.1229
1.5 8.8 2.17 3.255 2.25 4.7089
3.3 12.0 2.48 8.184 10.89 6.1504
4.5 19.8 2.99 13.455 20.25 8.9401
5.0 21.5 3.07 15.35 25 9.4249
∑ 14.4 12.48 58.4 32.3572

Temos que y=aebx ⇔ ln(y)=b0+b1x com b0=ln(a) e b1=b. Então


5 × 40.421 − 14.4 × 12.48
b1 = ⇔ b1=0.2646
5 × 58.4 − 14.4 2
e, b0 = 2.496 − 0.2646 × 2.88 ⇔ b0=1.734.

Então,
ln(y)=1.734+0.2646x ⇔ y=e1.734e0.2646x ⇔ y=5.6633e0.2646x.

O coeficiente de determinação é dado por:


2
⎛ n 1 n n ⎞
⎜ ∑ xi ln( yi ) − ∑ xi ∑ ln( yi ) ⎟
⎜ ⎟
R2 = ⎝ i =1 n i =1 i =1 ⎠ ⇔
⎛n 2 ⎞⎛ 2⎞
⎜ 2 1 ⎛⎜ ⎞ ⎟⎜ 1⎛ ⎞
⎜ ∑ ln( yi ) ⎟ ⎟
n n n
∑ x − ∑ x ⎟ ∑ ln 2
( y ) −
⎜⎜ i
n ⎜⎝ i =1 ⎟⎠ ⎟⎟⎜⎜ i =
i i
n ⎜⎝ i =1 ⎟ ⎟⎟
⎝i= ⎠⎝ ⎠ ⎠

2
⎛ 1 ⎞
⎜ 40.421 − × 14.4 × 12.48 ⎟
R2 = ⎝ 5 ⎠ = 0.981
⎛ 1 2 ⎞⎛ 1 2⎞
⎜ 58.4 − (14.4) ⎟⎜ 32.3572 − (12.48) ⎟
⎝ 5 ⎠⎝ 5 ⎠

Ou seja, o ajuste efectuado é óptimo.

Você também pode gostar