Você está na página 1de 12

203

Captulo 13
Regresso linear e polinomial
Neste captulo, pretendemos ajustar retas ou polinmios a um conjunto de
pontos experimentais.
Regresso linear
A tabela a seguir relaciona a densidade (g/cm3) do sdio em funo da
temperatura (oC):
Temperatura (oC)
100
200
300
400
500
600
700
800

Densidade(g/cm3)
0,927
0,904
0,882
0,859
0,934
0,809
0,783
0,757

Quando representamos estes dados em grfico, do a impresso de ficar


numa reta que poderia ser traada com uma rgua "a olho". Porm, no caso
de os pontos estarem mais dispersos, o ajustamento a olho bastante
subjetivo e inexato. (Alm disso, ajustamento a olho requer que todos os
pontos estejam primeiramente colocados num grfico. No caso de, por
exemplo, 100 observaes, isto seria bastante tedioso.)
Nosso objetivo ajustar uma reta y = a + bx aos pontos do diagrama de
disperso, utilizando tcnicas matemticas. O famoso mtodo dos quadrados mnimos de Gauss responde pergunta "o que um bom ajustamento"
com as seguintes equaes para calcular os valores dos fatores a e b:
n

b=

( xi x )( yi y )

i =1

( xi x )2

(1)

i =1

a = y bx

1 n
1 n
As mdias de x e y so definidas por x = xi ; y = yi (2)
n i =1
n i =1

204
a = coeficiente linear da reta, b= coeficiente angular da reta
Apliquemos estas frmulas ao nosso exemplo:
C1:
D1:
E1:
E2:

=(A1-MDIA(A$1:A$8))*(B1-MDIA(B$1:B$8))
=(A1-MDIA(A$1:A$8))^2, copiar as frmulas at linha 8
=SOMA(C1:C8)/SOMA(D1:D8) (=b)
=MDIA(B1:B8)-E1*MDIA(A1:A8) (=a)

Na coluna G ficam os valores de y da reta de regresso


G1: =E$2+E$1*A1
Para fazer o grfico, deve-se levar em conta que temos de representar duas
sries de dados. Veja tambm o captulo 5, p. 63

(Se tiver instalado o programa tc2 que mencionei no ltimo captulo, poderia
aqui, em WORD, calcular a densidade de sdio para uma temperatura dada:
T=600
d=0,9536-2,4274E-04*T = 0,808 o que corresponde bem ao o valor da
tabela.)
hora de mencionar que o Excel, a partir do Excel 97, tem embutido uma
ferramenta que faz tudo o que acabamos de ver, s eleger Layout>Linha
de Tendncia com as suas opes, p. ex. a equao da linha e o valor de R2.

205
Mas, este assistente somente aparecer depois que voc selecionar um grfico,
em nosso caso Disperso Somente com Marcadores. As propriedades da linha,
como cor, estilo etc. podem ser variadas, s fazer clique sobre a linha e
selecionar Formatar Linha de Tendncia.
Mas, aqui no terminam as maravilhas estadsticas do Excel. Existe a funo
estadstica PROJ.LIN com a sintaxe PROJ.LIN(val_conhecidos_y; valconhecidos_x; constante; estatstica)
Para aplic-la, necessrio preencher as duas primeiras linhas na seguinte
janela.

A janela mostra j os fatores a e b da equao da reta de regresso. Se


colocarmos no ltimo campo 1 (=VERDADEIRO), veremos a seguinte tabela.

( preciso colocar nossos dados em outras clulas, por exemplo D1:E8, pois
temos selecionado o intervalo A1:B5 para os resultados estadsticos. A frmula
=PROJ.LIN(E1:E8;D1:D8;;1) uma frmula matricial e deve ser inserida
pressionando Ctrl+Shift+Enter.)

206
Os valores em A1 e B1 so, outra vez, a e b. A2 e B2 contm os valores do erro
padro dos coeficientes b e a. (a e b so funes dos valores experimentais yi.
Devido propagao dos erros, as incertezas nos yi influenciaro tambm os
valores de a e b. Suponhamos que as incertezas nos valores de x sejam
depreciveis.) Na clula A3 temos o valor de R2, o coeficiente de determinao.
Este valor deve ficar bem perto de 1 para que o ajustamento possa ser
considerado como sendo bom. R o coeficiente de correlao. Se R for igual a
1, existir uma correlao perfeita na mostra no haver diferena entre os
valores de y estimados e os valores reais. Em B3 temos o valor do erro padro
para a estimativa de y, ou o erro padro dos resduos. Este parmetro calculase com

2y

Em nosso caso resulta

1 n
=
( yi a bxi )2

n 2 i =1

(3)

y = y2 = 4,121E 6 = 0,00203

O parmetro b = (2b)0,5 em A2 calculamos com

b2

n y2
n

2
n xi xi
i =1
i =1
n

(4)

A frmula para Excel =8*0,000004121/((8*SOMA(D1:D8)-SOMA(A1:A8)^2))


e d b = 3,1324E-6.
O valor para a na clula B2 determinado com

a2 =

y2

xi2

i =1

(5)

onde D significa o denominador de (4). Resultado: a = 0,001582


Observe que temos tambm

a = b

1 n 2
xi
n i =1

(6)

Em A4 aparece a estadstica F, ou o valor de F observado. Com um TesteF


podemos determinar, se a relao observada entre as variveis dependentes e
independentes ocorre por acaso. Em B4 esto os graus de liberdade (nmero
dos valores experimentais numero de fatores, ou seja 8 2 = 6). A5 contm

207
a soma dos quadrados da regresso e B5 a soma residual dos quadrados.
n

Para sreg temos sreg = ( yi y )


i =1

e para sres temos sres = ( yi yi )

' 2

i =1

significa a mdia dos valores experimentais, y' um valor de y calculado, ou


seja y' = a + bx. Comparando estas frmulas com y, vemos que y =
(sres/(n-2)).
No exemplo anterior, o coeficiente de determinao, R2, 0,990, o que indica
uma forte relao entre variveis independentes e as densidades.
O coeficiente de determinao definido como R2 = 1- sres/sreg , o que d 12,426E-5/0,024747 = 0,9990.
Ento, quanto maior R2, melhor o ajuste da regresso aos dados observados.
Exemplo: Um estudante varia a temperatura de um gs quase ideal,
mantendo o volume constante. Para cada valor de temperatura, ele mediu a
presso em mm Hg. O estudante obteve os seguintes valores
Presso em mmHg
65
75
85
95
105

Temperatura em oC
-20
17
42
94
127

Devido equao dos gases ideais, PV = nRT, espere-se uma relao linear
entre os valores da tabela. Para confirmar esta suposio, fazemos um anlise
de regresso.

208

As entradas para a figura foram:


H5: =5*SOMA(C5:C9)-(SOMA(A5:A9))^2 (=D, denominador de (4) )
I5: =F7^2*SOMA(C5:C9)/H5 (= a2, a = desvio padro de a, ponto de
intercepo da reta com o eixo y, ou erro padro da intercepo)
O bloco A11:C22 contm os dados a desenhar. Na coluna C ficam os valores y
calculados com a equao de regresso. C11: =F$5+E$5*A11
O grfico fazemos com Inserir>Disperso>Somente com Marcadores.
Trata-se, neste exemplo, de um caso de extrapolao bastante duvidosa. O
zero absoluto encontra-se no intervalo a a = ( 263 18) C , de fato,
encontra-se a 273,15C. Os cinco valores de temperatura (valores de y)
deveriam ser marcados com barras de incerteza de ancho 2*6,7 = 13,4; 6,7
o desvio padro de y em F7. (Desvio padro = standard deviation).
o

O Excel com Linha de Tendncia no faz extrapolao

Regresso parablica
A tabela mostra os resultados experimentais correspondentes velocidade do
som em ar seca em funo da temperatura.
Temperatura em oC
0
10
20
30
40
50
60

velocidade em m/s
331
337
343
349
355
360
366

209
Se busca a equao de uma parbola que se ajuste em forma optimal (no
sentido dos mnimos quadrados) aos pontos experimentais.
A equao deve ser da forma y = a + bx + cx2 onde os 3 parmetros a,b,c
devem ser determinados.
Por meio de Linha de Tendncia obtemos o seguinte grfico

bvio que tambm houvssemos podido utilizar um ajuste linear, mas, no


fcil predizer a curva que se esconde detrs dos dados.
No seguinte exemplo, capacidade trmica especifica (em kJ/(kgK) de gua
em funo da temperatura em graus Celsius, vamos buscar um ajuste cbico
da forma y = a + bx + cx2 + dx3

Temperatura oC
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80

C em kJ/(kgK)
4,2177
4,2022
4,1922
4,1858
4,1819
4,1796
4,1785
4,1782
4,1786
4,1795
4,1807
4,1824
4,1844
4,1868
4,1896
4,1928
4,1964

210
85
90
95
100

4,2005
4,2051
4,2103
4,2160

A Linha de Tendncia produz o seguinte resultado (sem os ttulos nos eixos):

Se queremos determinar os coeficientes do polinmio com mais preciso,


podemos fazer um clculo direitamente a partir das equaes normais.
Trabalhando diretamente com as equaes normais
Na teoria da regresso por mnimos quadrados, vemos que se obtm os
parmetros a, b, c na equao y = a + bx + cx2 ou y = a1 + a2x + a3x2
resolvendo o seguinte sistema com respeito s incgnitas a1, a2, a3

a1n + a2 x + a3 x 2 = y
a1 x + a2 x 2 + a3 x3 = xy

(1)

a1 x 2 + a2 x3 + a3 x 4 = x 2 y
A soluo deste sistema, denominado equaes normais, fcil, pois podemos
escrever (1) em forma matricial MA = B com a soluo A = M-1B.
M-1 a matriz inversa da matriz M. A o vetor das incgnitas e B o vetor dos
lados direita, ou seja,

211

y Sy
a1

A = a2 e B = xy := Sxy

x 2 y Sx 2 y
a3

(2)

M uma matriz quadrada de ordem m = 3, dada por

M = Sx
2
Sx

Sx
Sx 2
Sx3

Sx 2

Sx3

Sx 4

(3)

Determinamos a inversa da matriz, outra vez, pela funo MATRIZ.INVERSO


com a Matriz: A15:D17, veja a seguinte planilha que vale para o ndice de
refrao de uma soluo de acar em gua. x = concentrao, y = ndice de
refrao n. Veja, tambm, captulo 10, p. 147.

M encontra-se no bloco A15:C17, a inversa M-1 fica em G15:I17. O vetor


soluo est em K15:K17. Ele foi calculado como produto matricial pela funo
MATRIZ.MULT: =MATRIZ.MULT(G15:I17;D15:D17), Ctrl+Shift+Enter
A15:
B15:
C15:
D15:

=CONT.NM(A1:A11);
A16: =A13;
=A13; B16: =C13; B17: =D13
=C13; C16: =D13; C17: =E13
=B13; D16: =F13; D17: =G13

A17: =C13

Finalmente, calculamos para um valor de x dado o valor do polinmio da


regresso:
y = 1,333 + 1,417E-3x + 6,195E-6x2

212
No captulo 9, pag. 121, desenvolvemos para o mtodo de Horner uma subrotina. Esta vez, utilizamos uma funo, para calcular os valores do polinmio:

Facilmente podemos inserir na planilha os dados da "velocidade do som em ar


seca em funo da temperatura" de acima (eliminando as linhas 10 e 11 na
planilha da Regresso polinomial), para obter a mesma funo que determinamos acima.
No ser muito difcil escrever o cdigo VBA para realizar os passos exercidos
na ltima planilha.
Calculamos, assim, as somas:

O seguinte cdigo cria as matrizes M e B

213

No programa completo dimensionamos, primeiro, cada matriz como matriz


dinmica (que uma matriz que se ajusta quantidade dos dados selecionados
e que, eventualmente, podemos recortar ou ampliar).
A planilha correspondente tem o seguinte aspecto

Os dados so os do exemplo da capacidade trmica especfica, veja acima. A


funo da regresso polinomial a chamamos de "RegressPoli" e ela deve ser
usada com Ctrl+Shift+Enter, pois uma frmula matricial. Na planilha temos
previsto um polinmio at n = 5, o que muito raro. Mas, o programa aceita
polinmios de qualquer grau.
Aqui vem, finalmente, a funo "RegressPoli":

214

Regresso com logaritmos

A planilha mostra a corrente em A de uma fotoclula em funo da distncia d


entre lmpada e clula. O primeiro diagrama parece exibir uma tendncia
hiperblica entre I e d. O grfico dos logaritmos mostra uma relao linear com
a equao log y = log a + blog x = 1,036 1,919x. (O diagrama direita foi
feito com Linha de Tendncia linear.)
A retransformao dos logaritmos para as unidades originais, nos d a equao
de uma funo de potncia: y = axb = 10,86Ax-1,92 10,9Ax-2, pois a =
101,036=10,87.

Você também pode gostar