Apostila 2

Introdução à Física Computacional
Apostila preparada para a disciplina de Modelos Com-

putacionais da Física I, ministrada para o Curso de Li-
cenciatura em Física do Departamento de Física, Ins-
tituto de Física e Matemática, Fundação Universidade
Federal de Pelotas, Pelotas - RS.
Início: Outubro de 2006. Versão: 22 de julho de 2009

Sumário
Referências Bibliográficas iii
1 Representação de Números e Erros 1

1.1 Fontes de erros e incertezas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Representação de números em diferentes bases . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2.1 Representação de números inteiros e conversões de base . . . . . . . . . . . . . . . . . 2
1.2.2 Representação de números reais e conversões de base . . . . . . . . . . . . . . . . . . . 3
1.2.3 Conversão de números inteiros da base b para a base decimal . . . . . . . . . . . . . . 6
1.2.3.1 Algoritmo de Horner. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.3.2 Divisão de Ruffini. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.4 Conversão de números fracionários da base b para a base decimal . . . . . . . . . . . . 7
1.2.4.1 Algoritmo de Horner. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.4.2 Divisão de Ruffini. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Operações com números binários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.1 Adição binária . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2 Subtração binária . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.3 Multiplicação binária . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Representação de números em computadores digitais . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.1 Representação de números inteiros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.2 Representação de números reais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Erros na representação e na álgebra de ponto flutuante . . . . . . . . . . . . . . . . . . . . . . 13
1.5.1 Precisão e acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5.2 Erros absoluto e relativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.2.1 Erro absoluto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.2.2 Erro relativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.3 Erros na representação: arredondamento e truncamento . . . . . . . . . . . . . . . . . 14
1.5.4 Número de dígitos significativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.5 Erros na álgebra de ponto flutuante . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.5.1 Erros de arredondamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.5.5.2 Erros de truncamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.5.5.3 Análise de erros de ponto flutuante . . . . . . . . . . . . . . . . . . . . . . . 24
2 Derivação Numérica 27
2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 Fórmulas clássicas de diferença finita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.1 Fórmula de diferença adiantada (forward difference) . . . . . . . . . . . . . . . . . . . 27
2.2.2 Fórmula de diferença atrasada (backward difference) . . . . . . . . . . . . . . . . . . . 28
2.2.3 Fórmula de diferença centrada (centered difference) . . . . . . . . . . . . . . . . . . . . 28
2.2.4 Fórmula de 5 pontos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3 Fórmulas de diferenças finitas para a derivada segunda . . . . . . . . . . . . . . . . . . . . . . 30
2.3.1 Fórmula de três pontos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.2 Fórmula de cinco pontos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4 Fórmulas para o cálculo de derivadas em pontos fora da rede . . . . . . . . . . . . . . . . . . 30
2.4.1 Derivada de três pontos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4.2 Derivada de quatro pontos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4.3 Derivada de cinco pontos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5 Extrapolação de Richardson e estimativa de erro . . . . . . . . . . . . . . . . . . . . . . . . . 31
i
ii SUMÁRIO
3 Integração Numérica 37
3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Fórmulas de Newton-Cotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.1 Fórmulas fechadas de Newton-Cotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.1.1 Regra trapezoidal (N = 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.1.2 Regra de Simpson (N = 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2.1.3 Regra de Simpson dos 3/8 (N = 3) . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.1.4 Regra de Bode (N = 4) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.1.5 Regras em ordens mais altas (N > 5) . . . . . . . . . . . . . . . . . . . . . 42
3.2.2 Fórmulas abertas de Newton-Cotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2.3 Fórmulas fechadas estendidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2.3.1 Regra trapezoidal estendida . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2.3.2 Regra de Simpson estendida . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2.4 Estimativas de erro nas fórmulas de Newton-Cotes . . . . . . . . . . . . . . . . . . . . 45
3.3 Quadratura gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.3.1 Idéia básica na quadratura gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3.2 Fórmulas gaussianas clássicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3.2.1 Fórmula de Gauss-Legendre . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.2.2 Fórmula da Gauss-Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.2.3 Fórmula de Gauss-Laguerre . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.3.2.4 Fórmula de Gauss-Hermite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.4 Integração automática e adaptativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4.1 Integração de Romberg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.4.2 Integração automática usando quadraturas gaussianas . . . . . . . . . . . . . . . . . . 60
3.4.3 Integração adaptativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4 Soluções de Equações Não Lineares 63

4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2 Métodos iterativos para o cálculo de raízes reais . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2.1 Método da bisecção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.2 Método da falsa posição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2.3 Método da secante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2.4 Método de Newton-Raphson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.3 Raízes complexas de funções analíticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.3.1 O método de Müller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5 Problemas de Valor Inicial [Em Construção] 83

5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.2 Equações de diferenças finitas lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.3 Integração numérica por série de Taylor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.3.1 O método de Euler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.4 O Método de Runge-Kutta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.4.1 O Método de Runge-Kutta de segunda ordem ou o Método do ponto médio . . . . . . 87
5.4.2 O Método de Runge-Kutta de quarta ordem . . . . . . . . . . . . . . . . . . . . . . . . 88
5.5 Sistemas de equações diferenciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
Autor: Rudi Gaelzer – IFM/UFPel Versão: 22 de julho de 2009

Referências Bibliográficas
[1] Intel® fortran compiler for linux, http://www.intel.com/software/products/compilers/flin/docs/manuals.htm,

Acesso em: 01 jun. 2005.
[2] M. Abramowitz and I. A. Stegun, Handbook of mathematical functions, Dover, New York, 1970.
[3] S. D. Conte and C de Boor, Elementary numerical analysis. an algorithmic approach, third ed., Inter-
national series in pure and applied mathematics, McGraw-Hill, New York, 1980, 432 + xii pp.
[4] M. Cristina C. Cunha, Métodos Numéricos, segunda ed., Unicamp, Campinas, 2000, 216 pp.
[5] Rudi Gaelzer, Introdução ao Fortran 90/95, http://www.ufpel.edu.br/ rudi/grad/ModComp/Aposti-
la/Apostila.html, Pelotas, November 2006, 138 + vi pp.
[6] D. Goldberg, What every computer scientist should know about floating point arithmetic, ACM Com-
puting Surveys 23 (1991), 5–48.
[7] Sebastião Cícero Pinheiro Gomes, Métodos Numéricos: Teoria e Programação, FURG, Rio Grande,
1999, 190 pp.
[8] Joe D. Hoffman, Numerical methods for engineers and scientists, second ed., Marcel Dekker, New York,
2001, 823 + xi pp.
[9] Rubin H. Landau and Manuel José Páez Mejiá, Computational physics. Problem solving with computers,
John Wiley & Sons, New York, 1997, 511 + xviii pp.
[10] D. E. Müller, A method of solving algebraic equations using automatic computer, Mathematical Tables
and Other Aids to Computation 10 (1956), 208–215.
[11] Tao Pang, An introduction to computational physics, second ed., Cambridge University Press, New
York, 2006, 385 + xvi pp.
[12] W. H. Press, S. A. Teukolsky, W. T. Vetterling, and B. P. Flannery, Numerical recipes in fortran 90,
Fortran Numerical Recipes, vol. 2, Cambridge, New York, 1997, 552 pp.
[13] John R. Rice, Numerical Methods, Software, and Analysis, McGraw-Hill, New York, 1983, 483 + xii
pp.
[14] Germán Ramón Canahualpa Suazo, Apostila de Cálculo Numérico, DME - IFM - UFPel, Pelotas,
November 2004, 117 + vii pp.
[15] David M. Young and Robert Todd Gregory, A Survey of Numerical Mathematics, vol. I, Dover, New
York, 1988, 548 + x pp.
iii
iv REFERÊNCIAS BIBLIOGRÁFICAS

Capítulo 1
Representação de Números e Erros
Neste capítulo serão considerados aspectos básicos a respeito do cálculo numérico: a representação de
números inteiros e de ponto flutuante em código binário e as fontes de erros que invariavelmente ocorrem
quando se faz necessário usar uma representação finita para representar um número ou uma função mate-
mática que, em geral é transcendental e/ou necessita de uma soma ou produto infinito de números para ser
exatamente representado.
1.1 Fontes de erros e incertezas

Embora sempre se busque soluções “exatas” aos problemas que enfrentamos, raramente atingimos o nosso
objetivo. Erros e incertezas podem ser introduzidos em cada etapa da formulação e solução de problemas.
A natureza das incertezas que surgem quando se busca a solução de um problema será abordada neste
capítulo. Simultaneamente, os erros introduzidos pela computação numérica, destinada a buscar a solução
desejada, serão examinados com um certo grau de detalhe.
O processo de solução de um problema é dividido em três fases:
1. Formulação precisa de um modelo matemático e o seu modelo numérico relacionado.
2. Construção de um método destinado a resolver o problema numérico.
3. Implementação de um método para calcular a solução.
Na discussão que será feita a respeito das fontes de erro em cálculo numérico, não serão considerados erros
triviais que podem ser evitados, tais como copiar uma fórmula erroneamente ou realizar um erro de sintaxe
na programação, muito embora tais erros ocorram e perfaçam uma fração considerável do esforço e do tempo
dispendidos ao se trilhar as três fases mencionadas acima.
Neste capítulo estaremos somente interessados nos erros que resultam ser inevitáveis, dada a própria
natureza da representação finita de números em um computador e/ou da implementação numérica de um
determinado cálculo. As incertezas introduzidas contaminam a solução e é importante tentar-se balancear
as incertezas. Se a incerteza no modelo matemático é de 1%, então não faz sentido a implementação de um
modelo numérico e de um método que atinja 6 dígitos de precisão, por exemplo.
O diagrama da figura 1.1 ilustra o processo usualmente percorrido quando se busca uma solução para
um problema físico real a partir de uma modelagem, inicialmente matemática, seguida por uma modelagem
computacional e, finalmente, passando pela implementação do método numérico a partir da modelagem
computacional, seguida pela obtenção dos resultados. As incertezas ocorrem desde a fase de modelagem
matemática até a solução numérica. Neste capítulo, serão abordadas algumas fontes de incertezas na etapas
de modelagem computacional e implementação do método numérico.
1.2 Representação de números em diferentes bases

Nesta seção serão discutidos alguns métodos para a mudança de base na representação de números,
tanto inteiros quanto reais. É fato comum para grande parte dos computadores atualmente empregados
na modelagem computacional o emprego de uma base numérica distinta da base decimal, à qual o seres
humanos tendem a se apegar. Em geral, os números são armazenados na base 2 (binária), existindo ainda
plataformas que os armazenam na base 8 (octal) ou na base 16 (hexadecimal). A representação de números
inteiros é ligeiramente distinta da representação de números reais.
1
2 1.2. Representação de números em diferentes bases
Problema Real - Formulação dos Modelos @

I
Matemáti o e Numéri o @
@
@
? @
@
Construção do Método In ertezas
Implementação do Método

Solução
-
Figura 1.1: Diagrama que representa o processo de solução numérica de um problema físico real, indicando em que
etapas entram as incertezas.
1.2.1 Representação de números inteiros e conversões de base

De uma forma geral, um número inteiro N é representado, na base b, por um conjunto de dígitos ai ,
(i = 0, 1, 2, . . . ), sendo que ai assume um intervalo de valores determinado pela base em uso. A tabela 1.1
indica estes valores para as bases mais utilizadas, inclusive para a base decimal.
Há no mínimo duas maneiras de se representar o número N . O sistema posicional agrupa os dígitos
na forma de uma seqüência, na qual a magnitude da contribuição de cada dígito ao número depende da
posição relativa que este ocupa. Neste sistema, o número N é escrito como:
N = (an an−1 . . . a1 a0 )b .
A contribuição de cada dígito para o valor de N fica explicitada na forma polinomial, onde N é escrito
como:
N = an bn + an−1 bn−1 + · · · + a1 b + a0 . (1.1)
Até este momento, N tem sido tratado de uma forma abstrata. Por uma questão evolutiva, N tende a
ser visto como um número na base 10 (decimal),
N = (an an−1 . . . a1 a0 )10 ≡ an an−1 . . . a1 a0 .
Caso se passe a representar N sempre na base decimal, então deve-se abordar as outras representações do
ponto de vista de conversões de ou para a base 10.
Método das divisões sucessivas

Considera-se inicialmente a conversão de um inteiro da base decimal para a base binária, uma vez que
esta será a representação mais provável em um computador. Para realizar-se esta conversão de uma maneira
prática, pode-se usar o método das divisões sucessivas, no qual N e os sucessivos quocientes qi são divididos
por 2, sendo coletados os restos ri = 0, 1 até que o último quociente seja qn = 0, 1:
Tabela 1.1: Intervalos de valores para os dígitos ai da base b.

b ai
2 0, 1
8 0, 1, 2, 3, 4, 5, 6, 7
10 0, 1, 2, 3, 4, 5, 6, 7, 8, 9
16 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F

Capítulo 1. Representação de Números e Erros 3
N 2
r q
1
0 2
r q
2
1 2
r q
2 3
..
.
qn−1 2
rn−1 q
n
O último quociente (qn ) somente será 0 se N = 0. Então,
N = (qn rn−1 . . . r2 r1 r0 )2
ou
N = qn 2n + rn−1 2n−1 + · · · + r2 22 + r1 21 + r0 20 .
Como exemplos, temos
12 = (1100)2
25 = (11001)2
315 = (100111011)2 .
O mesmo método pode ser utilizado para converter N para qualquer base b; divide-se N e os sucessivos
quocientes qi por b até que o último quociente seja um inteiro 0 6 qn 6 b − 1:
N b
r q
1
0 b
r q
2
1 b
r q
2 3
..
.
qn−1 b
rn−1 q
n
Desta forma,
N = (qn rn−1 . . . r2 r1 r0 )b
= qn bn + rn−1 bn−1 + · · · + r2 b2 + r1 b1 + r0 b0 .
Assim,
12 = (14)8 = (C)16
25 = (31)8 = (19)16
315 = (473)8 = (13B)16 .
O programa 1.1 implementa o método das divisões sucessivas para a conversão de qualquer número
inteiro da base 10 para a base 2.
1.2.2 Representação de números reais e conversões de base

Dado agora um número real X, o qual possui uma parte inteira Xi e uma parte fracionária Xf = X −Xi ,
utiliza-se novamente o método das divisões sucessivas para Xi , enquanto que para Xf usa-se o Método das
Multiplicações Sucessivas: multiplica-se Xf por 2, extraindo-se a parte inteira do resultado (a qual pode
ser 0); o restante é novamente multiplicado por 2, repetindo-se o processo até que o resto fracionário seja
0 ou que se obtenha um padrão repetitivo, em cujo caso o número fracionário será periódico. Este método
será ilustrado com dois exemplos.
Programa 1.1: Converte um número da base 10 para a base 2. Caso o número seja negativo, o bit de sinal é utilizado.
program c o n v e r s o r
i m p l i c i t none
integer , parameter : : b a s e= 2
integer : : i , j , qn , rn , num , num_abs
real , parameter : : l o g 2= 0 . 6 9 3 1 4 7 1 8 0 5 5 9 9 4 5 3 0 9 4 2
integer , DIMENSION( : ) , ALLOCATABLE : : b
!
write ( ∗ , fmt= ’ ( a ) ’ , advance= ’ no ’ ) ’ Numero na b a s e 1 0 : ’
read ∗ , num
s e l e c t case (num)
case ( 0 )
allocate (b ( 1 ) )
b= 0
case (: −1)
!
! Nes te caso , o v e t o r i r a a l o c a r um d i g i t o a mais e a t r i b u i r o v a l o r 1
! ao u l t i m o d i g i t o , como convencao para s i n a l n e g a t i v o .
!
num_abs= abs (num)
j= l o g ( r e a l ( num_abs ) ) / l o g 2
allocate (b ( 0 : j + 1))
qn= num_abs
do i= 0 , j
rn= mod( qn , b a s e )
qn= qn/ b a s e
b ( j − i + 1)= rn
end do
b(0)= 1
case ( 1 : )
j= l o g ( r e a l (num) ) / l o g 2
allocate (b ( 0 : j ))
qn= num
do i= 0 , j
rn= mod( qn , b a s e )
qn= qn/ b a s e
b ( j − i )= rn
end do
end s e l e c t
j= s i z e ( b )
write ( ∗ , fmt= ’ ( "A forma b i n a r i a e : " ) ’ , advance= ’ no ’ )
do i= 1 , j − 1
write ( ∗ , fmt= ’ ( i 1 ) ’ , advance= ’ no ’ ) b ( i − 1 )
end do
write ( ∗ , fmt= ’ ( i 1 ) ’ ) b ( j − 1 )
!
end program c o n v e r s o r

Exemplo 1.1. Seja Xf = 0, 8125, então
0, 8125 0, 6250 0, 2500 0, 500

×2 ×2 ×2 ×2 .
1, 6250 1, 2500 0, 500 1, 0000
Ou seja,
0, 8125 = (0, 1101)2 .
O exemplos a seguir mostram a dificuldade de se obter a representação de um número fracionário em

outra base.
Exemplo 1.2. Um exemplo interessante é o número Xf = 0, 1. Neste caso,
0, 1 0, 2 0, 4 0, 8 0, 6 0, 2
×2 ×2 ×2 ×2 ×2 ×2 ···
0, 2 0, 4 0, 8 1, 6 1, 2 0, 4
e o processo de multiplicações sucessivas repete a seqüência de dígitos 0011 ad infinitum. Portanto,
0, 1 = (0, 0001100110011 . . . )2 .
Exemplo 1.3. Seja Xf = 0, 5225, então
0, 5225 0, 0450 0, 0900 0, 1800 0, 3600 0, 7200 0, 4400 0, 8800 0, 7600 0, 5200
×2 ×2 ×2 ×2 ×2 ×2 ×2 ×2 ×2 ×2
1, 0450 0, 0900 0, 1800 0, 3600 0, 7200 1, 4400 0, 8800 1, 7600 1, 5200 1, 0400
0, 0400 0, 0800 0, 1600 0, 3200 0, 6400 0, 2800 0, 5600 0, 1200 0, 2400 0, 4800
×2 ×2 ×2 ×2 ×2 ×2 ×2 ×2 ×2 ×2 .
0, 0800 0, 1600 0, 3200 0, 6400 1, 2800 0, 5600 1, 1200 0, 2400 0, 4800 0, 9600
Ou seja,
0, 5225 = (0, 10000101110000101000 . . . )2 .
Este exemplo mostra que em um computador, onde o espaço para representação de um número é finito, este
número terá que ser arredondado.
A forma polinomial de um número fracionário é dada por:
Xf = α1 2−1 + α2 2−2 + α3 2−3 + · · · .
Portanto, um número real X = Xi + Xf pode ser representado na base 2 por
X = an 2n + an−1 2n−1 + · · · + a0 20 + α1 2−1 + α2 2−2 + α3 2−3 + · · · .

= (an an−1 . . . a0 , α1 α2 α3 . . . )2 .
Exemplo 1.4. Seja X = 75, 8, temos
Xi = 75 = (1001011)2
e
Xf = 0, 8 = (0, 110011001100 . . . )2 .
Portanto,
75, 8 = (1001011, 110011001100 . . . )2 .
Para converter um número fracionário da base decimal para uma base b, também aplica-se o método das
multiplicações sucessivas, que, neste caso, consiste em multiplicar o número por b e extrair a parte inteira
(podendo ser 0). O resto fracionário é multiplicado novamente por b e a parte inteira é extraída. Este
processo deve ser repetido até sobrar o resto igual a 0 ou até se observar um padrão repetitivo.
1.2.3 Conversão de números inteiros da base b para a base decimal
Para introduzir a conversão para a base decimal, será usada novamente a base binária como um primeiro
exemplo. Seja o número N , representado por
N = (am · · · a2 a1 a0 )2 ,
a sua representação na base decimal pode ser obtida simplesmente pela soma do polinômio
N = am 2m + · · · + a2 22 + a1 21 + a0 .
A operacionalização desta soma pode ser obtida pelos seguintes algoritmos:
1.2.3.1 Algoritmo de Horner.

O número N pode ser obtido na base decimal através do cálculo da seqüência
bm = am ,
bm−1 = am−1 + 2bm ,
bm−2 = am−2 + 2bm−1 ,
.. .. ..
. . .
b1 = a1 + 2b2 ,
b0 = a0 + 2b1 .
E então,
N = b0 .
1.2.3.2 Divisão de Ruffini.

Equivalente ao método anterior, diferindo somente na disposição dos coeficientes ai e bi :
am am−1 ··· a2 a1 a0
2 2bm ··· 2b3 2b2 2b1
bm bm−1 ··· b2 b1 b0
e, novamente,
N = b0 .
Exemplo 1.5. Seja o número (11101)2 . Então, a partir da seqüência de Horner,
b4 = a4 = 1,
b3 = a3 + 2b4 = 1 + 2.1 = 3,
b2 = a2 + 2b3 = 1 + 2.3 = 7,
b1 = a1 + 2b2 = 0 + 2.7 = 14,
b0 = a0 + 2b1 = 1 + 2.14 = 29.
A partir da divisão de Ruffini,
1 1 1 0 1
2 2 6 14 28
1 3 7 14 29
Portanto,
(11101)2 = 29.
Esta metodologia pode ser generalizada para converter qualquer número inteiro na base b para a base
decimal. Considere o número
N = (am . . . a2 a1 a0 )b .
Usando o Algoritmo de Horner, por exemplo, temos a seqüencia
cm = am ,
cm−1 = am−1 + bcm ,
cm−2 = am−1 + bcm−1 ,
.. .. ..
. . .
c1 = a1 + bc2 ,
c0 = a0 + bc1
e, novamente,
N = c0 .
1.2.4 Conversão de números fracionários da base b para a base decimal

Considere um número fracionário com representação finita na base binária:
Xf = (0, α1 α2 . . . αn )2 .
O seu valor na base decimal será dado por
Xf = α1 2−1 + α2 2−2 + · · · + αn 2−n .
Esta soma pode ser calculada diretamente ou utilizando qualquer um dos dois métodos enunciados na seção
1.2.3, com algumas modificações.
1.2.4.1 Algoritmo de Horner.

No caso de um número fracionário, o algoritmo fica
bn = αn ,
1
bn−1 = αn−1 + bn ,
2
1
bn−2 = αn−2 + bn−1 ,
2
.. .. ..
. . .
1
b2 = α2 + b3 ,
2
1
b1 = α1 + b2 ,
2
1
b0 = b1 .
2
Então,
N = b0 .
1.2.4.2 Divisão de Ruffini.

No case de um número fracionário,
am am−1 ··· a2 a1 0
1 1 1 1 1
bm ··· b3 b2 b1
2 2 2 2 2
bm bm−1 ··· b2 b1 b0
Exemplo 1.6. O número (0, 10111)2 , pelo Algoritmo de Horner, fica
b5 = α5 = 1,
1 1 3
b4 = α4 + b5 = 1 + .1 = ,
2 2 2
1 1 3 7
b3 = α3 + b4 = 1 + . = ,
2 2 2 4
1 1 7 7
b2 = α2 + b3 = 0 + . = ,
2 2 4 8
1 1 7 23
b1 = α1 + b2 = 1 + . = ,
2 2 8 16
1 23
b0 = b1 = .
2 32
Portanto,
23
(0, 10111)2 =
= 0, 71875.
32
Uma outra situação que pode ocorrer é quando o número binário for infinito, por exemplo, através de
uma seqüência de dígitos periódicos:
Xf = 0, α1 α2 . . . αn β1 β2 . . . βm 2 ,

onde β1 β2 . . . βm indica que a seqüência de dígitos β1 β2 . . . βm se repete ad infinitum. Na base decimal, tal
número é dado por
Xf = α1 2−1 + α2 2−2 + · · · + αn 2−n + β1 2−n−1 + β2 2−n−2 + · · · + βm 2−n−m
+ β1 2−n−m−1 + β2 2−n−m−2 + · · · + βm 2−n−2m
+ β1 2−n−2m−1 + β2 2−n−2m−2 + · · · + βm 2−n−3m
+··· .
Observa-se que este número pode ser escrito como
Xf = α1 2−1 + α2 2−2 + · · · + αn 2−n + β1 2−1 + β2 2−2 + · · · + βm 2−m 2−n

+ β1 2−1 + β2 2−2 + · · · + βm 2−m 2−n−m

+ β1 2−1 + β2 2−2 + · · · + βm 2−m 2−n−2m

+ β1 2−1 + β2 2−2 + · · · + βm 2−m 2−n−3m

+··· ,
Xf = α1 2−1 +α2 2−2 +· · ·+αn 2−n + β1 2−1 + β2 2−2 + · · · + βm 2−m 2−n 1 + 2−m + 2−2m + 2−3m + · · · .

Usando agora a identidade,

1
= 1 + x + x2 + x3 + · · · , (para |x| < 1),
1−x
temos
1 2m
1 + 2−m + 2−2m + 2−3m + · · · = = ,
1 − 2−m 2m − 1
obtém-se
2m−n
Xf = α1 2−1 + α2 2−2 + · · · + αn 2−n + β1 2−1 + β2 2−2 + · · · + βm 2−m .
2m − 1
As duas expressões entre parênteses têm a mesma forma e podem ser calculadas diretamente usando
qualquer um dos métodos descritos anteriormente.
Exemplo 1.7. O número fracionário

Xf = 0, 11010 = (0, 11010010010 . . . )2

2
tem o seu valor na base decimal dado por
2 1 1 12 23

Xf = 1.2 −1
+ 1.2
−2
+ 0.2−1
+ 1.2 −2
+ 0.2
−3
= + + =

23 − 1 2 4 47 28
= 0, 8214285714285 · · · = 0, 82142857142.
Em geral, se o número fracionário tem representação infinita periódica na base b,
Xf = 0, α1 α2 . . . αn β1 β2 . . . βm b ,

então o seu valor decimal será dado por

bm−n
Xf = α1 b−1 + α2 b−2 + · · · + αn b−n + β1 b−1 + β2 b−2 + · · · + βm b−m ,
bm − 1
onde as expressões entre parênteses podem ser calculadas diretamente ou utilizando quaisquer um dos
métodos descritos anteriormente.
1.3 Operações com números binários
Como a maioria dos computadores usa a base b = 2, estes executam operações aritméticas em números
que estão na representação binária. Para tanto, as seguintes tabelas de operações são automaticamente
satisfeitas.
1.3.1 Adição binária

Uma adição no sistema binário é realizada da mesma forma que a adição no sistema decimal, lembrando
que, no sistema binário, há apenas 2 dígitos. Esta operação é realizada de acordo com a seguinte tabela de
adição:
+ 0 1
0 0 1
1 1 10
Para somar números com mais de 2 algarismos, o mesmo processo de transporte para a coluna posterior,
utilizado na adição decimal, é empregado. Por exemplo, se 1 = (01)2 e 3 = (11)2 , então
1 + 3 = (01)2 + (11)2 = (100)2 = 4.
Outro exemplo, se 10 = (1010)2 e 15 = (1111)2 , então
10 + 15 = (1010)2 + (1111)2 = (11001)2 = 25.
1.3.2 Subtração binária

A subtração é análoga à adição, sendo realizada de acordo com a tabela:
− 0 1
0 0 1
1 1 0
Deve-se ressaltar que a operação 0 - 1 resulta em 1, porém com o transporte de 1 para a coluna à esquerda,
que deve ser acumulado ao subtraendo e, por conseqüência, subtraído do minuendo. Por exemplo, se
7 = (111)2 e 4 = (100)2 , então
7 − 4 = (111)2 − (100)2 = (11)2 = 3.
Outro exemplo, se 10 = (1010)2 e 8 = (1000)2 , então
10 − 8 = (1010)2 − (1000)2 = (10)2 = 2.
1.3.3 Multiplicação binária

Procede-se como em uma multiplicação no sistema decimal, de acordo com a tabela de multiplicação:
× 0 1
0 0 0
1 0 1
Por exemplo, se 26 = (11010)2 e 2 = (10)2 , então
26 × 2 = (11010)2 × (10)2 = (110100)2 = 52.
A divisão binária é um procedimento um tanto mais complicado e não será abordado aqui.
1.4 Representação de números em computadores digitais

Nesta seção serão apresentadas algumas das representações usadas para armazenar números inteiros ou
reais na memória de um computador. As representações de números inteiros ou reais apresentadas na seção
1.2 não são suficientes; é necessário distingüir-se, por exemplo, o sinal do número. Como não existe a
representação de um sinal + ou − na memória de um computador, o recurso utilizado é acrescentar um bit
adicional, para computadores binários, ao número para representar o sinal. Este bit é denominado bit de
sinal.
10 1.4. Representação de números em computadores digitais
1.4.1 Representação de números inteiros
A representação mais direta de números inteiros é denominada Sinal-Módulo. Nesta representação, o
valor absoluto do número inteiro é obtido diretamente a partir dos algoritmos discutidos na seção 1.2,
enquanto que o sinal é representado por um dígito adicional colocado à esquerda do número. Quando a
representação é binária, o bit de sinal é dito ocupar a posição do bit mais significativo.
Então, supondo que a memória do computador disponha de q dígitos para a representação, um número
inteiro na base b será representado pelo computador através da seqüência de dígitos
aq−1 aq−2 . . . a1 a0 , (1.2)
sendo {a0 , a1 , . . . , aq−1 } ∈ {0, 1, . . . , b − 1}, com aq−1 representando o sinal do número. Esta seqüência de
dígitos é denominada palavra. Por exemplo, no sistema binário convenciona-se usar aq−1 = 0 para “+” e
aq−1 = 1 para “−”.
A conversão do número internamente representado por (1.2) para o sistema decimal é realizado através
de uma fórmula semelhante à forma polinomial (1.1):
q−2
X
N =s× ak × bk , (1.3)
k=0
sendo
• N o número inteiro na base decimal.
• s o sinal (ou +1 ou −1).
• q − 1 o número de dígitos disponível para representar o valor absoluto de N .
• b a base, às vezes denominada de radix (um inteiro maior que 1).
• ak um dígito válido na representação (0 6 ak < b), k = 0, 1, . . . , q − 1.
Os valores em questão para as quantidades em (1.3) dependem da arquitetura e do compilador em uso.
Exemplo 1.8. O compilador Intel Fortran 95 [1] possui 4 modelos de representação de inteiros com 1, 2,
4 e 8 bytes, também denominados de espécies. Sendo para todos os casos b = 2, o valor absoluto do maior
número inteiro que pode ser representado internamente para cada espécie Nmax p
, (p = 1, 2, 4, 8) é, a partir
de (1.3),
127, para p = 1;


8p−2 32.767, para p = 2;
X 
p
Nmax = 2k = 1 + 2 + 22 + · · · + 28p−2 = 28p−1 − 1 =
2.147.483.647, para p = 4;
k=0 

9.223.372.036.854.775.807, para p = 8.

Outras representações de números inteiros em computadores existem, como por exemplo as representa-
ções complemento de 1 ou complemento de 2 [15]; porém, estas não serão discutidas aqui.
A representação de um número inteiro em um computador é exata. Operações aritméticas entre números
inteiros também é exata, sob as seguintes condições:
1. o resultado não pode se encontrar fora do intervalo de números inteiros que podem ser representados;
2. a divisão somente pode ser realizada entre números exatamente divisíveis, isto é, a parte fracionária
deve ser nula.
1.4.2 Representação de números reais

A representação de números reais em computadores, também denominada representação de ponto flutu-
ante. Em uma representação de ponto flutuante, um número é representado internamente através de uma
notação científica, isto é, por um bit de sinal s (interpretado como positivo ou negativo), um expoente inteiro
exato e e uma mantissa inteira positiva M , sendo que um número limitado de dígitos é permitido para e e
M . Tomando todas estas quantidades juntas, estas representam o número
x = s × (0, d1 d2 . . . dn ) × be , (1.4)
s expoente de 8 bits mantissa de 23 bits

1 z}|{ z }| { z }| {
= 0 10000000 10000000000000000000000
2
3= 0 10000010 11000000000000000000000
1
= 0 01111111 10000000000000000000000
4
10−7 = 0 01101001 11010110101111111001010
Figura 1.2: Representações de ponto flutuante para alguns números em uma palavra típica de 32 bits (4 bytes).
Espécie REAL(4) REAL(8) REAL(16)

n 24 53 113
emin -125 -1021 -16381
emax 128 1024 16384
xmin 1, 1754944 × 10−38 2, 225073858507201 × 10−308 3, 362103143112093506 · · · × 10−4932
xmax 3, 4028235 × 1038 1, 797693134862316 × 10308 1, 189731495357231765 · · · × 104932
xeps 1, 1920929 × 10−7 2, 220446049250313 × 10−16 1, 925929944387235853 · · · × 10−34
Tabela 1.2: Valores de n, emin , emax , xmin , xmax e xeps para o compilador Intel Fortran.
o qual está escrito em uma forma legível para seres humanos. Além das quantidades já definidas, em (1.4)
os dígitos d1 , d2 , . . . , dn são limitados pela base b e o expoente é limitado ao intervalo emin 6 e 6 emax .
Adicionalmente, n > 1 é denominado de número de dígitos do sistema e define o tamanho da mantissa
M = 0, d1 d2 . . . dn .
Contudo, um computador somente pode representar os valores de e e E através de dígitos na base b. Um
computador digital (b = 2), por exemplo, dispõe sempre de um tamanho de palavra finito, isto é, o número
total de bits que podem ser utilizados para representar s (1 bit), a parte exponencial e a mantissa é sempre
fixo, para uma dada espécie de variável real. Um número real de precisão simples, por exemplo, é tipicamente
representado por uma palavra de 4 bytes ou 32 bits, sendo que 1 bit é utilizado para representar o sinal,
enquanto que 8 bits são utilizados para representar a parte exponencial, restando 23 bits para representar
a mantissa. Desta forma, tal número será representado na memória do computador como
x = se7 e6 e5 e4 e3 e2 e1 e0 d23 d22 . . . d2 d1 ,
onde {s, e0 , . . . , e7 , d1 , . . . , d23 } = {0, 1}. A figura 1.2 ilustra representações em 4 bytes de alguns números.
Uma descrição mais aprofundada acerca da representação binária de números em computadores digitais
pode ser obtida em [15, seção 2.5].
A conversão do número x representado em (1.4) para a base decimal pode ser realizada pela fórmula
polinomial
Xn
x = s × be × dk × b−k .
k=1
Como exemplo, a tabela 1.2 mostra os valores de n, emin e emax para o compilador Intel Fortran.
Para uma base b qualquer, denotando este sistema pelo símbolo
x [b, n, emin , emax ] ,
observam-se as seguintes características:

• O menor número positivo que pode ser representado neste sistema é
xmin = 0, 1 × bemin = bemin −1 .
Valores para xmin válidos para o compilador Intel Fortran são apresentados na tabela 1.2. Isto significa
que qualquer número x tal que
−xmin < x < xmin
não poderá ser representado pelo computador. Esta ocorrência é denominada underflow. Os compi-
ladores podem ser instruídos ou a parar o processamento neste ponto, disparando uma mensagem de
erro, ou a seguir o processamento arredondando x = 0.
12 1.4. Representação de números em computadores digitais
• O maior número positivo que pode ser representado neste sistema é
n
!
X
xmax = 0, (b − 1) (b − 1) . . . (b − 1) ×b emax
= (b − 1) × −k
× bemax = 1 − b−n bemax .

b
| {z }
k=1
n vezes
Valores para xmax válidos para o compilador Intel Fortran são apresentados na tabela 1.2. Isto significa
que qualquer número x tal que
x < −xmax ou x > xmax
não poderá ser representado pelo computador. Esta ocorrência é denominada overflow. Os compi-
ladores usualmente tomam duas possíveis providências quando detectam um overflow; ou páram o
processamento do programa emitindo uma mensagem de erro, ou continuam o processamento atri-
buindo a x o valor simbólico x = −Infinito ou x = Infinito.
• O maior número que pode ser somado ou subtraído a 1,0, com o resultado permanecendo indistingüível
de 1,0 é
xeps = b1−n . (1.5)
Os valores de xeps para o compilador Intel Fortran são também apresentados na tabela 1.2. A quan-
tidade xeps também é denominada de epsilon da máquina (m ) ou de precisão da máquina.
• Somente um conjunto finito F de números racionais podem ser representados na forma (1.4). Os
números neste conjunto são denominados números de ponto flutuante. Para uma representação
normalizada (d1 6= 0), este conjunto contém precisamente
2 (b − 1) (emax − emin + 1) bn−1 + 1
números racionais.
Exemplo 1.9. Considere um modelo simplificado de representação numérica de ponto flutuante dado por
x [2, 4, −5, 6]. Para este sistema:
• o menor número positivo possível é:
1
xmin = (0, 1000)2 × 2−5 = 2−5−1 = ;
64
ou seja, a região de underflow consiste no intervalo
1 1
− <x< .
64 64
• O maior número positivo possível é:
xmax = (0, 1111)2 × 26 = 1 − 2−4 26 = 60;

ou seja, as regiões de overflow consistem nos intervalos
x < −60, x > 60.
• O maior número que pode ser somado ou subtraído de 1,0 e que mantém o resultado inalterado é:
1
xeps = 21−4 = .
8
• O número de elementos em F é:
2.1. (6 + 5 + 1) 24−1 + 1 = 193.

Figura 1.3: Números normalizados positivos representáveis em x [2, 3, −1, 2]. Os riscos verticais posicionam os
números. Para cada número positivo, existe um correspondente número negativo.
Exemplo 1.10. Considere o sistema de números de ponto flutuante x [2, 3, −1, 2]. Para este sistema:
• o menor número positivo possível é:
1
xmin = 2−1−1 = .
4
ou seja, a região de underflow consiste no intervalo
1 1
− <x< .
4 4
• O maior número positivo possível é:
1 7

xmax = 1 − 2 −3
2 =
2
1− 4= ;

8 2
ou seja, as regiões de overflow consistem nos intervalos
7 7
x<− , x> .
2 2
• O maior número que pode ser somado ou subtraído de 1,0 e que mantém o resultado inalterado é:
1
xeps = 21−3 = .
4
• O número de elementos em F é:
2.1. (2 + 1 + 1) 23−1 + 1 = 33.
A fração positiva dos números possíveis em x [2, 3, −1, 2] está indicada na figura 1.3. Cada risco vertical
posiciona um números representável neste sistema.
1.5 Erros na representação e na álgebra de ponto flutuante

Nesta seção será feita uma breve descrição dos principais erros envolvidos na representação de pontos
flutuantes e nas operações algébricas entre os mesmos.
1.5.1 Precisão e acurácia

Os conceitos de precisão e acurácia são amiúde confundidos entre si. A diferença entre ambos é oriunda
da diferença entre o hardware e o software à disposição do programador.
Precisão1 refere-se ao quão próximo um número representado pelo computador representa o número que
ele ambiciona representar. A precisão de um número é governada pelo número de dígitos empregados
na representação e na álgebra. Assim, a constante π será representada com maior precisão utilizando
8 bytes do que utilizando 4 bytes para armazenar o número (ver tabela 1.2).
Acurácia2 refere-se a quão próximo um número representado pelo computador (como resultado de uma
série de operações, por exemplo) está do valor correto do número que ele almeja representar. A acurácia
é governada pelos erros (de truncamento e arredondamento) no método numérico empregado. Assim,
se os números π1 = 3, 1416304958 e π2 = 3, 1415809485 almejam ambos a representar o número
π = 3, 141592654 . . . , o número π2 possui maior acurácia que π1 , embora ambos possuam a mesma
precisão.
Com freqüência, em linguagem coloquial refere-se à precisão quando na verdade o correto seria referir-se à
acurácia de um resultado. As seções a seguir indicam como se pode medir a acurácia de um número através
do cálculo dos erros absoluto e relativo do mesmo.
1 Do inglês precision.
2 Do inglês accuracy.

14 1.5. Erros na representação e na álgebra de ponto flutuante
1.5.2 Erros absoluto e relativo
São duas medidas relacionadas entre si, largamente empregadas na análise de erro numérico.
1.5.2.1 Erro absoluto

Seja X o valor exato (não conhecido) de um número e f l (X) o seu valor aproximado (conhecido) por
uma representação de ponto flutuante. O erro absoluto (EAX ) é definido como o valor absoluto da diferença
entre o valor exato e o valor aproximado:
EAx = |X − f l (X)| .
Ou seja, conhecendo-se f l (X) e EAX , pode-se afirmar que
X = f l (X) ± EAx .
Em geral, somente é possível estimar-se o valor do erro absoluto.

Por exemplo, Arquimedes estimou o valor de π através da média do perímetro de polígonos que estavam
contidos em uma circunferência de raio unitário e de polígonos que continham a circunferência. Fazendo
uso deste método, Arquimedes foi capaz de estimar
1137 1335
πmin = 3, 1409 · · · = 3 + < π < πmax = 3 + = 3, 1428 . . . .
8069 9347
Desta forma, Arquimedes obteve erros absolutos iguais a EAπ = 6, 830 × 10−4 para πmin , EAπ = 1, 2339 ×
10−4 para πmax e EAπ = 2, 7546 × 10−4 para a média entre πmin e πmax . Portanto, Arquimedes poderia
afirmar que
1 1
π = (πmin + πmax ) ± (πmax − πmin ) = 3, 14187 ± 0, 00096.
2 2
1.5.2.2 Erro relativo

Seja X o valor exato de um número e f l (X) o seu valor aproximado, o erro relativo (ERX ) é definido
como o erro absoluto dividido por |f l (X)|:
X − f l (X)

EAX
ERX = = .
|f l (X)| f l (X)
Voltando ao exemplo anterior, os erros relativos das estimativas de Arquimedes foram: ERπ = 2, 1741 ×
10−4 para πmin , ERπ = 3, 9262 × 10−4 para πmax e ERπ = 8, 7674 × 10−5 para a média.
Em geral, a melhor medida para se estimar a precisão de uma aproximação é o erro relativo, pois este
indica diretamente o número de dígitos significativos corretos na aproximação.
1.5.3 Erros na representação: arredondamento e truncamento

O tamanho finito da palavra utilizada em um computador digital para a representação de números de
ponto flutuante provoca o surgimento de diversos tipos de erros, tanto na representação destes números
quanto na álgebra que os envolve. Uma estratégia que reduz estes erros, empregada na maior parte dos
computadores, consiste em empregar números de ponto flutuante normalizados, isto é, números cuja mantissa
M está sempre dentro do intervalo
1
6 M < 1,
b
ou seja, 0, 5 6 M < 1 para computadores de base b = 2. Esta providência diminui o número de zeros à
direita da vírgula e maximiza o número de dígitos não nulos utilizados para representar um dado número.
Entretanto, mesmo em um sistema com representação normalizada, nem todos os números reais podem
ser representados. Utilizando novamente o exemplo do sistema x [2, 4, −5, 6], o número racional
y = 0, 12345999 . . .
não pode ser exatamente representado. A forma de y em base 2 é:
y = 0, 12345999... = (0, 000111111001101 . . . )2 .

Para escrever y de acordo com o sistema x [2, 4, −5, 6], deve-se primeiro normalizar de acordo com as ope-
rações:
(y)2 = 2−4 + 2−5 + 2−6 + 2−7 + 2−8 + 2−9 + 2−12 + 2−13 + 2−15 + . . .
= 2−3 × 2−1 + 2−2 + 2−3 + 2−4 + 2−5 + 2−6 + 2−9 + 2−10 + 2−12 + . . .

= (0, 111111001101 . . . ) × 2−3 ,
o qual está agora na forma normalizada. De acordo com (1.4), podemos identificar então
M = 0, 111111001101 . . . , e = −3.
Contudo, para o sistema x [2, 4, −5, 6] pode-se usar somente 4 dígitos na mantissa. Desta forma, uma
aproximação possível para (y)2 fica:
f l ((y)2 ) = (0, 1111) × 2−3 ,
o qual corresponde ao seguinte número na base 10: f l (y) = 0, 1171875 . . . , resultando em erros absoluto e
relativo:
EAy = 6, 272 × 10−3 , ERy = 5, 3525 × 10−2 = 5, 35%.
Este procedimento de aproximação é denominado truncamento.3 Uma definição mais rigorosa do método
de truncamento será apresentada a seguir.
Dado um número X já na forma normalizada que não possua representação exata no sistema x [b, n, emin , emax ].
Sejam agora X o maior número representável no sistema e que seja menor que X e X o menor número re-
presentável no sistema e que seja maior que X. Então,
X 6 X 6 X.
Pode-se escrever X como

X = (0, d1 d2 . . . dn ) × be + gX × be−n ,
onde
0 6 gx < 1
é a parcela de X que não pode ser incluída na sua representação. Existem então 2 maneiras de se realizar
a aproximação:
Truncamento. O truncamento consiste em simplesmente ignorar gX . Assim,
f l (X) = (0, d1 d2 . . . dn ) × be ,
o qual é representável no sistema. Neste caso, os erros absoluto e relativo são
EAX = |X − f l (X)| = |gX | × be−n < be−n ,

EAX gX × be−n b−n
ERX = = < = b−n+1 ,
f l (X) (0, d1 d2 . . . dn ) × be (0, 1)b
pois (0, d1 d2 . . . dn ) > (0, 1)b = b−1 . Desta forma, obtém-se limites superiores para ambos os erros.
No exemplo acima, pode-se escrever:
(y)2 = (0, 1111) × 2−3 + gy × 2−3−4 , sendo gy = 0, 11001101 . . . .
Realizando então o truncamento, obtém-se f l ((y)2 ).

Arredondamento. No arredondamento,4 executa-se a seguinte operação:
(
(0, d1 d2 . . . dn ) × be , se |gX | < 21
f l (X) = (1.6)
(0, d1 d2 . . . (dn + 1)) × be , se |gX | > 21 .
Neste caso, o erro absoluto da operação será

(
|gX | × be−n , se |gX | < 1
1 e−n

EAX = |X − f l (X)| = 2 < b ,
|gX − 1| × be−n , se |gX | > 1
2
2
3 Tradução livre do termo em inglês chopping.
4 Tradução livre do termo inglês rounding.

de onde se obtém uma estimativa superior e o erro relativo será
 1 e−n
2b
, se |gX | < 12

1 e−n
1 −n+1

(0, d1 d2 . . . dn ) × be

2b

ERX < 1 e−n < = b ,
2b (0, 1)b × be 2
se |g | 1

 , X >
(0, d1 d2 . . . (dn + 1)) × be 2

o qual fornece uma estimativa superior para o erro relativo. No exemplo acima, como gy > 1/2, deve-se
somar 1 ao dígito d4 resultando, com o auxílio da tabela de adição de binários apresentada na seção
1.3.1,
f l ((y)2 ) = (0, 1111) × 2−3 + (0, 0001) × 2−3 = (1, 0000) × 2−3 = (0, 1000) × 2−2 .
Neste caso, obtém-se
f l (y) = 0, 125,
o qual possui um erro relativo de 1,2% de y, bem menor que o erro obtido com o truncamento, que
foi de 5,35%.
Computadores mais recentes modificam ligeiramente o arredondamento em relação à fórmula apresen-
tada em (1.6). Nesta, o último dígito significativo (dn ) não será alterado se |gX | < 1/2 e este será
alterado se |gX | > 1/2. Há, portanto, uma ligeira preferência para a alteração de dn no processo de
arredondamento, o que insere um erro sistemático no processo. Atualmente, se |gX | = 1/2, o valor de
dn será alterado somente em metade das situações, com base em algum critério. Este critério pode
ser a paridade de dn , por exemplo. Assim, para b = 10 o número 12,5 seria arredondado para 12,
enquanto que 13,5 seria arredondado para 14. Este critério é também denominado arredondamento
par [6].
1.5.4 Número de dígitos significativos

Quando se conta o número de dígitos em um valor numérico, não se deve incluir os zeros no início do
número, uma vez que estes zeros somente auxiliam a localizar a posição ideal do ponto decimal. Caso se
queira contar o número de decimais, então os zeros à direita do ponto decimal devem ser incluídos. Por
exemplo, o número 0, 00147 é dado com três dígitos mas possui cinco decimais. O número 12, 34 é dado com
quatro dígitos, mas possui apenas dois decimais.
Quando se trabalha com uma representação de um número obtida por meio de um processo de arredon-
damento ou truncamento, uma maneira alternativa para se estimar a qualidade da aproximação, ou seja a
acurácia do número, consiste em computar o número de dígitos significativos corretos da representação. Se
f l (X) é uma aproximação de X com k dígitos significativos corretos em uma representação de base b, então
X − f l (X)
= |X | 6 1 b−k+1 ,

X 2
onde k é o maior número inteiro positivo para o qual a inegualdade acima é verificada.
Exemplo 1.11. Sejam b = 10, X = 1/6 e f l (X) = 0, 16667; então

1/6 − 0, 16667
= 2 × 10−5 6 1 10−5+1 .

|X | =

1/6 2
Ou seja, o número de dígitos significativos em f l (X) é k = 5.
1.5.5 Erros na álgebra de ponto flutuante

Adicionalmente aos erros resultantes do truncamento ou do arredondamento na representação de nú-
meros de ponto flutuante por computadores, as operações algébricas que necessariamente são realizadas
pelo computador introduzem dois outros tipos de erros no resultado destas operações e que tendem a se
acumular à medida que o número de operações de ponto flutuante são realizadas pelo computador. Estes
erros são os erros de arredondamento5 e os erros de truncamento.6 Estes tipos de erros adicionais
serão brevemente discutidos nesta seção.
5 Neste caso, o termo “erros de arredondamento” possui um significado distinto do processo de arredondamento utilizado na
representação de números reais, discutida na seção 1.5.3. O termo, neste contexto, consiste na tradução usualmente empregada
para o termo em inglês round-off errors.
6 Aqui também, o termo “erros de truncamento” não se refere ao processo de truncamento discutido na seção 1.5.3, mas sim
ao tipo de erro que em inglês é denominado truncation errors.

1.5.5.1 Erros de arredondamento
A origem deste tipo de erro está também relacionada com a representação finita das palavras em um
computador e surge com a realização de operações de ponto flutuante pelo mesmo.
Um exemplo simples ilustra o surgimento deste tipo de erro. Suponha-se que se esteja usando um sistema
numérico de base 10 com 5 dígitos na mantissa, semelhante à representação (1.4). Deseja-se agora calcular
o valor da função
1 − cos x sen x
f (x) = =
sen x 1 + cos x
para x = 0, 007. Rotinas intrínsecas fornecidas pelo fabricante do compilador utilizado encarregam-se de
calcular o valor das funções trigonométricas dentro da precisão disponível, por meio de um processo de
arredondamento. Assim,
sen(0, 007) = 0, 69999 × 10−2

cos(0, 007) = 0, 99998.
A primeira expressão para f (x) fornece:
1 − cos x 1 − 0, 99998 0, 2 × 10−4

f (x) = = = = 0, 28572 × 10−2 ,
sen x 0, 69999 × 10−2 0, 69999 × 10−2
enquanto que a segunda expressão fornece:
sen x 0, 69999 × 10−2

f (x) = = = 0, 35000 × 10−2 ,
1 + cos x 1 + 0, 99998
sendo que este último resultado é o correto, dentro da precisão de 5 dígitos disponível. O erro relativo
entre o primeiro valor (errado) e o segundo (correto) é de 22,5%. Na primeira expressão, devido à escolha
feita na precisão, restou somente um dígito relevante no numerador após a subtração. Isto levou a uma
perda de precisão e a um resultado errôneo devido ao cancelamento de dois números muito próximos entre
si. Este problema seria evitado caso o sistema de representação dispusesse de, pelo menos, mais um dígito
significativo na mantissa; porém, o ponto a ser frisado aqui é que muito facilmente este tipo de erro de
arredondamento ocorre, devido ao tamanho finito da palavra no computador. Por outro lado, caso fosse
solicitado o valor de f (x) para x ≈ π, seria a segunda expressão que forneceria um valor incorreto, enquanto
que a primeira forneceria um valor correto.
Este exemplo simples demonstra a perda de precisão numérica devida a erros de arredondamento, onde o
número de dígitos significativos é reduzido na subtração de dois números próximos entre si. Isto mostra que
não é possível confiar cegamente no cálculo realizado; deve-se sempre analisar cuidadosamente o algoritmo
empregado na procura de possíveis fontes de erros.
Considera-se então um número real X, o qual possui uma representação de máquina f l (X), que pode
ser escrita como
f l (X) = X (1 + X ) ,
onde X é o erro associado com a representação de X. De forma equivalente, pode-se escrever
f l (X) = X + δX ,
sendo δX = XX . Então, |δX | = EAX . Pode-se ver que
f l (X) − X f l (X) − X f l (X) − X 1

X = = = ,
X f l (X) − δX f l (X) 1 − δX /f l (X)
!
f l (X) − X 2
f l (X) − X

δX δX X
X = 1+ + + ... ≈ 1+ X ,
f l (X) f l (X) f l (X)2 f l (X) f l (X)
−1 2
f l (X) − X f l (X) − X X f l (X) − X f l (X) − X

X
X = 1− ≈ + ,
f l (X) f l (X) f l (X) f l (X) f l (X) f l (X)
ou seja, |X | ≈ ERX 6 max , onde max é denominado de unidade na última posição7 , ou uup. Isto é,
com k dígitos na mantissa e com a base b,
uup ' b−k .
7 Do termo em inglês unit in the last place, ou ulp.

Dados agora dois números reais positivos X e Y , deseja-se estimar os erros relativos das operações
algébricas entre ambos:
X op Y,
sendo op um das operações: “+”, “−”, “×” ou “÷”, conhecendo-se os erros relativos X e Y correspondentes:
f l (X) = X (1 + X ) e f l (Y ) = Y (1 + Y ) .
Os resultados destas operações de ponto flutuante são escritos:
f l (X + Y ) , f l (X − Y ) , f l (X × Y ) , f l (X/Y ) .
Assumindo que não ocorra overflow nem underflow, supõe-se que seja possível escrever
f l (X op Y ) = (X op Y ) (1 + op ) ,
sendo
f l (X op Y ) − (X op Y )
op = ,
(X op Y )
com |op | = ERop , o erro relativo da operação.
Grande parte dos computadores atualmente empregados utilizam o padrão IEEE para operações arit-
méticas de ponto flutuante no sistema binário. Entre outros recursos, este padrão especifica que todas as
operações aritméticas devem ser idealmente realizadas como se o computador dispusesse de precisão infinita
e somente após obtido o resultado este deve ser transformado para o sistema de ponto flutuante em uso
através de um processo de arredondamento [6]. Este procedimento pode ser implementado fazendo-se uso
de dígitos de guarda (guard digits) [6] e ele permite estimar o erro em cada operação de ponto flutuante
como
|op | ' max (|X | , |Y |) .
Desta forma, obtém-se o menor erro relativo possível na operação algébrica e este irá se propagar lentamente
com o aumento do número de operações. Grande parte dos computadores em uso atualmente seguem o
padrão IEEE, o qual exige o emprego dos dígitos de guarda. Caso este padrão não seja empregado, os erros
decorrentes de operações de ponto flutuante aumentam de forma extremamente rápida com o número de
operações. Neste último caso, para cada operação algébrica, obtém-se:
Adição. Resulta:
f l (X + Y ) = f l (X) + f l (Y ) = (X + Y ) + (δX + δY ) ,
a qual pode ser escrita:
δX + δY XX + Y Y

f l (X + Y ) = (X + Y ) 1 + = (X + Y ) 1 + ≈ (X + Y ) (1 + + ) ,
X +Y X +Y
sendo
δX + δY
+ ≡ .
f l (X) + f l (Y )
Ou seja, os erros absoluto e relativo do processo de soma de ponto flutuante são:
EA+ = |δX + δY | ≈ |f l (X) X + f l (Y ) Y | ,

δX + δY

X Y
ER+ = |+ | = = +

.
f l (X) + f l (Y ) 1 + f l (Y ) /f l (X) 1 + f l (X) /f l (Y )
Há três situações possíveis na última expressão acima:
1. f l(X) f l (Y ). Neste caso, obtém-se
ER+ ≈ |X | .
2. f l (X) f l (Y ). Neste caso,

ER+ ≈ |Y | .

3. O [f l (X)] = O [f l (Y )]. Agora,
8
1
ER+ ≈ |X + Y | .
2
Conclui-se, portanto, que ER+ ∼ O [max (X , Y )].
Subtração. De forma similar ao caso anterior, resulta:
f l (X − Y ) = f l (X) − f l (Y ) = (X − Y ) + (δX − δY ) ,
a qual pode ser escrita:

δX − δY XX − Y Y
f l (X − Y ) = (X − Y ) 1 + = (X − Y ) 1 + ≈ (X − Y ) (1 + − ) ,
X −Y X −Y
sendo
δX − δY
− ≡ .
f l (X) − f l (Y )
Ou seja, os erros absoluto e relativo do processo de soma de ponto flutuante são:
EA− = |δX − δY | = |f l (X) X − f l (Y ) Y | ,

δX − δY X Y
ER− = |− | = = +

.
f l (X) − f l (Y ) 1 − f l (Y ) /f l (X) 1 − f l (X) /f l (Y )
Considerando os mesmos casos anteriores,

ER− ≈ |X | .
ER− ≈ |Y | .
3. O [f l (X)] = O [f l (Y )]. Agora, 1 − f l (Y ) /f l (X) 1 e 1 − f l (X) /f l (Y ) 1, resultando
ER− |X + Y | .
Este resultado mostra claramente como o erro relativo pode se tornar muito grande quando X ≈ Y .
Isto ocorre porque a subtração de dois números muito próximos entre si resulta em um número cuja
representação ocorre nos últimos dígitos da mantissa, resultando em um grande erro de arredonda-
mento.
Multiplicação. Neste caso,
f l (X × Y ) = f l (X) × f l (Y ) = (X + δX ) × (Y + δY ) = X × Y + X × δY + Y × δX + δX × δY .
Supondo que |δX × δY | (|f l (X) × δY | , |f l (Y ) × δX |), obtém-se
f l (X × Y ) ≈ (X × Y ) + (f l (X) × δY + f l (Y ) × δX ) .
Por outro lado,
f l (X) × δY + f l (Y ) × δX

f l (X × Y ) ≈ (X × Y ) 1 +
f l (X) × f l (Y )

δX δY
= (X × Y ) 1 + + ≡ (X × Y ) (1 + × ) .
f l (X) f l (Y )
Assim,
EA× = |f l (X) × δY + f l (Y ) × δX | ,

δX δY
ER× = |× | = + ≈ |X + Y | .
f l (X) f l (Y )
Portanto, ER× ∼ O [max (X , Y )], da mesma forma que a adição.

8A notação O(x) indica a ordem de grandeza de x. Uma definição rigorosa é apresentada na página 22.

Divisão. Neste caso,
f l (X) = X + δX ,
f l (X) X + δX X + δX 1 X + δX

δY
f l (X ÷ Y ) = = = ≈ 1−
f l (Y ) Y + δY Y 1 + δY /Y Y f l (Y )
X + δX XδY + δX δY X δX f l (X)
≈ − ≈ + − δY ,
Y f l (Y )
2 Y f l (Y ) f l (Y )2
!
f l (Y ) δX − f l (X) δY
f l (X ÷ Y ) ≈ (X ÷ Y ) + 2 .
f l (Y )
Ao passo que
!
Y f l (Y ) δX − f l (X) δY

δX δY
f l (X ÷ Y ) = (X ÷ Y ) 1 + ≈ (X ÷ Y ) 1 + −
X f l (Y )
2 f l (X) f l (Y )
≡ (X ÷ Y ) (1 + ÷ ) .
Então,

f l (Y ) δ − f l (X) δ
X Y
EA÷ = ,

2
f l (Y )

δX δY
ER÷ = |÷ | = − ≈ |X − Y | .
f l (X) f l (Y )
Ou seja, ER÷ é da mesma ordem de grandeza que ER× .
Para exemplificar o efeito deletério que os erros de arredondamento podem apresentar em um cálculos,
em princípio, completamente exatos, Rice [13, Capítulo 3] mostra o gráfico do polinômio de sexto grau
P (x) = (x − 1)6 , calculado na sua forma expandida
P (x) = x6 − 6x5 + 15x4 − 20x3 + 15x2 − 6x + 1.
A figura mostra P (x) traçado em torno de x = 1, em cujo ponto P (1) = 0, teoricamente. Entretanto, o
cálculo realizado sem o emprego de dígitos de guarda (figura 1.4 esquerda) evidencia um efeito muito mais
significativo dos erros de arredondamento nas operações básicas realizadas em números de ponto flutuante
que o efeito observado quando se faz uso de um computador e um compilador [1] que seguem as normas
IEEE 754, as quais prevêem o uso dos dígitos de guarda (figura 1.4 direita). O programa em Fortran 95 que
gerou figura 1.4 direita pode ser visto no programa 1.2.
Programa 1.2: Programa em Fortran 95 que gerou a figura 1.4 direita.

program p o l y n o m i a l
integer : : i
integer , parameter : : dp= 8
r e a l ( kind=dp ) : : x , dx , px
!
open ( unit =10 , f i l e =’ p o l . dat ’ )
dx= 0 . 0 1 6 _dp/ r e a l (500 −1 , dp )
x= 0 . 9 9 2 _dp
do i= 1 , 500
px= x ∗∗6 − 6∗ x ∗∗5 + 15∗ x ∗∗4 − 20∗ x ∗∗3 + 15∗ x ∗∗2 − 6∗ x + 1 . 0 _dp
write ( 1 0 , ∗ ) x , px , px ∗ 1 . 0 e13_dp
x= x + dx
end do
end program p o l y n o m i a l

-13
P(x)*10
1
-1
0,99 1 1,01
x
Figura 1.4: Esquerda: Cálculo do polinômio P (x) sem o uso de dígitos de guarda [13]. Direita: Cálculo de P (x)
usando um compilador que segue as normas IEEE 754.
1.5.5.2 Erros de truncamento

Este erro ocorre quando se realiza um truncamento em um processo infinito. Um exemplo usualmente
empregado consiste no cálculo do valor de uma função transcendental usando séries de McLaurin. Suponha-
se que se deseja calcular o valor da função f (x) = ex em x = 1, por exemplo. Neste caso,
∞
X 1
e= .
n=0
n!
Como não é possível ao computador a realização da soma infinita, a série deverá ser truncada para algum
n > N . Neste caso, o resultado obtido irá diferir de e = 2, 71828182845904523536028747135 . . . por um certo
valor que dependerá do valor de N , isto é, do número de termos considerados na soma. Este tipo de erro
soma-se ao erro de arredondamento considerado na seção 1.5.5.1. Em muitos casos, o erro de truncamento
é exatamente a diferença entre o modelo matemático e o modelo numérico empregados. Uma das principais
tarefas da análise numérica (e uma das mais difíceis) é a determinação de uma valor máximo para o erro de
truncamento.
Em muitos modelos numéricos existe um parâmetro que governa o erro de truncamento. Por exemplo,
o número N de termos usados vindos de uma série infinita, ou o tamanho ∆x usado numa fórmula de
derivação numérica. Uma maneira comum e prática de estimar o erro de truncamento consiste em variar
este parâmetro (tornando N maior ou ∆x menor) e observar os resultados numéricos. Se os resultados
computados convergirem a um certo número de dígitos significativos, então pode-se decidir que o erro
de truncamento (juntamente com os demais tipos de erros) são pequenos o suficiente para produzir um
resultado aceitável. Assim, muitas rotinas numéricas incluem um teste de convergência para decidir
quando os resultados são aceitáveis. Infelizmente, não existe um teste de convergência padrão para qualquer
problema numérico, uma vez que se trata de um problema matematicamente insolúvel. Em um nível
intuitivo, isto significa que a convergência nunca pode ser testada de forma totalmente confiável; do ponto
de vista matemático, para um dado teste de convergência que funciona em diversas situações, sempre ocorre
um problema para o qual o teste irá falhar.
Ordem de convergência. Trata-se de uma maneira de medir o quanto o erro de truncamento vai a zero à
medida que o parâmetro do método varia. Desta maneira, pode-se comparar a eficácia de distintos métodos.
Em função do cálculo da ordem de convergência para diferentes métodos, pode-se obter diversos resultados,
para distintos parâmetros, tais como:
• O método converge tal como 1/N .
• O método converge tal como 1/k 3,5 .
• O método converge como h2 .

• O método converge exponencialmente, como e−N , por exemplo.
• O erro de truncamento é da ordem 1/N 5 .
• A ordem do erro é h4 .
• A taxa de convergência é log N/N .
O termo ordem de convergência, às vezes também denominado taxa de convergência, pode ter distintos
significados. Em métodos iterativos, a ordem de convergência é calculada através de uma fórmula específica.
Se o resultado é 2, por exemplo, então se diz que o método é de segunda ordem. Já um método de segunda
ordem para resolver equações diferenciais possui outro significado. O termo convergência linear implica
que o erro é reduzido (aproximadamente) por um fator constante em cada passo. A notação matemática
para ordem de convergência, se um dado método converge tal como 1/N 2 , por exemplo, é: O 1/N 2 . A

notação O é definida com segue:

Uma função f (x) é dita ser O (g(x)) à medida que x tende a L se
f (x)

lim < ∞.
x→L g(x)
A ordem de convergência pode ser complicada (por exemplo, h1,5 / log h) mas em alguns casos simples
denominações especiais são empregadas. Se a ordem de convergência é uma potência inteira (por exemplo,
h2 , N −3 , x5 ), então diz-se que a ordem de convergência é esta potência (2, 3 ou 5), ou que a convergência
é de segunda, terceira ou quinta ordens. Por outro lado, diz-se convergência logarítmica ou exponencial se
a ordem envolve uma função exponencial (como e−N ) ou logarítmica (como 1/ log N ).
Exemplo 1.12. As ordens de convergência de dois métodos de derivação numérica por diferença finita
serão calculadas:
1. Diferença “adiantada” (forward difference):
f (x + h) − f (x)
f 0 (x) ≈ .
h
2. Diferença “centrada” (centered difference):

f (x + h) − f (x − h)
f 0 (x) ≈ .
2h
Em ambos os métodos, para um parâmetro h suficientemente pequeno e para um função f (x) bem compor-
tada em torno de x, pode-se desenvolver a mesma em série de McLaurin:
1 1
f (x ± h) = f (x) ± f 0 (x)h + f 00 (x)h2 ± f 000 (x)h3 + · · · .
2 6
Neste caso, para o método 1:
f (x + h) − f (x) 1
= f 0 (x) + f 00 (x)h + · · · .
h 2
Ou seja, como o termo predominante é proporcional a h, a ordem de convergência deste método é O(h).
Para o método 2:
f (x + h) − f (x − h) 1
= f 0 (x) + f 000 (x)h2 + · · · ,
2h 6
ou seja, este método é da ordem O h2 .

Como exemplo prático da aplicação destes métodos, deseja-se comparar os cálculos da derivada da função
f (x) = sen x2 no ponto x = 0, 5 pelos métodos 1. e 2., comparando-os com o valor correto da derivada:
f 0 (x) = 2x cos x2 , para x = 0, 5. O erro absoluto versus o parâmetro h está traçado na figura 1.5, enquanto
que o programa em Fortran 95 que calculou os dados está no programa 1.3.
Os gráficos foram traçados em escala log-log para se verificar diretamente o expoente da taxa de con-
vergência. Isto é, se erro = αk , então a inclinação da reta é k. Pode-se ver claramente que no início do
processo iterativo, as taxas de convergência dos métodos 1. e 2. concordam com o valor previsto (h1 e h2 ,
respectivamente). Contudo, a partir de um determinado ponto os erros de arredondamento começam a se
tornar mais importantes e o erro absoluto passa a variar a uma taxa proporcional a h−1 .
0
10
-2
10
-4
10
Erro Absoluto
-6
10
-8 Método 1.
10 Método 2.
+1
~h
-10 +2
10 ~h
-1
~h
-12
10 0 2 4 6 8 10 12 14
10 10 10 10 10 10 10 10
-1
h
Figura 1.5: Gráfico log-log do erro absoluto nos cálculos de derivadas usando métodos de diferenças finitas. As
ordens de convergência são h e h2 para os métodos 1. e 2., respectivamente. Nota-se que erros de arredondamento
acabam por arruinar totalmente a computação antes de a precisão de 15 dígitos ser atingida.
Programa 1.3: Programa em Fortran 95 que calculou as diferenças finitas da figura 1.5.
program d e r i v a d a s
integer : : i
r e a l ( kind= dp ) : : h= 0 . 0 2 _dp ! h i n i c i a l i z a d o a 1/50.
r e a l ( kind= dp ) , parameter : : x= 0 . 5 _dp ! Valor de x f i x o .
r e a l ( kind= dp ) : : df1 , df2 , f l
!
f l = 2 . 0 _dp∗x∗ c o s ( x∗x ) ! Valor c o r r e t o da d e r i v a d a em x .
open ( unit =10 , f i l e =’ d e r i v s . dat ’ )
do i= 1 , 45
d f 1= ( f ( x+h ) − f ( x ) ) / h ! C á l c u l o método 1 .
d f 2= 0 . 5 _dp∗ ( f ( x+h ) − f ( x−h ) ) / h ! C á l c u l o método 2 .
write ( 1 0 , ∗ ) 1 . 0 _dp/h , abs ( df1− f l ) , abs ( df2− f l )
h= 0 . 5 _dp∗h ! h é d i v i d i d o por 2 .
end do
CONTAINS
function f ( x )
r e a l ( kind= dp ) : : f
r e a l ( kind= dp ) , intent ( in ) : : x
f= s i n ( x∗x )
return
end function f
end program d e r i v a d a s

4
10
2
10
0
10
-2
10
Erro Absoluto
-4
10
-6
10
-8
10
-10 1
10 e
-12
-12 e
10
-14
10
-16
10 0 1 2
10 10 10
N
Figura 1.6: Gráfico log-log do erro absoluto no cálculo da série de McLaurin para ex quando a série é truncada na
potência N . Erros de arredondamento limitam a precisão do resultado para x = 1 antes que para x = −12.
Exemplo 1.13. Deseja-se calcular o erro absoluto decorrente do truncamento no cálculo da série de
McLaurin para a função ex :
∞ N
X xn X xn
ex = ≈ .
n=0
n! n=0
n!
O erro, calculado para os pontos x = 1 e x = −12, em função do parâmetro N é apresentado na figura

1.6, enquanto que o correspondente programa em Fortran 95 está no programa 1.4. Observa-se claramente
como o erro absoluto inicia diminuindo rapidamente com o aumento de N (para x = −12 isto ocorre para
N > 11), de uma forma não linear na escala log-log. Porém, eventualmente os erros de arredondamento
que surgem na representação finita de termos cada vez menores na série impõe um limite inferior ao erro
absoluto. Isto ocorre para x = 1 antes que para x = −12.
1.5.5.3 Análise de erros de ponto flutuante

Os exemplos da seção 1.5.5.2 mostraram como um cálculo relativamente simples pode ser completamente
arruinado por erros de arredondamento. Isto mostra que um determinado método numérico sempre terá a
sua utilidade limitada a um determinado valor do parâmetro de controle, de tal forma que uma posterior
alteração no valor deste parâmetro terá sempre um efeito deletério na computação desejada. Caso o pro-
gramador deseje uma precisão maior que o método pode oferecer, resta a ele buscar um método alternativo
para atingir este objetivo.
Os erros de arredondamento tendem sempre a crescer com o número de operações de ponto flutuante
realizadas. Como será este crescimento não se pode prever de antemão. Existem processos particularmente
desafortunados, nos quais o erro de arredondamento cresce de forma linear ou através de uma lei de potência
do tipo N k (k > 1), principalmente quando as operações realizadas são sempre do mesmo tipo, resultando
em erros que sempre se somam. O resultado apresentado na figura 1.5 é um exemplo deste tipo de situação.
A mesma tendência de erro sistemático ocorre quando o processo de representação finita é realizado por
truncamento (ver seção 1.5.3).
Em um caso mais geral, os tipos de operações de ponto flutuante envolvidas são distintos, de forma
a sempre haver a possibilidade que um erro será parcialmente compensado por outro, resultando em um
aumento mais lento no erro total. Além disso, se for utilizado o processo de arredondamento par descrito na
seção 1.5.3, os erros resultantes flutuarão de forma aleatória em valores positivos ou negativos, resultando
num crescimento mais lento. Desta forma, a teoria de probabilidades indica que o erro deve variar:
√
δarr ∼ N xeps ,
Programa 1.4: Programa em Fortran 95 que calculou os pontos na figura 1.6.

program expo
integer : : j , n
r e a l ( kind= dp ) , dimension ( 2 ) , parameter : : x= ( / 1 . 0 _dp, −12.0_dp / ) , &
ex= ( / 2 . 7 1 8 2 8 1 8 2 8 4 5 9 0 4 5 2 3 5 3 6 0 2 8 7 4 7 1 3 5 2 7_dp , &
6 . 1 4 4 2 1 2 3 5 3 3 2 8 2 0 9 7 5 8 6 8 2 3 0 8 1 7 8 8 0 5 5 e−6_dp/ )
r e a l ( kind= dp ) , dimension ( 2 ) : : soma , f a t o r
!
open ( unit =10 , f i l e =’ expo . dat ’ )
do n= 1 , 100
soma= 1 . 0 _dp
f a t o r= soma
do j= 1 , n
f a t o r= f a t o r ∗x/ r e a l ( j , dp )
soma= soma + f a t o r
end do
write ( 1 0 , ∗ ) n , abs ( soma−ex )
end do
end program expo
onde xeps é dado por (1.5) e N é um parâmetro que mede o número de termos considerados no método ou
o número de operações de ponto flutuante realizadas.
O erro total será então a soma do erro de arredondamento e do erro de truncamento, decorrente da
aproximação feita no algoritmo. De acordo com os exemplos e argumentos apresentados, um forma comum
de se encontrar os erros de truncamento é:
α
δtrunc ∼ , (β > 0).
Nβ
Ou seja, teoricamente, limN →∞ δtrunc = 0. Então, o erro total será
α √
δtotal ∼ + N xeps .
Nβ
De acordo com este modelo, δtotal deve começar diminuindo para N relativamente pequeno, porém, à medida
que N aumenta, os erros de arredondamento tornam-se mais importantes e δtotal começa a aumentar. O
ponto onde este aumento se inicia pode ser estimado como
1

xeps
ln N ∼ − ln .
β + 1/2 2αβ
Este comportamento pode ser claramente visto na figura 1.5.


Capítulo 2
Derivação Numérica
2.1 Introdução
Derivação e integração numéricas são alguns dos R métodos que mais se utiliza em física computacional.
Com freqüência é necessário calcular ou f 0 (x) ou f (x)dx para uma determinada função f (x) para a qual
pode existir ou não uma expressão analítica. O objetivo deste capítulo é introduzir alguns dos métodos mais
empregados na derivação numérica, mantendo-se como objetivo a precisão numérica dos métodos.
Ao contrário da integração numérica, que será apresentada no próximo capítulo, a derivação possui alta
suscetibilidade a erros, tanto de truncamento quanto de arredondamento. Isto se deve à própria natureza
da derivação, definida por
df f (x + h) − f (x)
= lim . (2.1)
dx h→0 h
Como sempre há erros associados com o cálculo de f (x), estes serão ampliados à medida que se executa
numericamente o processo de limite h → 0. Como a representação finita de números reais em computadores
impõe um limite inferior no valor de f (x + h) − f (x), erros de arredondamento rapidamente começam a
se acumular durante o processo de limite, levando o cálculo, finalmente, a um processo de cancelamento
catastrófico, como se pode observar no exemplo da figura 1.5. Portanto, derivação numérica somente deve
ser realizada quando não houver outro método para a solução do problema em estudo.
Nas próximas seções, serão apresentados métodos que possibilitarão o cálculo numérico de derivadas
primeiras e segundas de funções que possuem ou não uma expressão analítica conhecida. Alguns destes
métodos serão posteriormente empregados no cálculos de equações diferenciais ordinárias ou parciais.
2.2 Fórmulas clássicas de diferença finita

Como já foi adiantado no exemplo da página 22, a maneira mais óbvia (e mais ingênua) de se calcular
numericamente uma derivada consiste em tomar literalmente a definição (27) e substituí-la por uma fórmula
de diferença finita, resultando na fórmula de diferença adiantada (forward difference).
2.2.1 Fórmula de diferença adiantada (forward difference)

Esta fórmula consiste em tomar (27) e ignorar o processo de limite:
f (x + h) − f (x)
f 0 (x) ≈ . (2.2)
h
Aplicado desta forma, este procedimento está fadado ao quase certo fracasso, o que não impede de ser
largamente utilizado no cálculo numérico de equações diferenciais parciais. Portanto a fórmula (27) somente
deve ser empregada quando considerações de tempo computacionais forem importantes.
Há duas fontes importantes de erros em (27): erro de truncamento e erro de arredondamento. O erro
de truncamento pode ser estimado a partir do desenvolvimento de f (x + h) em uma série de McLaurin em
torno de x:
1 1 1
f (x ± h) = f (x) ± f 0 (x)h + f 00 (x)h2 ± f 000 (x)h3 + f iv (x)h4 + · · · , (2.3)
2 6 24
resultando
f (x + h) − f (x) 1
= f 0 (x) + f 00 (x)h + O h2 .

h 2
27
28 2.2. Fórmulas clássicas de diferença finita
Ou seja, o erro de truncamento é da ordem
t ∼ |f 00 h| .
Para diminuir este erro (para valores finitos de f 00 ), poderia-se tentar diminuir o valor de h, o que acabaria
levando ao aumento do valor do erro de arredondamento, como se pode observar na figura 1.5.
O erro de arredondamento possui duas origens. A primeira seria o erro no processo de arredondamento
realizado na representação finita dos pontos x e x + h, conforme discutido na seção 14. Estes erros podem
ser substancialmente diminuídos se o computador e o compilador empregarem dígitos de guarda. Assim,
supondo-se as representações de x e x + h “exatas,” ainda resta o erro de arredondamento no processo de
cálculo da derivada [f (x + h) − f (x)] /h. Este erro é da ordem
f (x)

a ∼ f ,
h
onde f é a precisão fracional no cálculo de f (x). Para uma função bem comportada, f ≈ m , sendo m a
precisão da máquina (12). O fato de a ∝ h−1 pode ser inferido a partir da figura 23. Assim, o erro total
no cálculo de (27) pode ser estimado como
f (x)

total = t + a ∼ |f h| + f
00 . (2.4)
h
O valor de h que minimiza este erro pode ser estimado pelo cálculo do mínimo de total , resultando
s
f √
hmin ' f 00 ≡ f xc ,
f
onde xc = f /f 00 é denominado escala de curvatura de f (x) ou de escala característica sobre a qual f (x)
p
varia. Na ausência de uma melhor informação, usualmente usa-se xc ≈ x.

Portanto, o erro relativo na melhor estimativa da derivada, conforme dada por (27) é:
1/2
|f f 00 |

total √ √
≈ f ≈ f ,
|f 0 | f 02
onde se supôs que f , f 0 e f 00 sejam todos da mesma ordem de grandeza. Pode-se ver que a fórmula de
diferença adiantada fornece como melhor estimativa somente a raiz quadrada do epsilon de máquina. Para
√
precisão simples, m ∼ 10−7 , portanto, m ∼ 10−4 , ou seja, 4 dígitos de precisão. Já para precisão dupla,
√
m ∼ 10−16 , resultando m ∼ 10−8 , ou 8 dígitos significativos.
2.2.2 Fórmula de diferença atrasada (backward difference)

Quando as condições de contorno do sistema em estudo assim o exigirem, pode ser necessário usar uma
fórmula de diferença atrasada para estimar a derivada de uma função. Esta fórmula consiste simplesmente
em tomar:
f (x) − f (x − h)
f 0 (x) ≈ . (2.5)
h
Neste caso,
f (x) − f (x − h) 1
= f 0 (x) − f 00 (x)h + O h2 ,

h 2
e, portanto, o erro total é igual a (2.4).
2.2.3 Fórmula de diferença centrada (centered difference)

Uma estimativa bem melhor para a derivação é obtida a partir da fórmula
f (x + h) − f (x − h)
f 0 (x) ≈ . (2.6)
2h
Utilizando (2.3), observa-se que
f (x + h) − f (x − h) 1
= f 0 (x) + f 000 (x)h2 + O h4 . (2.7)

2h 6
Capítulo 2. Derivação Numérica 29
Ou seja, o erro de truncamento deste método é da ordem
t ∼ |f 000 (x)| h2 ,
resultando na seguinte estimativa de valor de h que minimiza o erro total:

s
f √
hmin ∼ 3 f 000 ∼ 3 f xc
f
e com um erro relativo igual a s 000

total f 2/3 2/3
f 03 (f ) ∼ (f ) .
3
∼ f2
|f 0 |
2/3 2/3
Assim, para precisão simples, m ∼ 10−5 , ou seja, 5 dígitos de precisão, e para precisão dupla, m ∼ 10−11 ,
ou 11 dígitos significativos, aumentando sensivelmente a precisão na estimativa da derivada. A vantagem
desta fórmula comparada com a fórmula (2.2) é claramente visível na figura 1.5.
2.2.4 Fórmula de 5 pontos

Uma aproximação ainda melhor pode ser obtida partindo-se de (2.6),
1 1 1 1 v
f (x ± h) = f (x) ± f 0 (x)h + f 00 (x)h2 ± f 000 (x)h3 + f iv (x)h4 ± f (x)h5 + . . . ,
2 6 24 120
1 1
f (x + h) − f (x − h) = 2f 0 (x)h + f 000 (x)h3 + f v (x)h5 + O h7

3 60
e calculando
8 8
f (x + 2h) − f (x − 2h) = 4f 0 (x)h + f 000 (x)h3 + f v (x)h5 + O h7 .

3 15
Combinando-se adequadamente ambas as fórmulas, obtém-se
2
f (x − 2h) − 8f (x − h) + 8f (x + h) − f (x + 2h) = 12f 0 (x)h − f v (x)h5 + O h7 ,

5
ou seja,
f (x − 2h) − 8f (x − h) + 8f (x + h) − f (x + 2h) 1
= f 0 (x) − f v (x)h4 + O h6 .

12h 30
Portanto,
f (x − 2h) − 8f (x − h) + 8f (x + h) − f (x + 2h) 1
f 0 (x) ≈ + f v (x)h4 , (2.8)
12h 30
a qual é conhecida como derivada de 5 pontos.
O erro de truncamento agora é da ordem
t ∼ |f v | h4 ,
o que implica na seguinte estimativa de hmin que minimiza o erro total:

s
f |f |
hmin ∼ 5 ,
|f v |
com um erro relativo da ordem s

4
total |f v | |f | 4/5
∼ 5
5 f . (2.9)
|f 0 | |f 0 |
4/5
Para precisão simples, m ∼ 10−6 , ou seja, 6 dígitos significativos corretos, enquanto que em precisão dupla,
4/5
m ∼ 10−13 , ou seja, 13 dígitos significativos corretos.
Combinações ainda mais elaboradas levam a aproximações ainda mais precisas para a derivada. En-
tretanto, o número de cálculos da função f (x) em diferentes pontos aumenta com a precisão do método
empregado. Por conseguinte, não é usualmente vantajoso usar um método ainda mais preciso que a fórmula
da derivada de 5 pontos (2.8).
30 2.3. Fórmulas de diferenças finitas para a derivada segunda
2.3 Fórmulas de diferenças finitas para a derivada segunda
As fórmulas introduzidas na seção 2.2 pode sem estendidas para o cálculo da derivada de segunda ordem
de f (x), com diferentes ordens de convergência.
2.3.1 Fórmula de três pontos

Realizando-se a seguinte combinação linear:
1 iv
f (x + h) − 2f (x) + f (x − h) = f 00 (x)h2 + f (x)h4 + O h6 + · · · ,

12
ou seja,
f (x + h) − 2f (x) + f (x − h) 1
f 00 (x) ≈ − f iv (x)h2 , (2.10)
h 2 12
a qual já parte de uma precisão equivalente ao método de diferença centrada (2.6) para a derivada de
primeira ordem.
2.3.2 Fórmula de cinco pontos

Uma aproximação ainda melhor é obtida a partir da combinação:
2 vi
−f (x − 2h) + 16f (x − h) − 30f (x) + 16f (x + h) − f (x + 2h) ≈ 12f 00 (x)h2 − f (x)h6 ,
15
resultando na fórmula de cinco pontos para a derivada segunda:
f (x − 2h) − 16f (x − h) + 30f (x) − 16f (x + h) + f (x + 2h) 1
f 00 (x) ≈ − + f vi (x)h4 . (2.11)
12h 2 90
Expressões para derivadas de ordens ainda mais altas também pode ser obtidas a partir de combinações
lineares de f (x) calculada em diferentes pontos. Entretanto, estas expressões não serão abordadas neste
texto.
2.4 Fórmulas para o cálculo de derivadas em pontos fora da rede

As fórmulas apresentadas nas seções 2.2 e 2.3 são úteis quando a função f (x) possui uma expressão
analítica conhecida. Neste caso, para um determinado valor de h, sempre é possível calcular-se f (x ± h).
Entretanto, em muitas aplicações práticas, a forma analítica de f (x) não é conhecida, sendo esta apresentada
definida somente em pontos regularmente espaçados em uma rede.
O problema consiste agora em determinar o valor da derivada de f (x) em pontos sobre ou fora da rede.
Agora, o parâmetro h irá representar o espaçamento da rede, ou seja, f (x) é conhecida nos pontos x = xi ,
i = 1, 2, . . . , n, tais que x1 < x2 < x3 < · · · < xn e xi+1 − xi = h. Nestes pontos, f (xi ) ≡ fi . Deseja-se então
calcular a derivada em um ponto x = xi + ph, sendo que a quantidade p não necessariamente é inteira. Ou
seja, quer-se obter fp0 = f (xi + ph).
Abramowitz & Stegun [2] oferecem as seguintes fórmulas para as derivações.
2.4.1 Derivada de três pontos
1 1 1

f (xi + ph) ≈
0
p− f−1 − 2pfi + p + f1 + 0, 13f 000 (ξ)h2 , (x1 < ξ < xn )
h 2 2
onde f−1 = f (xi − h) e f1 = f (xi + h). Assim, se p = 0, esta fórmula se reduz à derivada centrada (2.6).
2.4.2 Derivada de quatro pontos
1 3p2 − 6p + 2 3p2 − 1

f (xi + ph) ≈ −
0
f−1 − 3p − 4p − 1 fi + 3p − 2p − 2 f1 −
2 2

f2
2h 3 3
(
0, 096f iv (ξ)h3 , (0 < p < 1)
+
0, 168f iv (ξ)h3 , (−1 < p < 0)
onde f2 = f (xi + 2h).
2.4.3 Derivada de cinco pontos
1 2p3 − 3p2 − p + 1 4p3 − 3p2 − 8p + 4

f (xi + ph) ≈
0
f−1 + 2p2 − 5 pfi

f−2 −
2h 6 3
4p3 + 3p2 − 8p − 4 2p3 + 3p2 − p − 1

− f1 + f2 + 0, 06f v (ξ)h4 ,
3 6
onde agora f−2 = f (xi − 2h) e, para p = 0, a fórmula acima reduz-se à derivada de cinco pontos (2.8).
2.5 Extrapolação de Richardson e estimativa de erro

Nesta seção será introduzida uma idéia útil em diversos ramos da análise numérica, conhecida como
Extrapolação de Richardson. Será mostrado como se pode obter uma aproximação muito boa do erro
absoluto de qualquer das fórmulas apresentadas para derivação numérica e como esta estimativa pode ser
usada para incrementar substancialmente a acurácia do resultado.
Este tratamento depende da possibilidade de variação livre do espaçamento de grade h ou de qualquer
outro parâmetro de controle no método e, portanto, não é útil quando a função for conhecida somente em
uma grade fixa, como no caso de valores experimentais. Para estes casos, o programador está restrito às
fórmulas e às estimativas de erro apresentadas na seção 2.4. Contudo, quando a forma funcional de f (x)
for conhecida, o método da extrapolação de Richardson possibilita um resultado extremamente acurado,
juntamente com uma excelente estimativa de erro.
Considera-se, então, um algoritmo numérico destinado a executar uma determinada operação. Sendo
fexato o valor exato do resultado desta operação e f l(f, h) a aproximação a fexato obtida com o uso do
algoritmo numérico, o qual é de ordem n, regulado pelo parâmetro de controle h. Pode-se então escrever
fexato = f l(f, h) + A[f ]hn + B[f ]hn+m + · · · ,
onde A e B são funcionais aplicados a f . Sendo o algoritmo de ordem n, o erro predominante é dado
pelo termo A[f ]hn , ao passo que o termo posterior na correção é dado pelo termo B[f ]hn+m , para m > 1.
Aplicando-se então o algoritmo para valores do parâmetro h1 = h e h2 = h/R, sendo R > 1, resulta
fexato = f l(f, h) + A[f ]hn + B[f ]hn+m + . . . (2.12a)

n n+m
h h h
fexato = f l f, + A[f ] + B[f ] + ... (2.12b)
R R R
Os erros absolutos nas aproximações f l(f, h) e f l(f, h/R) são dados, em mais baixa ordem, respectivamente
por
EA(h) = fexato − f l(f, h) ' A[f ]hn

n
h h h
EA = fexato − f l f, ' A[f ] .
R R R
Subtraindo (2.12b) de (2.12a), obtém-se, até a ordem n + m:

n
h h
0 = f l(f, h) − f l f, + A[f ]h − A[f ]
n
+ O hn+m ,

R R
(Rn − 1)

h
0 = f l(f, h) − f l f, + A[f ]hn + O hn+m .

R R n
Resolvendo a equação acima para h1 e h2 , obtém-se então as estimativas de erro, exatas até a ordem n + m:
Rn

h
A[f ]h = EA(h) ' f l f,
n
− f l(f, h) (2.13a)
R Rn − 1
n
1

h h h
A[f ] = EA ' f l f, − f l(f, h) . (2.13b)
R R R Rn − 1
Expressão (2.13a) consiste em uma estimativa do valor do erro do algoritmo empregando o parâmetro h1 ,
ao passo que (2.13b) é a estimativa do erro do mesmo algoritmo usando o parâmetro h2 .
32 2.5. Extrapolação de Richardson e estimativa de erro
Uma vez obtida a estimativa de erro para a melhor aproximação (usando h2 ), pode-se adicionar esta
estimativa ao valor aproximado f l (f, h2 ) para se realizar um refinamento no resultado; isto é, uma vez que
n n+m n+m+`
h h h h
fexato = f l f, + A[f ] + B[f ] + C [f ] + ...,
R R R R
substituindo (2.13b) obtém-se o valor extrapolado

n+m n+m+`
1

h h h h
fexato = f l f, + f l f, − f l(f, h) + B[f ] + C [f ] + ...,
R R R −1
n R R
ou
n+m n+m+`
1

h h h
fexato = n n
R f l f, − f l(f, h) + B[f ] + C [f ] + ..., (2.14)
R −1 R R R
o qual possui um erro da ordem hn+m .

Observa-se que com o emprego da técnica da extrapolação de Richardson obteve-se um estimativa bas-
tante acurada do erro resultante da aplicação do método numérico para um valor de parâmetro h2 = h/R,
sem haver a necessidade de se desenvolver a forma operatorial de A[f ]. Além disso, o valor extrapolado
(2.14) resulta ser de mais alta ordem (n + m) que a aproximação original f l (f, h2 ).
Parece, assim, que um único processo de cálculo fornece dois refinamentos: uma estimativa de erro ao
mesmo e um valor extrapolado de ordem mais alta. Contudo, Press et al. (1992) [12] constantemente
enfatizam que ordem mais alta não significa necessariamente maior acurácia. O valor extrapolado pode
ser de ordem mais alta, mas não existe nenhuma estimativa do erro associado ao mesmo; o erro calculado
está associado ao valor não extrapolado f l (f, h2 ). Para que se obtenha uma estimativa do erro de (2.14) é
necessário aplicar-se uma vez mais o processo de extrapolação.
Escrevendo-se as aproximações não extrapoladas realizadas inicialmente como

h h
f l0 (h) ≡ f l (f, h) , f l0 ≡ f l f, ,
R R
pode-se escrever a aproximação extrapolada uma vez (2.14) como
1 Rn f l (f, h/R) − f l(f, h)

h h
f l1 (h) ≡ f l f, + f l f, − f l(f, h) =
R R Rn − 1 Rn − 1
Rn f l0 (h/R) − f l0 (h)
≡ ,
Rn − 1
podendo-se então escrever (2.14) como
n+m n+m+`
h h
fexato = f l1 (h) + B[f ] + C [f ] + ....
R R
Escrevendo agora esta última expressão para h/R,

n+m n+m+`
h h h
fexato = f l1 + B[f ] + C [f ] + . . . .,
R R2 R2
e subtraindo ambas as expressões, obtém-se as seguintes expressões para os erros:

n+m
Rn+m

h h
EA1 (h) ' B[f ] = f l1 − f l1 (h) (2.15a)
R R Rn+m − 1
n+m
1

h h h
EA1 ' B[f ] = f l1 − f l1 (h) , (2.15b)
R R 2 R R n+m −1
sendo que EA1 (h) é a estimativa de erro para f l1 (h), a qual não havia sido obtida na iteração anterior, e
EA1 (h/R) é a estimativa de erro para f l1 (h/R). Agora, o novo valor extrapolado passa a ser f l2 (h), dado
por
1 Rn+m f l1 (h/R) − f l1 (h)

h h
f l2 (h) ≡ f l1 + f l1 − f l1 (h) = , (2.16a)
R R R n+m −1 Rn+m − 1
e
n+m+`
h
fexato = f l2 (h) + C [f ] + ··· . (2.16b)
R2
Esta nova aproximação possui um erro de ordem hn+m+` .

Pode-se induzir assim que próximo termo extrapolado será
Rn+m+` f l2 (h/R) − f l2 (h)

f l3 (h) = , (2.17a)
Rn+m+` − 1
e
n+m+`+p
h
fexato = f l3 (h) + D [f ] + ··· , (2.17b)
R3
com uma estimativa de erros igual a

n+m+`
Rn+m+`

h h
EA3 (h) ' C[f ] = f l3 − f l3 (h) (2.18a)
R2 R R n+m+` −1
n+m
1

h h h
EA3 ' C[f ] = f l3 − f l3 (h) . (2.18b)
R R3 R Rn+m+` − 1
E assim sucessivamente para ordens mais altas. Deve-se ressaltar por fim que o algoritmo f l (f, h) somente
foi utilizado no cálculo dos termos não extrapolados f l0 (h). Os termos restantes são obtidos apenas com
o uso da regra de extrapolação. Contudo, para obter-se f lk (h) para k > 0, é necessário conhecer-se os
termos extrapolados anteriores, o que implica, ao final das contas, que é necessário aplicar-se o algoritmo
f l0 k vezes, para valores de incrementos consecutivamente menores: f l0 (h), f l0 (h/R), f l0 h/R2 , . . . ,

f l0 h/Rk .

Exemplo 2.1. Como exemplo de uso da extrapolação de Richardson para o cálculo de derivação numérica,
emprega-se a expressão para derivação centrada, juntamente com a sua estimativa de erro (2.7),
f (x + h) − f (x − h) 1 000
f 0 (x) = − f (x)h2 + O h4 ,

2h 6
a qual mostra que o método é de ordem n = 2, enquanto que o próximo termo é de ordem n + m = 4.
Também identifica-se A[f ] = −f 000 (x)/6. Tomando-se o valor R = 2 e empregando-se a fórmula acima para
h1 = h e h2 = h/2, obtém-se as seguintes expressões:
f (x + h) − f (x − h) 1 000
f 0 (x) = − f (x)h2 + O h4 ,

2h 6
f (x + h/2) − f (x − h/2) 1 000 h2
4
h
f 0 (x) = − f (x) + O .
h 6 4 16
Chamando então
f (x + h) − f (x − h) f (x + h/2) − f (x − h/2)
f l (f 0 , h1 ) = e f l (f 0 , h2 ) = ,
2h h
a estimativa de erro obtida para f l (f 0 , h2 ) é dada por (2.13b),
1 1
EA (h2 ) ' [f l (f 0 , h2 ) − f l (f 0 , h1 )] = [f l (f 0 , h2 ) − f l (f 0 , h1 )] , (2.19a)
22 − 1 3
ao passo que o valor extrapolado para o cálculo da derivada é dado por (2.14),
1
f 0 (x) = f l (f 0 , h2 ) + [f l (f 0 , h2 ) − f l (f 0 , h1 )] + O h4 . (2.19b)

3

-2
10
-4 Erro aproximado
10 Erro exato
Derivada extrapolada
-6
10
Erro Absoluto
-8
10
-10
10
-12
10
-14
10 0 2 4 6 8 10 12
10 10 10 10 10 10 10
-1
h
Figura 2.1: Gráfico log-log da estimativa de erro absoluto no cálculo da derivada centrada da função f (x) = sen x2 ,
em x = 0, 5, juntamente com o valor exato do erro e o valor extrapolado da derivada.
O resultado obtido com o emprego das expressões (2.19a,b) pode ser visto na figura 2.1. Nesta, a exemplo
do que se fez na figura 1.5, calculou-se numericamente a derivada numérica da função f (x) = sen x2 no ponto
x = 0, 5 a partir da fórmula de diferença centrada. Neste caso, porém, pode-se calcular também a estimativa
de erro (2.19a) e o valor extrapolado (2.19b). Observa-se que a estimativa de erro é tão boa que se torna
indistingüível do valor exato do erro durante todo o intervalo de valores de h para os quais o erro de
truncamento é mais importante que o erro de arredondamento. Além disso, observa-se também que o valor
extrapolado refina o resultado em mais de 2 ordens de grandeza. O programa em Fortran 95 que gerou os
dados apresentados na figura 2.1 está no Programa 2.1.
Programa 2.1: Programa em Fortran 95 que calculou o erro e o valor extrapolado apresentados na Figura 2.1.
program d e r i v a d a s _ e x t r a p o l a
integer : : i
r e a l ( kind= dp ) : : h= 0 . 1 _dp ! h i n i c i a l i z a d o a 1/50.
r e a l ( kind= dp ) , parameter : : x= 0 . 5 _dp ! Valor de x f i x o .
r e a l ( kind= dp ) : : df1 , df2 , df , e r r o _ e s t , f l
!
f l = 2 . 0 _dp∗x∗ c o s ( x∗x ) ! Valor c o r r e t o da d e r i v a d a em x .
open ( unit =10 , f i l e =’ d e r i v s _ e x t . dat ’ )
do i= 1 , 45
d f 1= f p 3 ( x , h ) ! Derivada d i f e r e n c a c e n t r a d a
d f 2= f p 3 ( x , 0 . 5 _dp∗h )
e r r o _ e s t= ( d f 2 − d f 1 ) / 3 . 0 _dp
d f= d f 2 + e r r o _ e s t
write ( 1 0 , ’ ( 4 ( e10 . 4 , 1 x ) ) ’ ) 1 . 0 _dp/h , abs ( e r r o _ e s t ) , &
abs ( d f 2 − f l ) , abs ( d f − f l )
h= 0 . 5 _dp∗h ! h e d i v i d i d o por 2 .
end do
CONTAINS
function f ( x )
f= s i n ( x∗x )
return
end function f
!
function f p 3 ( x , h )
r e a l ( kind= dp ) : : f p 3
r e a l ( kind= dp ) , intent ( in ) : : x , h
f p 3= 0 . 5 _dp∗ ( f ( x+h ) − f ( x−h ) ) / h
return
end function f p 3
end program d e r i v a d a s _ e x t r a p o l a
Caso se queira empregar este método para uma função definida somente em pontos de rede, os incre-
mentos h1 e h2 devem necessariamente ser pontos desta rede. Neste caso, colocando h1 = 2h e h2 = h em
(2.1b), resulta
1
f 0 (x) = f l (f 0 , h) + [f l (f 0 , h) − f l (f 0 , 2h)] + O h4

3
f (x − 2h) − 8f (x − h) + 8f (x + h) − f (x + 2h)
= + O h4 ,

12h
a qual é justamente a fórmula de 5 pontos (2.8). Portanto, o uso do valor extrapolado não é útil para pontos
fixos de rede, uma vez que o valor de h não pode ser variado.
A subrotina DFDX_RICH, listada no Programa 2.2 implementa o cálculo da derivada numérica usando o
Método de Richardson. A rotina tem como parâmetros de entrada o nome da função f (x) analítica a ser
derivada, a qual deve ser fornecida por meio de uma função externa, o ponto onde calcular a derivada, o
tamanho inicial do parâmetro h e o limite superior solicitado para o erro relativo do resultado. Como saídas,
a rotina fornece o valor numérico de f 0 (x) e uma estimativa do valor do erro relativo. Como o resultado da
Método de Richardson é equivalente ao resultado do método de 5 pontos (seção 2.2.4), o menor erro relativo
possível é estimado igual ao fornecido pela fórmula (2.9). Portanto, se o valor solicitado para o erro relativo
máximo for menor que este valor, a rotina automaticamente irá interromper o processamento, pois os erros
de arredondamento irão impedir a obtenção de um resultado com a precisão solicitada.

Programa 2.2: Subrotina que calcula numericamente a derivada pelo Método da Extrapolação de Richardson.
! C a l c u l a a d e r i v a d a numerica de uma f u n c a o a n a l i t i c a p e l o
! Metodo da E x t r a p o l a c a o de Richardson .
! Argumentos :
! f : Funcao e x t e r n a a s e r d e r i v a d a ( entrada ) .
! x : Ponto onde c a l c u l a r a d e r i v a d a ( entrada ) .
! h_ini : Valor i n i c i a l para o i n t e r v a l o de d i f e r e n c a f i n i t a ( e n t r a d a ) .
! e r r e s t : Valor maximo s o l i c i t a d o para o e r r o r e l a t i v o ( entrada ) .
! dfdx : Valor da d e r i v a d a numerica ( saida ).
! e r r _ s a i : Valor e s t i m a d o do e r r o r e l a t i v o da d e r i v a d a ( saida ).
!
! Obs . : Caso parametro e r r e s t s e j a menor que a e s t i m a t i v a de
! e r r o r e l a t i v o minimo para o metodo , a r o t i n a i n t e r r o m p e
! automaticamente o p r o c e s s a m e n t o .
subroutine d f d x _ r i c h ( f , x , h_ini , e r r e s t , dfdx , e r r _ s a i )
integer , parameter : : dp= s e l e c t e d _ r e a l _ k i n d ( 1 0 , 2 0 0 )
r e a l ( kind= dp ) , intent ( in ) : : x , h_ini , e r r e s t
r e a l ( kind= dp ) , intent ( out ) : : dfdx , e r r _ s a i
interface
function f ( x )
integer , parameter : : dp= s e l e c t e d _ r e a l _ k i n d ( 1 0 , 2 0 0 )
r e a l ( kind= dp ) :: f
end function f
end i n t e r f a c e
! Variaveis locais .
integer :: i
r e a l ( kind= dp ) : : h , df1 , df2 , err_abs
r e a l ( kind= dp ) , parameter : : e r r r e l _ m i n= 3 . 0 e −13_dp
!
i f ( e r r e s t <= e r r r e l _ m i n ) then
print ’ ( "O e r r o r e l a t i v o s o l i c i t a d o e muito pequeno . " ,/ , &
" E r r o s de arredondamento i r a o i m p e d i r que a r o t i n a " , / , &
" atinja a precisao solicitada . " ) ’
STOP
end i f
h= h_ini
d f 1= df_cent ( x , h )
do
d f 2= df_cent ( x , 0 . 5 _dp∗h )
err_abs= ( d f 2 − d f 1 ) / 3 . 0 _dp
dfdx= d f 2 + err_abs
e r r _ s a i= abs ( err_abs / dfdx )
i f ( e r r _ s a i <= e r r e s t ) e x it
d f 1= d f 2
h= 0 . 5 _dp∗h
end do
return
CONTAINS
function df_cent ( x , h )
r e a l ( kind= dp ) : : df_cent
df_cent= 0 . 5 _dp∗ ( f ( x+h ) − f ( x−h ) ) / h
return
end function df_cent
end subroutine d f d x _ r i c h

Capítulo 3
Integração Numérica
3.1 Introdução
Integração numérica, também denominada quadratura, possui uma história que se estende desde antes
da invenção do cálculo. O fato de integrais de funções elementares não poderem, em geral, ser calculadas
analiticamente, ao passo que suas derivadas são facilmente obtidas, serviu de razão para enfatizar esta área
da análise numérica já nos séculos XVIII e XIX.
Em contraste com a dificuldade de se calcular analiticamente uma integral, o cálculo numérico pode
ser realizado de forma relativamente simples, exatamente ao contrário do que acontece com a derivação. A
definição de uma integral de Riemann consiste no limite da soma da área delimitada por regiões retangulares
à medida que a largura h dos retângulos vai a zero e o seu número total vai a infinito:
 
Z b (b−a)/h
X
f (x)dx = lim h f (xi ) .
a h→0
i=1
Uma maneira tradicional de medir numericamente a área sob f (x) consiste em traçar o seu gráfico sobre
um papel milimetrado e contar o número de quadrados sob a curva. Por esta razão a integração numérica
também foi denominada inicialmente de quadratura numérica.
A integral da função f (x) é aproximada numericamente de uma forma equivalente à soma dos quadrados
ou retângulos. A maior parte das fórmulas abordadas neste capítulo podem ser colocadas na forma:
Z b N
X
f (x)dx = f (xi )wi + N . (3.1)
a i=1
Aqui, f (x) é calculada em N pontos situados no intervalo [a, b] (para fórmulas fechadas, isto é, que envolvem
os limites) ou no intervalo (a, b) (para fórmulas abertas, que não envolvem os limites). Os valores das funções
calculados em cada ponto do intervalo, fi = f (xi ) são então somados com o intermédio de um peso wi . A
quantidade N consiste na estimativa do erro de truncamento do método empregado. Embora os métodos,
em geral, somente forneçam o resultado exato para N → ∞, alguns deles fornecem o resultado exato para
certas classes especiais de funções (como polinômios, por exemplo) para N finito.
Os diferentes algoritmos de integração utilizam distintos conjuntos de pontos {xi } e de pesos {wi }.
Geralmente, a precisão aumenta com N , mas erros de arredondamento eventualmente acabam por limitar
a precisão final. Uma vez que o “melhor” método depende do comportamento específico de f (x), não existe
um método que possa ser universalmente considerado o melhor. De fato, alguns dos esquemas automáticos
de integração numérica, que podem ser encontrados em bibliotecas tais como a IMSL, irão testar diferentes
métodos até encontrar aquele que forneça o melhor resultado.
Nos esquemas mais simples de integração, o integrando é aproximado por uns poucos termos no de-
senvolvimento em série de McLaurin de f (x), sendo estes os termos a ser integrados. Exceto no caso do
integrando apresentar um comportamento não usual em algum intervalo de valores de x, termos sucessivos,
obtidos com o aumento de N , irão fornecer precisão cada vez maior, até que os erros de arredondamento
se tornem suficientemente importantes. Nestes esquemas, denominados de Newton-Cotes, o intervalo total
é dividido em subintervalos iguais, conforme ilustrado na figura 3.1, com o integrando calculado em pon-
tos igualmente espaçados xi . Estes algoritmos incluem a regra trapezoidal (primeira ordem) e a regra de
Simpson (segunda ordem).
37
38 3.2. Fórmulas de Newton-Cotes
Figura 3.1: Fórmulas de quadratura com abcissas igualmente espaçadas calculam a integral de uma função entre
x0 e xN +1 . Fórmulas fechadas calculam o valor da função nos pontos extremos do intervalo, enquanto que fórmulas
abertas não usam estes pontos.
Esquemas mais acurados de integração são possíveis se os pontos não necessariamente forem regularmente
espaçados. Métodos de quadratura Gaussiana possuem a habilidade de integrar exatamente (exceto pelo
erro de arredondamento) o produto de uma função por um polinômio de grau (2N − 1), utilizando somente
N valores de f (x). Em geral, resultados obtidos pela quadratura Gaussiana são superiores aos obtidos pelos
métodos de Newton-Cotes, desde que não haja singularidades no integrando ou em sua derivada.
3.2 Fórmulas de Newton-Cotes

As fórmulas de Newton-Cotes (1711) para a integração numérica são caracterizadas por pontos de inte-
gração igualmente espaçados no intervalo de integração (a, b). Seja N um número inteiro que determina o
número total de pontos onde a função f (x) deve ser calculada e a quantidade h é o espaçamento dos pontos,
conforme pode ser observado na figura 3.1. Os pontos do conjunto {xi } que serão realmente empregados no
cálculo da integração numérica dependem se a quadratura será aberta ou fechada, conforme também está
representado na figura 3.1.
3.2.1 Fórmulas fechadas de Newton-Cotes

As fórmulas fechadas de Newton-Cotes que serão aqui introduzidas são ilustradas pela figura 3.2. Serão
utilizados N +1 pontos igualmente espaçados, identificados pelo índice i (i = 0, 1, . . . , N ), com o espaçamento
entre os pontos dado por
xN − x0 b−a
h= = .
N N
Figura 3.2: Nas fórmulas fechadas, são utilizados N + 1 pontos, que variam de x0 = a a xN = b.

Capítulo 3. Integração Numérica 39
Os pontos de integração das fórmulas de Newton-Cotes serão definidos por:
xi = a + ih, (i = 0, . . . , N ),
enquanto que os valores da função nos pontos xi serão representados por
fi ≡ f (xi ).
Polinômio de Lagrange.
A função f (x) será agora aproximada por um polinômio interpolador, isto é, no lugar de f (x) considera-se
um polinômio de grau N , pN (x), o qual possui os mesmos valores da função nos pontos xi , isto é,
pN (xi ) = fi , (i = 0, . . . , N ).
Sem demonstração,1 estes polinômio são dados por
pN (x) = f (x0 )l0N (x) + f (x1 )l1N (x) + · · · + f (xN )pN

N (x)
N
X
= fn lnN (x), (3.2a)
n=0
onde lnN (x) são os polinômios de Lagrange, definidos por

N
(x − x0 ) (x − x1 ) . . . (x − xn−1 ) (x − xn+1 ) . . . (x − xN ) Y (x − xi )
lnN (x) = = . (3.2b)
(xn − x0 ) (xn − x1 ) . . . (xn − xn−1 ) (xn − xn+1 ) . . . (xn − xN ) i=0
(xn − xi )
(i6=n)
A verificação de que pN (x) é o polinômio interpolador segue diretamente da substituição dos pontos xi :
∀n ∈ {0, 1, . . . , N } , lnN (xn ) = 1 e lnN (xk ) = 0, para k 6= n =⇒ pN (xn ) = fn .
O erro associado à aproximação fornecida pelos polinômios de Lagrange, N (x) ≡ f (x) − pN (x), é dado
por:
f (N +1) (α)
N (x) = [(x − x0 ) (x − x1 ) . . . (x − xN )] , (3.2c)
(N + 1)!
onde
α ∈ [a, b] .
Desta forma, pode-se escrever,
f (x) = pN (x) + N (x), (3.2d)
para x ∈ [a, b].
Uso dos polinômios de Lagrange na integração numérica

Fazendo uso então do polinômio de Lagrange de grau N para aproximar f (x) pelos N +1 pontos ilustrados
na figura 3.2, obtém-se:
Z b Z b
f (x)dx = [pN (x) + N (x)] dx
a a
N b
f (N +1) (α) b
X Z Z
= fi liN (x)dx + [(x − x0 ) (x − x1 ) . . . (x − xN )] dx. (3.3a)
i=0 a (N + 1)! a
Pode-se então escrever a integral na forma (3.1), onde os pesos da fórmula de integração são obtidos por:
(x − x0 ) (x − x1 ) . . . (x − xi−1 ) (x − xi+1 ) . . . (x − xN )
Z b Z b
wi = liN (x)dx = dx, (3.3b)
a a (x i − x0 ) (xi − x1 ) . . . (xi − xi−1 ) (xi − xi+1 ) . . . (xi − xN )
ao passo que os erros de truncamento serão dados por
f (N +1) (α) b
Z
N = [(x − x0 ) (x − x1 ) . . . (x − xN )] dx. (3.3c)
(N + 1)! a
1A qual será apresentada em um capítulo posterior desta Apostila.

Figura 3.3: Integração numérica pela regra trapezoidal. A área sob a curva f (x) entre x0 e x1 é aproximada pela
área do trapézio amarelo.
Deve-se enfatizar aqui que a fórmula (3.3a) é exata para um polinômio de grau 6 N .
Desta forma, pode-se obter fórmulas do tipo Newton-Cotes para polinômios de qualquer grau. Historica-
mente, as primeiras fórmulas foram estabelecidas para polinômios de graus baixos. Algumas destas fórmulas
serão apresentadas a seguir.
Fórmulas fechadas são aquelas que utilizam os pontos extremos do intervalo [a, b], isto é,
x0 = a e xN = b.
Estas fórmulas são adequadas quando o integrando for bem comportado nos limites de integração; não
apresentando singularidades, por exemplo.
3.2.1.1 Regra trapezoidal (N = 1)

A regra trapezoidal, ou fórmula do trapézios, corresponde à interpolação de f (x) a ser integrada por um
polinômio de grau 1. Como a interpolação linear necessita de somente 2 pontos, estes serão os extremos do
intervalo de integração, isto é, x0 = a e x1 = b, com N = 1 e h = b − a.
As fórmulas (3.3a-c) nos permitem encontrar os pesos:
2 b

x1
(x − x1 ) 1 (x − b) 1
Z
wo = dx = − = h,
x0 (xo − x1 ) 2 (b − a) 2
a
b
2
x1
(x − x0 ) 1 (x − a) 1
Z
w1 = dx = = h
x0 (x1 − x0 ) 2 (b − a) 2
a
e o erro 00
f (α) x1
1 00
Z
1 ≡ T = (x − x0 ) (x − x1 ) dx = − f (α)h3 .
2 x0 12
Portanto, a regra trapezoidal para integração no intervalo (x0 , x1 ) fica
b
1
Z
h
f (x) = (f0 + f1 ) − f 00 (α)h3 . (3.4)
a 2 12
O nome fórmula dos trapézios vem do fato de se aproximar a função f (x) por um trapézio de lados f0 e f1
e de base h = b − a, conforme está representado na figura 3.3. Pode-se observar que este método, bastante
simples, já fornece um erro de ordem T ∼ h3 .
3.2.1.2 Regra de Simpson (N = 2)

Esta é uma das regras de integração mais conhecidas e utilizadas. A função f (x) é aproximada por um
polinômio de grau 2 que coincide com esta em três pontos: x0 , x1 e x2 . Portanto, é necessário conhecer 3
valores de f (x), igualmente espaçados, para aplicar esta regra.
Figura 3.4: Integração numérica pela regra de Simpson. A área sob a curva f (x) entre x0 e x2 é aproximada pela
área sob a parábola P (x).
Tomando N = 2, x0 = a, x1 = (a + b)/2, x2 = b e h = (b − a)/2 em (3.3a-c), obtém-se para os pesos

(x − x1 ) (x − x2 ) 1
Z x2
w0 = dx = h
x (x0 − x1 ) (x0 − x2 ) 3
Z x0 2
(x − x0 ) (x − x2 ) 4
w1 = dx = h
x (x1 − x0 ) (x1 − x2 ) 3
Z x0 2
(x − x0 ) (x − x1 ) 1
w2 = dx = h,
x0 (x2 − x0 ) (x2 − x1 ) 3
ao passo que o erro de truncamento fica dado por
000
f (α) x2
Z
2 = (x − x0 ) (x − x1 ) (x − x2 ) dx.
3! x0
Contudo, surpreendentemente obtém-se que 2 = 0! Isto pode ser facilmente visto realizando-se a mudança
de variáveis t = x − x1 na integração acima, resultando
Z x2 Z h Z h
(x − x0 ) (x − x1 ) (x − x2 ) dx = (t + h) t (t − h) dt = t2 − h2 tdt = 0.

x0 −h −h
Isto não significa que o erro na regra de Simpson é sempre nulo. Neste caso é necessário tomar o próximo
termo no cálculo do erro N de um polinômio interpolador de grau N , dado inicialmente por (3.2c), porém
agora acrescentando o próximo termo no desenvolvimento em série de McLaurin de f (x) em torno de x = x1 :
f (iv) (α)
(x − x1 ) .
4!
Desta forma, o erro fica:
f (iv) (α) x2 1 1
Z Z h
2
S = (x − x0 ) (x − x1 ) (x − x2 ) dx = f (iv) (α) (t + h) t2 (t − h) dt = − f (iv) (α)h5 .
4! x0 4! −h 90
Portanto, a regra de Simpson para integração no intervalo (x0 , x2 ) fica
b
1
Z
h
f (x) = (f0 + 4f1 + f2 ) − f (iv) (α)h5 . (3.5)
a 3 90
A figura 3.4 ilustra a aplicação da regra de Simpson para o cálculo da quadratura. Das expressões obtidas
para os erros das duas fórmulas polinomiais, (3.4) e (3.5), pode-se observar que a formula dos trapézios é
exata se f (x) for um polinômio de grau 1 (pois f 00 (x) = 0, ∀x), ao passo que a fórmula de Simpson é exata
se f (x) for um polinômio de grau igual ou menor que 3 (pois f (iv) (x) = 0, ∀x).
3.2.1.3 Regra de Simpson dos 3/8 (N = 3)

Existe uma regra de quatro pontos cujo erro é da mesma ordem de grandeza da regra de Simpson (3.5).
Tomando N = 3, x0 = a, x3 = b e h = (b − a)/3, pode-se mostrar:
b
3 3
Z
f (x)dx = h (f0 + 3f1 + 3f2 + fx ) − f (iv) (α)h5 . (3.6)
a 8 80
Pode-se ver que o erro é da mesma ordem de grandeza que (3.5).
3.2.1.4 Regra de Bode (N = 4)

Esta regra usa 5 valores de f (x) regularmente espaçados. Tomando N = 3, x0 = a, x4 = b e h = (b−a)/4,
obtém-se
2 8 (vi)
Z b
f (x)dx = h (7f0 + 32f1 + 12f2 + 32f3 + 7f4 ) − f (α)h7 . (3.7)
a 45 945
Pode-se observar que agora o erro de truncamento (B ∼ h7 ) é bem menor que o erro obtido pela regra de
Simpson.
3.2.1.5 Regras em ordens mais altas (N > 5)

Outras expressões, com erros de truncamento sucessivamente menores, podem ser obtidas aumentando-
se o grau dos polinômios interpoladores. Em contrapartida, é necessário calcular f (x) em um número cada
vez maior de pontos e a quantidade total de operações de ponto flutuante também aumenta. A relação
de compromisso entre a precisão obtida, o esforço computacional necessário e o erro de arredondamento
resultante vai depender então da aplicação em estudo. Essas outras fórmulas fechadas de quadratura podem
ser obtidas, por exemplo, em Abramowitz & Stegun [2, seção 25.4].
Escrevendo-se uma forma geral para as fórmulas fechadas de Newton-Cotes:
Z b N
X
f (x)dx = dh fi wi + N , (3.8)
a i=0
a tabela 3.1 apresenta os valores dos parâmetros d e h, dos pesos wi e dos erros de truncamento N .
Exemplo 3.1. Sabe-se que

Z 2
dx
ln 2 = = 0, 6931471805599453094172322145818 . . .
1 x
Usando as fórmulas de Newton-Cotes (3.4 – 3.7), obtém-se os seguintes resultados para ln 2.
Regra trapezoidal. Com h = 1:
1 1
Z 2
dx
≈ 1+ = 0, 75; erro relativo: 8, 2%.
1 x 2 2
Regra de Simpson. Com h = 1/2:
1 8 1
Z 2
dx
≈ 1+ + = 0, 69444 . . . ; erro relativo: 0, 19%.
1 x 6 3 2
Regra de Simpson dos 3/8. Com h = 1/3:
3 9 9 1
Z 2
dx
≈ 1+ + + = 0, 69375; erro relativo: 0, 09%.
1 x 24 4 5 2
Regra de Bode. Com h = 1/4:
1 4 2 4 7
Z 2
dx
≈ 7 + 32 + 12 + 32 + = 0, 69317460 . . . ; erro relativo: 0, 004%.
1 x 90 5 3 7 2
Tabela 3.1: Fórmulas fechadas de Newton-Cotes, dadas por (3.8).

N d w0 w1 w2 w3 w4 w5 w6 w7 N
1 1/2 1 1 f (α)h3
1 00
− 12
2 1/3 1 4 1 f (α)h5
1 (iv)
− 90
3 3/8 1 3 3 1 − 80 f (α)h5
3 (iv)
4 2/45 7 32 12 32 7 8
− 945 f (vi) (α)h7
5 5/288 19 75 50 50 75 19 − 12096 f (vi) (α)h7
275
6 1/140 41 216 27 272 27 216 41 9

− 1400 f (viii) (α)h9
7 7/17280 751 3577 1323 2989 2989 1323 3577 751 − 518400 f (viii) (α)h9
8183

3.2.2 Fórmulas abertas de Newton-Cotes
Uma fórmula aberta não utiliza os pontos extremos no intervalo de integração. Na figura 3.2 estes
métodos utilizariam os pontos x1 , x2 , . . . , xN −1 , ou seja, fariam uso de N − 1 pontos. A principal motivação
para o emprego de uma fórmula aberta ocorre quando o integrando apresenta um comportamento não usual
próximo ao(s) limite(s) de integração, como uma singularidade, por exemplo.
Contudo, as fórmulas abertas raramente são empregadas, pelas seguintes razões:
1. Fórmulas abertas não podem ser facilmente compostas juntas para formar uma regra estendida, como
as fórmulas fechadas, que serão discutidas na seção 3.2.3.
2. Há outras classes de fórmulas de quadratura abertas largamente superiores às fórmulas de Newton-

Cotes. Um exemplo consiste nas fórmulas de quadratura gaussianas.
3. O polinômio interpolador raramente reproduz fidedignamente a forma de f (x) próxima aos pontos
singulares, o que reduz significativamente a utilidade de uma fórmula aberta.
Devido a estas razões, as fórmulas abertas não serão detalhadamente discutidas aqui. Somente será apre-
sentada a fórmula geral para uma quadratura aberta,
Z b N
X −1
f (x)dx = dh f i w i + N , (3.9)
a i=1
sendo que os parâmetros d e h e os pesos wi podem ser obtidos em [2, seção 25.4] e são dados na tabela 3.2.
Tabela 3.2: Fórmulas abertas de Newton-Cotes, dadas por (3.9). Na tabela, h = (b − a)/N e N = M + 2.
M d w1 w2 w3 w4 w5 w6 w7
1 3/2 1 1
2 4/3 2 -1 2
3 5/24 11 1 1 11
4 6/20 11 -14 26 -14 11
5 7/1440 611 -453 562 562 -453 611
6 8/945 460 -954 2196 -2459 2196 -954 460
3.2.3 Fórmulas fechadas estendidas

Quando o intervalo de integração é grande, pode não ser conveniente aumentar o grau do polinômio
interpolador para estabelecer fórmulas de integração mais precisas, uma vez que estas fórmulas tornam-se
gradativamente mais complicadas com o aumento do grau do polinômio.
A alternativa mais empregada neste caso é subdividir o intervalo de integração e aplicar as fórmulas
introduzidas na seção 3.2.1 repetidas vezes. Assim, são obtidas as fórmulas estendidas ou compostas.
3.2.3.1 Regra trapezoidal estendida

Divide-se o intervalo de integração [a, b] em N subintervalos de igual comprimento h = (b − a)/N .
Aplicando-se então a fórmula (3.4) N vezes para se realizar as integrações nos intervalos [x0 , x1 ], [x1 , x2 ],
. . . , [xN −1 , xN ] e adicionando estas integrações parciais, obtém-se a fórmula trapezoidal estendida:
Z b Z x1 Z x2 Z xN
f (x)dx = f (x)dx + f (x)dx + · · · + f (x)dx
a x0 x1 xN −1
h h h
= (f0 + f1 ) + (f1 + f2 ) + · · · + (fN −1 + fN )
2 2 2
1 00
− [f (α1 ) + f (α2 ) + · · · + f (αN )] h3
00 00
12
N
h 1 X 00
= (f0 + 2f1 + 2f2 + · · · + 2fN −1 + fN ) − f (αi ) h3 .
2 12 i=1
Algoritmo 3.1 Implementação da regra trapezoidal estendida.
Dados: h, fi = f (xi ) para i = 0, 1, . . . , N .
1. soma=0
2. Para i = 1 : N − 1, faça
3. soma= soma + fi
4. IT E = h
2 [2 soma + f0 + fN ]
Pode-se mostrar, usando o Teorema da Média, que

N
X
f 00 (αi ) = N f 00 (β), onde β ∈ [a, b] .
i=1
Portanto, obtém-se a regra trapezoidal estendida:
b
1 1
Z
f (x)dx = h (f0 + 2f1 + 2f2 + · · · + 2fN −1 + fN ) − (b − a)f 00 (β)h2 . (3.10)
a 2 12
Pode-se notar que agora o erro de truncamento é proporcional a T ∼ h2 ao passo que o erro para a fórmula
(3.4) é proporcional a h3 . Portanto, em princípio o erro aumentou na fórmula estendida. Contudo, deve-se
salientar que os espaçamentos nas fórmulas (3.4) e (3.10) têm valores distintos, o que não possibilita uma
comparação direta entre ambos.
A regra trapezoidal estendida pode ser implementada por um programa de computador com base no
algoritmo 3.1.
3.2.3.2 Regra de Simpson estendida

Para implementar a regra de Simpson estendida, é necessário dividir o intervalo [a, b] em um número par
de subintervalos, o que corresponde a um número total ímpar de pontos no conjunto {xi }, isto é, a N par,
uma vez que cada integração parcial será realizada com o uso de 3 pontos para a interpolação parabólica.
Assim, se N é um número par,
Z b Z x2 Z x4 Z xN
f (x)dx = f (x)dx + f (x)dx + · · · + f (x)dx
a x0 x2 xN −2
h h h
= (f0 + 4f1 + f2 ) + (f2 + 4f3 + f4 ) + · · · + (fN −2 + 4fN −1 + fN )
3 3 3
1 (iv) 1 1
(α1 ) h5 − f (iv) (α2 ) h5 − · · · − f (iv) αN/2 h5 ,

− f
90 90 90
b N/2
h5 X (iv)
Z
h
f (x)dx = (f0 + 4f1 + 2f2 + 4f3 + 2f4 + · · · + 2fN −2 + 4fN −1 + fN ) − f (αi ) .
a 3 90 i=1
A aplicação do Teorema da Média neste caso também fornece a seguinte expressão:

N/2
X N (iv)
f (iv) (αi ) = f (γ), a 6 γ 6 b.
i=1
2
Assim,
b
b − a (iv)
Z
h
f (x)dx = (f0 + 4f1 + 2f2 + 4f3 + 2f4 + · · · + 2fN −2 + 4fN −1 + fN ) − f (γ)h4 . (3.11)
a 3 180
Aqui também, embora o erro da regra de Simpson estendida seja aparentemente maior que na regra (3.5), os
valores de h em ambos os casos em geral são bastante diferentes. O algoritmo 3.2 mostra a implementação
da regra de Simpson estendida por um programa de computador.
Algoritmo 3.2 Implementação da regra de Simpson estendida.
Dados: N par, h, fi = f (xi ) para i = 0, 1, . . . , N .
1. soma = 0
2. Para i = 1, 3, 5, . . . , N − 1, faça
3. soma = soma + 2fi + fi+1

4. ISE = h
3 (2 soma + f0 − fN ).
Exemplo 3.2. Ainda calculando aproximações para ln 2, pode-se agora aplicar as fórmulas compostas.
Regra trapezoidal estendida. Tomando quatro trapézios no intervalo [1, 2], resulta N = 4, h = 0, 25 e
0, 25 8 4 8 1
Z 2
dx
≈ 1+ + + + = 0, 6970238 . . . ; erro relativo: 0, 56%.
1 x 2 5 3 7 2
Regra de Simpson estendida. Tomando duas parábolas na fórmula estendida de de Simpson, resulta
N = 4, h = 0, 25 e
0, 25 16 4 16 1
Z 2
dx
≈ 1+ + + + = 0, 693253968 . . . ; erro relativo: 0, 015%.
1 x 3 5 3 7 2
Comparando os resultados deste exemplo com o anterior, percebe-se que para cada regra individual, o erro
obtido foi menor, contudo, o erro é maior quando se comparam métodos que utilizam o mesmo número de
pontos. Por exemplo, o método trapezoidal estendido obteve um erro maior que a regra de Simpson dos
3/8, a qual também utiliza 4 pontos para calcular a quadratura.
3.2.4 Estimativas de erro nas fórmulas de Newton-Cotes

Embora as fórmulas de Newton-Cotes estudadas nas seções anteriores apresentem todas uma expressão
para o erro de truncamento, na prática, a aplicação das expressões não é factível. Isto porque expressões
como as obtidas nas fórmulas (3.10) e (3.11),
1 b − a (iv)
T E = − (b − a)f 00 (β)h2 , (a 6 β 6 b) e SE = − f (γ)h4 , (a 6 γ 6 b)
12 180
têm o seu cálculo impedido pelo desconhecimento do valor exato de β e γ.
Entretanto, há maneiras de se realizar estimativas dos valores máximos que estes erros podem assumir e
a partir destas estimativas pode-se calcular o valor ideal para h, o espaçamento entre os pontos, que permite
satisfazer um requisito inicial de valor máximo para os erros.
Ou seja, se o intervalo de integração for fechado e f (x) tiver derivadas contínuas neste intervalo até uma
ordem k > N , onde N é o grau da regra de Newton-Cotes empregada, sempre é possível escrever
1 1
|T E | = (b − a) |f 00 (β)| h2 6 (b − a)h2 max |f 00 (x)| (3.12a)
12 12 a6x6b
b − a (iv) 4
b−a 4
|SE | = f (γ) h 6 h max f (iv) (x) , (3.12b)

180 180 a6x6b
sendo que agora é necessário realizar estimativas para os valores máximos das derivadas de f (x) dentro do
intervalo considerado. Estas estimativas podem ser realizadas de diversas maneiras, tanto numericamente
quanto analiticamente. O exemplo abaixo ilustra a aplicação destas estimativas.
Exemplo 3.3. Quantos subintervalos e qual o espaçamento que devem ser empregados no cálculo de
Z 1
2
e−x dx
0
para que a aproximação tenha erro menor que 10−4 nos casos (a) Regra dos Trapézios Estendida e (b) Regra
de Simpson Estendida?
46 3.3. Quadratura gaussiana
Respostas: o integrando não possui primitiva, mas as suas derivadas podem ser calculadas em qualquer
ordem. Assim,
2 2
f 0 (x) = −2xe−x f 00 (x) = 2 2x2 − 1 e−x

2 2
f 000 (x) = 4x 3 − 2x2 e−x f (iv) (x) = 4 3 − 12x2 + 4x4 e−x

2
f (v) (x) = −8x 15 − 20x2 + 4x4 e−x .

(a) Para a fórmula dos trapézios, de acordo com (3.12a) é necessário então encontrar o máximo de f 00 (x)
no intervalo [0, 1]. Isto é possível uma vez que se conhece a única raiz de f 000 (x) neste intervalo, r = 0.
Portanto,
max |f 00 (x)| = |f 00 (r)| = 2
06x61
e assim,
1 2 p
hT E 6 10−4 =⇒ hT E 6 6 × 10−4 ' 0, 0245,
|T E | 6
6
o que corresponde a um número de subintervalos
1

NT E > Int = 41.
hT E
(b) Para a fórmula de Simpson, de acordo com (3.12b) é necessário encontrar o máximo de f (iv) (x) no
intervalo [0, 1]. Isto é possível uma vez que se conhecem as raízes de f (v) (x) neste intervalo:
1 √
r
r1 = 0, r2 = 5 − 10 ' 0, 9586.
2
Como !
√ 5 5
r
(r1 ) = 12 e f (r2 ) = 16 10 − 2 exp − + ' 7, 4195,
(iv) (iv)
2 2
f
obtém-se
max f (iv) (x) = f (iv) (r1 ) = 12

06x61
e, portanto,
h4SE p
6 10−4 =⇒ hSE 6 15 × 10−4 ' 0, 197,
4
|SE | 6
15
o que corresponde a um número de subintervalos
1

NSE > Int = 6.
hSe
Pode-se ver, portanto, que o número de subintervalos necessários para a regra de Simpson atingir um
determinado limiar de erro é substancialmente menor que o número requerido pela regra trapezoidal.
3.3 Quadratura gaussiana

Nas fórmulas da seção 3.2, a quadratura de uma função foi aproximada pela soma de seus valores
funcionais em um conjunto de pontos regularmente espaçados {f (xi )}, multiplicados pelos pesos {wi }.
Observou-se que escolhas adequadas nos pesos wi permitem a obtenção de fórmulas de quadratura de
ordens cada vez mais altas.
Nesta seção, serão introduzidas fórmulas de quadratura nas quais não somente os pesos {wi } na fórmula
genérica (3.1) poderão ser escolhidos, mas também as abcissas {xi } serão determinadas de tal forma que a
quadratura resultante será superacurada. Uma vez que as abcissas não serão mais regularmente espaçadas, as
fórmulas obtidas terão o dobro de graus de liberdade que as fórmulas de Newton-Cotes possuem, resultando
em fórmulas de quadratura de ordem essencialmente duas vezes maior que as fórmulas de Newton-Cotes,
com o mesmo número de cálculos do integrando.
Esta idéia foi inicialmente introduzida por Wilhelm Gauss (1814), portanto cerca de um século após a
introdução das fórmulas de Newton-Cotes. Por esta razão, estas fórmulas são conhecidas como Fórmulas
gaussianas ou Quadratura gaussiana. Na sua formulação original, Gauss utilizou frações continuadas
na obtenção de suas fórmulas. Em 1826, Jacobi derivou novamente as fórmulas gaussianas, agora utilizando
polinômios ortogonais. O tratamento sistemático de funções-peso arbitrárias W (x) usando os polinômios
ortogonais, da forma como hoje são usualmente empregadas as fórmulas gaussianas, é devido em grande
parte a Christoffel, em 1877.
O conceito de polinômios ortogonais frente a uma função-peso W (x) no intervalo (a, b) se deve à definição
de ortogonalidade de duas funções reais f (x) e g(x), pertencentes ao espaço vetorial das funções contínuas
por partes em (a, b) frente a uma função peso W (x). Uma condição suficiente para que f e g sejam ortogonais
é que o seu produto interno seja nulo,
Z b
hf |gi ≡ W (x)f (x)g(x)dx = 0.
a
Adicionalmente, se o produto interno hf |f i, definido como a norma de f (x), for unitário, então f (x) é
p
dita normalizada. Um conjunto de vetores {fi (x)}, i = 0, 1, 2, . . . , simultaneamente ortogonais entre si e

individualmente normalizados é denominado de conjunto ortonormal.
O emprego de polinômios ortogonais para a obtenção das fórmulas gaussianas será apresentado nas seções
a seguir.
3.3.1 Idéia básica na quadratura gaussiana

A idéia básica consiste em escrever a fórmula geral de quadratura (3.1) da seguinte maneira:
Z b Z b N
X
F (x)dx ≡ W (x)f (x)dx ≈ wi f (xi ) ,
a a i=1
onde o integrando é escrito F (x) ≡ W (x)f (x), sendo que W (x) passa a desempenhar o papel de função-peso
na fórmula gaussiana. A escolha da forma de W (x) pode ser feita de tal modo que o integrando restante,
f (x), resulte ser o mais suave possível, ou de forma a salientar possíveis singularidades em F (x). Isto é
necessário para que f (x) possa ser satisfatoriamente aproximada por um polinômio. Um exemplo seria a
quadratura adequada para aproximar a integral
exp − cos2 x
Z 1
√ dx.
−1 1 − x2
A escolha natural para a função-peso seria
1
W (x) = √ .
1 − x2
Esta escolha em particular define o uso da fórmula de Gauss-Chebyshev, conforme visto na seção 3.3.2.
Há um conjunto particular de formas para W (x) que constitui as fórmulas gaussianas tradicionais e que
possuem valores tabelados para os pesos {wi } e as abcissas {xi }. Algumas destas formas tradicionais serão
estudadas na seção 3.3.2.
Então, se para um polinômio de grau k qualquer, pk (x), vale a igualdade
Z b N
X
pk (x)dx = wi pk (xi ) , (3.13)
a i=1
determina-se o conjunto {xi , wi } de tal forma que a igualdade acima vale para qualquer polinômio de grau
6 k. Em princípio, esta escolha não introduz vantagem nenhuma em relação ao uso dos polinômios de
Legendre, usados nas fórmulas de Newton-Cotes, pois estes também são exatamente representados por esta
fórmula de quadratura, como se pode notar nas equações (3.3a-c). A vantagem consiste na escolha de um
conjunto de polinômios ortogonais e nas suas raízes para as abcissas. Neste caso, conforme se demonstra no
teorema abaixo, a fórmula (3.13) será exata para polinômios de grau 6 2k + 1! Neste sentido que se referiu
às fórmulas gaussianas como superacuradas.
Teorema 3.1
Sejam
1. ψk (x), k = 0, 1, . . . , N , polinômios de grau k, ortogonais relativamente ao produto interno
Z b
hψi |ψj i = ψi (x)ψj (x)dx = 0, para j 6= i.
a

2. {xi }, i = 0, 1, . . . , N as raízes de ψk+1 (x).
Se a fórmula de quadratura
Z b N
X
f (x)dx ≈ wi pk (xi )
a i=1
é exata para polinômios de grau 6 N , então ela também será exata para polinômios de grau
6 2N + 1.
Demonstração. Se p2N +1 (x) é um polinômio qualquer de grau 6 2N + 1, então este pode ser escrito
como:
p2N +1 (x) = ψN +1 (x)qN (x) + rN (x),
onde qN (x) e rN (x) são polinômios de grau 6 N e ψN +1 (x) é um polinômio de grau 6 N + 1 da família
ortogonal. Integrando esta expressão no intervalo (a, b):
Z b Z b Z b
p2N +1 (x)dx = ψN +1 (x)qN (x)dx + rN (x)dx,
a a a
observa-se que qN (x) sempre pode ser escrito na forma de uma combinação linear dos polinômios ψ1 (x), . . . , ψN (x),
pois estes são ortogonais. Portanto,
Z b
ψN +1 (x)qN (x)dx = 0.
a
Assim, se for usada a quadratura exata para rN (x), dada por (3.13), resulta
Z b Z b N
X
p2N +1 (x)dx = rN (x)dx = wi rN (xi ) .
a a i=1
Lembrando agora que rN (x) = p2N +1 (x) − ψN +1 (x)qN (x), obtém-se

Z b N
X
p2N +1 (x)dx = wi [p2N +1 (xi ) − ψN +1 (xi ) qN (xi )] .
a i=1
Agora, se as abcissas {xi }, i = 0, 1, . . . , N , forem escolhidas como as raízes do polinômio ψN +1 (x), isto é,
ψN +1 (xi ) = 0, ∀i = 0, 1, . . . , N , resulta finalmente
Z b N
X
p2N +1 (x)dx = wi p2N +1 (xi ) .
a i=1
O que demonstra ser a quadratura (3.13) exata para um polinômio de grau 6 2N + 1.
3.3.2 Fórmulas gaussianas clássicas

Deseja-se então um conjunto de polinômios {pj (x)} (j = 0, 1, 2, . . . ), mutuamente ortogonais frente a
uma função peso W (x) no intervalo (a, b),
Z b
hpi |pj i = W (x)pi (x)pj (x)dx = 0, i 6= j.
a
Um procedimento garantido para gerar este conjunto é fornecido pela relação de recorrência
p−1 (x) ≡ 0 (3.14a)

p0 (x) ≡ 1 (3.14b)
pj+1 (x) = (x − aj ) pj (x) − bj pj−1 (x), (j = 0, 1, 2, . . . ), (3.14c)
onde
hxpj |pj i
aj = (3.15a)
hpj |pj i
hpj |pj i
bj = . (3.15b)
hpj−1 |pj−1 i
A fórmula de quadratura gaussiana com N pontos, então, é:

Z b N
X
W (x)f (x)dx = wj f (xj ) + RN , (3.16)
a j=1
onde o conjunto de abcissas {xj } (j = 1, . . . , N ) consiste nas raízes de pN (x),
pN (xj ) = 0, j = 1, . . . , N, tais que a < x1 < x2 < · · · < xN < b, (3.17)
o conjunto de pesos {wj } é dado por

hpN −1 |pN −1 i
wj = (3.18)
pN −1 (xj ) p0N (xj )
e RN é o erro de truncamento da quadratura.
O cálculo das regras de quadratura gaussiana clássicas envolvem, então, duas fases:
1. a geração dos polinômios ortogonais p0 (x), p1 (x), . . . , pN (x) (3.14a-c) através da obtenção dos seus
coeficientes {aj , bj } (3.15a,b);
2. a determinação das raízes de pN (x) e o cálculos dos pesos associados {wj } (3.18).
Para o caso dos polinômios ortogonais clássicos, os coeficientes {aj , bj } são explicitamente conhecidos e a
primeira fase pode ser omitida. Contudo, caso se queira utilizar uma função peso W (x) não clássica, os
respectivos polinômios devem ser deduzidos a partir das relações de recorrência (3.14a-c).
Caso se deseje calcular a quadratura de F (x) = W (x)f (x) em um intervalo (x1 , x2 ), distinto do intervalo
(a, b) onde os polinômios pj (x) são mutuamente ortogonais, basta realizar-se uma mudança na variável de
integração,
b−a ax2 − bx1 x2 − x1 bx1 − ax2
x= y+ ⇐⇒ y = x+ ,
x2 − x1 x2 − x1 b−a b−a
de forma que
x2 b N
x2 − x1 x2 − x1 X
Z Z
W (y)f (y)dy = W (x)f (x)dx = wj f (yj ) + RN , (3.19)
x1 b−a a b − a j=1
onde
x2 − x1 bx1 − ax2
yj = xj + , j = 1, . . . , N,
b−a b−a
sendo {xj } as raízes de pN (x) (3.17).
A seguir, serão vistas algumas das regras de quadratura gaussiana clássicas.
3.3.2.1 Fórmula de Gauss-Legendre

Esta fórmula pode ser utilizada quando W (x) = 1, juntamente com os polinômios de Legendre Pn (x):
1 1
P0 (x) = 1 P1 (x) = x P2 (x) =
3x2 − 1 P3 (x) = 5x3 − 3x ,

2 2
(j + 1)Pj+1 (x) = (2j + 1)xPj (x) − jPj−1 (x),
os quais são ortogonais no intervalo (−1, 1). Neste caso, a fórmula de Gauss-Legendre fica, a partir de (3.16),
Z 1 N
X
f (x)dx = wj f (xj ) + RN , (3.20)
−1 j=1
onde {xj } (j = 1, . . . , N ) são as raízes de PN (x),
PN (xj ) = 0, j = 1, . . . , N, tais que − 1 < x1 < x2 < · · · < xN < 1 (3.21)
e os pesos são
2
wj = 2, j = 1, . . . , N
1− [PN0 (xj )]

x2j
Tabela 3.3: Abcissas {xj } (raízes dos polinômios de Legendre) e pesos {wj } para integração de Gauss-Legendre.
±xj wj
√ N =2
1/ 3 1
N =3
p0 8/9
3/5 5/9
N =4
0.3399810435848562648 0.65214515486254614263
0.8611363115940525752 0.34785484513745385737
N =5
0.00000000000000000000 128/225
0.53846931010568309104 0.47862867049936646804
0.90617984593866399280 0.23692688505618908751
N =6
0.23861918608319690863 0.46791393457269104739
0.66120938646626451366 0.36076157304813860757
0.93246951420315202781 0.17132449237917034504
N =7
0.00000000000000000000 512/1225
0.40584515137739716691 0.38183005050511894495
0.74153118559939443986 0.27970539148927666790
0.94910791234275852453 0.129484966168869693271
e o erro de truncamento é
4
22N +1 (N !)
RN = 3f
(2N )
(ξ), (−1 < ξ < 1) .
(2N + 1) [(2N )!]
A tabela 3.3 mostra as abcissas e os pesos para as fórmulas de Gauss-Legendre até N = 7. Valores de
{xj } e {wj } para N > 7 podem ser encontrados em Abramowitz & Stegun [2, capítulo 25]. Valores exatos
para as raízes e os pesos somente podem ser encontrados para um número finito de polinômios. Para os
restantes, é necessário obter-se estas quantidades numericamente.
Caso seja necessário calcular a quadratura no intervalo (x1 , x2 ) qualquer, a fórmula de Gauss-Legendre
fica, a partir de (3.19),
x2 1 N
x2 − x1 x2 − x1 X
Z Z
f (y)dy = f (x)dx = wj f (yj ) + RN , (3.22)
x1 2 −1 2 j=1
sendo
x2 − x1 x1 + x2
yj = xj + , j = 1, . . . , N.
2 2
R2
Exemplo 3.4. Calcula-se novamente a quadratura 1 dx x , porém agora utilizando-se as fórmulas de Gauss-
Legendre para um intervalo geral (3.22), com x1 = 1 e x2 = 2.
Fórmula de dois pontos. Usando apenas 2 pontos, j = 1, 2, N = 2, obtém-se
1 1 1
Z 2
dy
≈ w1 + w2 ,
1 y 2 y1 y2
onde
1 3 1 3
y1 = x1 + , y2 = x2 + ,
2 2 2 2
x1 e x2 são as raízes de (
1 x1 = − √13
P2 (xj ) = 3x2j − 1 = 0 =⇒

2 x2 = √1
3
e
2
wj = 2, j = 1, 2 =⇒ w1 = w2 = 1.
1− [P20 (xj )]

x2j
Portanto,
3 1 3 1
y1 = − √ , y2 = + √
2 2 3 2 2 3
2
1 1 1
Z
dy
≈ + = 0, 692307692,
1 y 2 y1 y2
cujo erro relativo é de apenas 0,12%, o qual é um pouco melhor que o resultado obtido com a regra de
Simpson (seção 3.2.1.2), para a qual foram necessários 3 pontos.
Fórmula de 3 pontos. Usando-se 3 pontos, N = 3 e
1 1 1 1
Z 2
dy
≈ w1 + w2 + w3 ,
1 y 2 y1 y2 y3
onde
1 3 1 3 1 3
y1 = x1 + , y2 = x2 + , y3 = x3 + ,
2 2 2 2 2 2
sendo x1 , x2 e x3 as raízes de P3 (x):
 q
x 1
 =− 3
5
1 
P3 (xj ) = 5xj − 3xj = 0 =⇒ x2
3
=0

2  q
= 35

x
3
e
2 5 8
wj = 2, j = 1, 2, 3 =⇒ w1 = w3 = , w2 = .
1− [P30 (xj )] 9 9

x2j
Portanto,
3 1 3 3 3 1 3
r r
y1 = − , y2 = , y3 = +
2 2 5 2 2 2 5
e
1 5 1 8 1 5 1
Z 2
dy
≈ + + = 0, 693121693,
1 y 2 9 y1 9 y2 9 y3
o qual tem um erro relativo de 0,0037%, um pouco melhor que o resultado obtido com a regra de Bode
(seção 3.2.1.4), a qual necessitou de 5 pontos.
3.3.2.2 Fórmula da Gauss-Chebyshev

Nesta fórmula são empregados os polinômios de Chebyshev:
T0 (x) = 1, T1 (x) = x, T2 (x) = 2x2 − 1, T3 (x) = 4x3 − 3x,

Tj+1 (x) = 2xTj (x) − Tj−1 (x),
os quais são ortogonais no intervalo −1 < x < 1 frente à função peso

1
W (x) = √ .
1 − x2
Neste caso, a fórmula de Gauss-Chebyshev fica, a partir de (3.16),
N
1
f (x)
Z X
√ dx = wj f (xj ) + RN , (3.23)
−1 1 − x2 j=1
onde {xj }, (j = 1, 2, . . . , N ) são as raízes de TN (x) = 0,

!
j − 21 π
xj = cos
N
e {wj } são os pesos, dados simplesmente por
π
wj = .
N
O erro de truncamento RN no uso da fórmula (3.23) é
π
RN = f (2n) (ξ), (−1 < ξ < 1).
(2n)!22n−1
Caso seja necessário calcular a quadratura no intervalo (x1 , x2 ) qualquer, a fórmula de Gauss-Chebyshev
fica, a partir de (3.19),
N
x2
f (y) dy 1
f (x)
Z Z X
= √ dx = wj f (yj ) + RN , (3.24)
(y − x1 ) (x2 − y) 1 − x2
p
x1 −1 j=1
sendo
x2 − x1 x1 + x2
yj = xj + , j = 1, . . . , N.
2 2
A regra de Gauss-Chebyshev possui uma implementação numérica bastante simples. A rotina apresen-
tada abaixo, função gauss_chebyshev (programa 3.1), ilustra como esta implementação pode ser realizada
com o Fortran 95.
Programa 3.1: Implementação da fórmula de Gauss-Chebyshev em Fortran 95.
! ∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗ FUNCAO Gauss_Chebyshev ∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗
! Implementa a f o r m u l a de Gauss−Chebyshev para uma i n t e g r a l d e f i n i d a de
! limites arbitrarios .
!
! Argumentos :
! f : Funcao a s e r i n t e g r a d a ( i n t e g r a n d o menos f u n c a o p e s o ) .
! x1 : L i m i t e i n f e r i o r de i n t e g r a c a o .
! x2 : L i m i t e s u p e r i o r de i n t e g r a c a o .
! n : Numero de p o n t o s u s a d o s na q u a d r a t u r a g a u s s i a n a ( n > 1 ) .
!
! Autor : Rudi G a e l z e r , IFM − UFPel .
! Data : Maio / 2 0 0 8 .
!
function gauss_chebyshev ( f , x1 , x2 , n )
r e a l ( kind= dp ) : : gauss_chebyshev
r e a l ( kind= dp ) , intent ( in ) : : x1 , x2
integer , intent ( in ) :: n
r e a l ( kind= dp ) : : x_menos , x_mais , y , xj , wj
integer : : j
INTERFACE
function f ( x )
use Modelos_Computacionais_Dados
r e a l ( kind= dp ) :: f
end function f
END INTERFACE
!
x_menos= 0 . 5 ∗ ( x2 − x1 )
x_mais= 0 . 5 ∗ ( x1 + x2 )
wj= p i / r e a l ( n , dp )
gauss_chebyshev= 0 . 0 _dp
do j= 1 , n
x j= c o s ( ( j −0.5)∗ p i / r e a l ( n , dp ) )
y= x_menos∗ x j + x_mais
gauss_chebyshev= gauss_chebyshev + wj ∗ f ( y )
end do
return
end function gauss_chebyshev

Tabela 3.4: Abcissas {xj } (raízes dos polinômios de Laguerre) e pesos {wj } para integração de Gauss-Laguerre.
xj wj
N =2
√ √
2− 2 2− 2
√ 2
4(−1+ 2)
√ √
2+ 2 2+ 2
√ 2
4(1+ 2)
N =3
0.41577455678347908331 0.71109300992917301545
2.29428036027904171982 0.27851773356924084880
6.28994508293747919866 0.01038925650158613575
N =4
0.32254768961939231180 0.60315410434163360164
1.74576110115834657569 0.35741869243779968664
4.53662029692112798328 0.03888790851500538427
9.39507091230113312923 0.00053929470556132745
N =5
0.26356031971814091020 0.52175561058280865281
1.41340305910651679222 0.39866681108317592745
3.59642577104072208122 0.07594244968170759539
7.08581000585883755692 0.00361175867992204845
12.6408008442757826594 0.00002336997238577623
3.3.2.3 Fórmula de Gauss-Laguerre

Nesta fórmula são empregados os polinômios de Laguerre :
1 1
L0 (x) = 1, L1 (x) = 1 − x, L2 (x) = 2 − 4x + x2 , L3 (x) = 6 − 18x + 9x2 − x3 ,

2 6
(j + 1) Lj+1 (x) = (2j + 1 − x) Lj (x) − jLj−1 (x),
os quais são ortogonais no intervalo 0 6 x < ∞ frente à função peso
W (x) = e−x .
Neste caso, a fórmula de Gauss-Laguerre fica, a partir de (3.16),
Z ∞ N
X
e
−x
f (x)dx = wj f (xj ) + RN , (3.25)
0 j=1
onde {xj } (j = 1, . . . , N ) são as raízes de LN (x),
xj tais que LN (xj ) = 0, onde j = 1, . . . , N e 0 < x1 < x2 < · · · < xN
e {wj } são os pesos, dados por

xj
wj = 2.
N2 [LN −1 (xj )]
2
(N !) (2n)
RN = f (ξ), (0 < ξ < ∞) .
(2N )!
A tabela 3.4 mostra as abcissas e os pesos para as fórmulas de Gauss-Laguerre até N = 5. Uma listagem
mais completa pode ser encontrada em [2, capítulo 25].
3.3.2.4 Fórmula de Gauss-Hermite

Nesta fórmula são empregados os polinômios de Hermite:
H0 (x) = 1, H1 (x) = 2x, H2 (x) = 4x2 − 2, H3 (x) = 8x3 − 12x,

54 3.4. Integração automática e adaptativa
Tabela 3.5: Abcissas {xj } (raízes dos polinômios de Hermite) e pesos {wj } para integração de Gauss-Hermite.
±xj wj
√ N =2
√
1/ 2 π/2
N =3 √
p0.0 2 π/3
√
3/2 π/6
N =4
0.52464762327529031788 0.80491409000551283651
1.65068012388578455588 0.08131283544724517714
N =5 √
0, 00000000000000000000 8 π/15
0.95857246461381850711 0.39361932315224115983
2.02018287045608563293 0.01995324205904591321
N =6
0.43607741192761650868 0.72462959522439252409
1.33584907401369694971 0.15706732032285664392
2.35060497367449222283 0.00453000990550884564
Hj+1 (x) = 2xHj (x) − 2jHj−1 (x),
os quais são ortogonais no intervalo −∞ < x < ∞ frente à função peso

2
W (x) = e−x .
Neste caso, a fórmula de Gauss-Hermite fica, a partir de (3.16),
Z ∞ N
2 X
e−x f (x)dx = wj f (xj ) + RN , (3.26)
−∞ j=1
onde {xj } (j = 1, . . . , N ) são as raízes de HN (x),
xj tais que HN (xj ) = 0, onde j = 1, . . . , N e 0 < x1 < x2 < · · · < xN
e {wj } são os pesos, dados por

√
2N −1 N ! π
wj = 2.
N 2 [HN −1 (xj )]
√
N ! π (2n)
RN = f (ξ), (−∞ < ξ < ∞) .
2N (2N )!
A tabela 3.5 mostra as abcissas e os pesos para as fórmulas de Gauss-Hermite até N = 6. Uma listagem
mais completa pode ser encontrada em [2, capítulo 25].
3.4 Integração automática e adaptativa

Nesta seção serão abordadas, em menor grau de detalhe, técnicas mais avançadas para a quadratura nu-
mérica, tanto via fórmulas de Newton-Cotes quanto via fórmulas gaussianas. As técnicas aqui mencionadas
fornecem, além do cálculo da quadratura, também a obtenção de uma estimativa de erro, o que possibilita
o desenvolvimento de algoritmos que implementam o cálculo de uma quadratura com a imposição de um
valor superior no seu erro, para qualquer integrando, de uma forma automática ou adaptativa.
As técnicas aqui mencionadas formam as bases teóricas de rotinas modernas para o cálculo de quadra-
turas, oferecidas por diversos pacotes comerciais de computação numérica.
3.4.1 Integração de Romberg
Uma rotina de integração automática é aquela que, aplicando uma determinada regra de quadratura
para valores consecutivamente menores de espaçamento entre os pontos da abcissa, calcula também uma
estimativa de erro independente da forma específica de f (x), interrompendo a sua execução quando o
resultado estiver dentro de uma tolerância exigida pelo programador, a qual pode ser as estimativas de erro
absoluto ou relativo.
Este tipo de algoritmo é relativamente simples de ser implementado usando as regras de Newton-Cotes;
quando se utiliza a regra trapezoidal estendida (seção 3.2.3.1) para implementar uma rotina integradora au-
tomática baseada no método de extrapolação de Richardson (seção 2.5), esta rotina denomina-se Integração
de Romberg.
De acordo com o método de extrapolação de Richardson, deve-se aplicar o algoritmo de integração para
dois valores distintos do parâmetro h. A estimativa de erro então obtida pode ser utilizada tanto para
realizar controle de erro quanto para a extrapolação. Relembrando os principais resultados desta regra, se
a fórmula de quadratura é aplicada com o parâmetro h, obtendo o resultado I (h) e posteriormente para o
espaçamento h/R, resultando I (h/R), as fórmulas (2.13a, b) fornecem como estimativas de erro absoluto:
Rn 1

h h h
EA(h) ' I − I (h) e EA = I − I (h) ,
R R −1
n R R R −1
n
onde n é a ordem do erro da fórmula de quadratura. A fórmula de extrapolação é então dada por (2.14):
1

h h
Iextrapolado = I + EA = n [Rn I (h/R) − I (h)] . (3.27)
R R R −1
Tomando agora a regra trapezoidal estendida (3.10),
1
Z b
f (x)dx ≈ h (f0 + 2f1 + 2f2 + · · · + 2fN −1 + fN ) ≡ IT E (h) , (3.28)
a 2
pode-se mostrar [12, Eq. 4.2.1] que o erro total é dado por uma série de potências pares de h:
EAT E = C1 h2 + C2 h4 + C3 h6 + · · · .
Portanto, n = m = ` = · · · = 2 nas fórmulas extrapoladas (2.14 – 2.17) e nas estimativas de erros (2.13,
2.15, 2.18). Desta forma, o resultado Iextrapolado possui um erro agora da ordem O h4 .

Inicia-se o procedimento escolhendo um valor inicial para o parâmetro h, calculam-se as quadraturas

(0)
numéricas IT E (h) e IT E (h/2) a partir de (3.28). Estes valores iniciais são identificados por IR (h) e
(0)
IR (h/2), respectivamente, com suas respectivas estimativas de erro obtidas para R = 2:

(0) (0) h h
IR (h) ≡IT E (h) IR ≡IT E
2 2
22 1

(0) h (0) h (0) h (0)
EA0 (h) = 2 I − IR (h) EA0 = 2 I − IR (h) .
2 −1 R 2 2 2 −1 R 2
(0)
De acordo com (3.27), o valor extrapolado da quadratura passa a ser IR (h/2)+EA0 (h/2). Esta quantidade
(1)
passa a ser identificada por IR (h):
1

(1) (0) h (0)
IR (h) = 2 22 IR − IR (h) ,
2 −1 2
o qual possui um erro da ordem O h4 . Contudo, não se conhece o valor deste erro; tudo o que se obteve

(0)
até este momento foi o erro EA0 (h/2), correspondente à aproximação IR (h/2).
(1)
Para se calcular o erro de IR (h), é necessário agora aplicar a fórmula (2.15), o que implica na necessidade
(1)
do cálculo de IR (h/2). Desta forma, obtém-se EA1 (h) e EA1 (h/2), dados por:
24 1

(1) h (1) h (1) h (1)
EA1 (h) = 4 I − IR (h) e EA1 = 4 I − IR (h) .
2 −1 R 2 2 2 −1 R 2
(1) (2)
O valor extrapolado agora passa a ser IR (h/2) + EA1 (h/2), o qual é identificado por IR (h):
1

(2) (1) h (1)
IR (h) = 4 24 IR − IR (h) ,
2 −1 2
(1)
cujo erro é da ordem O h ; porém, a melhor estimativa de erro é EA1 (h/2), correspondente a IR (h/2).
6

(2) (2)
Para se calcular o erro de IR (h) é necessário calcular IR (h/2), o que reinicia novamente o ciclo.
Para sistematizar, pode-se afirmar que, aplicando-se a regra trapezoidal estendida para uma sucessão
de incrementos h cada vez menores, sendo que cada valor consecutivo de h é a metade do valor anterior
(k)
(R = 2), obtém-se de (3.28) as integrais de Romberg IR (h), k = 0, 1, 2, . . . , e as melhores estimativas de
erro, fornecidas por EAk−1 (h/2), onde
(0)
IR (h) ≡IT E (h)
1 1

(1) 2 (0) h (0) h (0) h (0)
IR (h) = 2 2 IR − IR (h) , EA0 = 2 I − IR (h)
2 −1 2 2 2 −1 R 2
1 1

(2) 4 (1) h (1) h (1) h (1)
IR (h) = 4 2 IR − IR (h) , EA1 = 4 I − IR (h)
2 −1 2 2 2 −1 R 2
1 1

(3) 6 (2) h (2) h (2) h (2)
IR (h) = 6 2 IR − IR (h) , EA2 = 6 I − IR (h)
2 −1 2 2 2 −1 R 2
.. ..
. .
Pode-se induzir o k-ésimo (k > 1) valor extrapolado e o seu erro:
1

(k) (k−1) h (k−1)
IR (h) = k 4k IR − IR (h) ,
4 −1 2
(3.29)
1

h (k−1) h (k−1)
EAk−1 = k IR − IR (h) .
2 4 −1 2
(4)
Supondo então que se queira aplicar a regra de extrapolação (3.29) até k = 4. Para se obter IR (h)
(3) (3) (2) (2) (2)
é necessário calcular IR (h), IR (h/2), o que implica em calcular antes IR (h), IR (h/2) e IR h/22 ,

(1) (1) (1) (1) (0) (0)
para as quais são necessárias IR (h), IR (h/2), IR h/22 e IR h/23 e, finalmente, IR (h), IR (h/2),

(0) (0) (0)
IR h/22 , IR h/23 , IR h/24 . Ou seja, para uma extrapolação até o k-ésimo termo, é necessária a

aplicação da quadratura trapezoidal para os intervalos h, h/2, . . . , h/2k , o que vai implicar em até N = 2k
subintervalos.
(0)
Para o cálculo da estimativa de erro EAk−1 (h/2), é necessário que se conheça também IR (h), . . . ,
(0)
IR h/2k . O diagrama da figura 3.5 ilustra a interdependência entre os consecutivos estágios de extrapo-

lação para k = 4. Generalizações para valores maiores de k são facilmente realizadas.

Antes de qualquer preocupação a respeito da implementação do controle de erro e critério de parada da
rotina integradora, pode surgir agora a convicção de que o número de cálculos da quadratura (3.28) para as
extrapolações se torna rapidamente tão grande que uma aplicação prática deste método se torna inviável.
Felizmente, isto não é verdade. Para a regra trapezoidal entre limites fixos a e b, pode-se dobrar o número
de subintervalos sem que se perca o trabalho realizado previamente. A implementação mais grosseira da
regra trapezoidal seria tomar h = b − a (N = 1), f0 = f (a) e f1 = f (b), calculando-se então
(0) h
IR (h) = (f0 + f1 ) .
2
O primeiro estágio de refinamento consiste então em adicionar o valor da função no ponto central através
das transformações
h b−a
N = 2, h→ , x0 = a, x1 = , x2 = b, f1 → f2
2 2
resultando
1 (0)

(0) h h
IR = IR (h) + f1 ;
2 2 2
o segundo estágio consiste na adição dos pontos em 1/4 e 3/4 de h, resultando
1 (0) h

(0) h h
IR = IR + 2 (f1 + f3 )
22 2 2 2
e assim consecutivamente. A figura 3.6 ilustra a aplicação prática desta idéia.

(0)
IR (h)
(1)
IR (h)
(0) h (2)
IR IR (h)
2
(1) h (3)
IR IR (h)
2
(0) h (2) h (4)
IR IR IR (h)
22 2
(1) h (3) h
IR IR
22 2
(0) h (2) h (4) h
IR IR IR
23 22 2
(1) h (3) h
IR IR
23 22
(0) h (2) h
IR IR
24 23
(1) h
IR
24
(0) h
IR
25
(k) (4)
Figura 3.5: Integrais de Romberg IR necessárias para o cálculo de IR (h) e EA4 (h), de acordo com (3.29). Nota-se
que cada par de termos em uma dada coluna gera o termo centrado na coluna à direita.
Figura 3.6: Chamadas consecutivas da rotina que calcula a quadratura trapezoidal estendida incorporando a infor-
mação de chamadas anteriores e calculando o integrando somente nos novos pontos necessários para o refinamento
da grade. A linha final mostra o número total de cálculos do integrando após as quarta chamada da rotina.
Algoritmo 3.3 Calcula o n-ésimo refinamento da regra trapezoidal estendida (3.28), sendo dados f (x), os
limites de integração (a, b) e o resultado da quadratura no estágio anterior (IRom ). Os pontos incluídos em
cada estágio são sempre distintos de todos os outros pontos anteriores, conforme ilustrado na figura 3.6.
Quando chamado com n = 1, o algoritmo calcula a quadratura usando h = b − a; quando chamado com
n = 2, 3, . . . , o resultado será refinado pela adição de 2n−2 pontos interiores adicionais.
Dados: f (x), a, b, n e IRom :
Se n = 1 então:
IRom = (1/2) (b − a) [f (a) + f (b)]
senão:
npts = 2n−2
δ = (b − a) /npts
x = a + δ/2
soma = 0
Para j = 1 : npts, faça:
soma = soma + f (x)
x=x+δ
final laço
IRom = (1/2) [IRom + (b − a) soma/npts]
final teste

A implementação desta idéia é apresentada no algoritmo 3.3. Este algoritmo deve ser chamado pela rotina
integradora para calcular os termos da primeira coluna do diagrama na figura 3.5. A primeira chamada
deve ser realizada com n = 1, incrementando-se o valor de n por 1 a cada chamada subseqüente, totalizando
k + 1 chamadas, sendo k o grau de extrapolação desejado na rotina de Romberg (3.29).
O algoritmo 3.3 está implementado em Fortran 95 na forma de uma função no programa 3.2.
Programa 3.2: Implementação do algoritmo 3.3 em Fortran 95 na forma de função.

! ∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗ FUNCAO TRAPEZ_ROM ∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗
! C a l c u l a a q u a d r a t u r a numerica de uma f u n c a o f ( x ) p e l a r e g r a dos t r a p e z i o s
! estendida .
! Criada como p a r t e i n t e g r a n t e do Metodo de Romberg para i n t e g r a c a o
! automatica .
!
! Argumentos :
! f: Funcao na forma f ( x ) a s e r i n t e g r a d a ( Entrada ) .
! a: L i m i t e i n f e r i o r de i n t e g r a c a o ( Entrada ) .
! b: L i m i t e s u p e r i o r de i n t e g r a c a o ( Entrada ) .
! n_ordem : Ordem de chamada da f u n c a o ( Entrada ) .
!
! Data : Maio / 2 0 0 8 .
!
function trapez_rom ( f , a , b , n_ordem )
r e a l ( kind= dp ) : : trapez_rom
integer , intent ( in ) : : n_ordem
r e a l ( kind= dp ) , intent ( in ) : : a , b
integer : : i
integer , s a v e : : n p t s
r e a l ( kind= dp ) : : h , d e l t a , x , soma
r e a l ( kind= dp ) , s a v e : : I_te , f a t 2
INTERFACE
function f ( x )
end function f
END INTERFACE
h= b − a
! Testa p r i m e i r a rodada .
s e l e c t case ( n_ordem )
case ( 0 ) ! Primeira rodada .
I_te= 0 . 5 ∗ h ∗ ( f ( a ) + f ( b ) )
f a t 2= 1 . 0 _dp
n p t s= 1
case default ! Rodadas s u b s e q u e n t e s .
d e l t a= h/ f a t 2
x= a + 0 . 5 ∗ d e l t a
soma= 0 . 0 _dp
do i= 1 , n p t s
soma= soma + f ( x )
x= x + d e l t a
end do
I_te= 0 . 5 ∗ ( I_te + h∗soma/ f a t 2 )
f a t 2= 2 . 0 _dp∗ f a t 2
n p t s= 2∗ n p t s
end s e l e c t
trapez_rom= I_te
return
end function trapez_rom

(0) (0)
Tendo sido estabelecido um algoritmo eficiente para o cômputo de (h), . . . , h/2 , outro se
k

IR IR
faz agora necessário para implementar a integração de Romberg, juntamente com um controle de erro que
interrompe o processamento quando o erro absoluto ou relativo fica abaixo de um limite de tolerância
fornecido pelo programador.
A subrotina 3.3 apresentado a seguir implementa o cálculo da quadratura pelo método de Romberg.
A abordagem adotada consiste em percorrer as diagonais do diagrama apresentado na figura 3.5 duas
(0)
vezes consecutivas a cada teste no valor do erro relativo obtido. Ou seja, partindo de IR (h), calcula-se
(0) (1)
em seqüência a diagonal composta por IR (h/2) e IR (h), seguido do cálculo da diagonal composta por
(0) (1) (2)
IR h/22 , IR (h/2) e IR (h), o que permite o cálculo de EA1 (h/2) e do erro relativo. Se a estimativa de

(2)
erro desejada foi alcançada, o resultado é IR (h); caso contrário, as próximas duas diagonais são calculadas,
(3)
sendo testados EA2 (h/2) e IR (h) e assim consecutivamente.
Programa 3.3: Programa que calcula a quadratura numérica pelo Método de Romberg.
! ∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗ SUBROTINA QUAD_ROM ∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗
! C a l c u l a a q u a d r a t u r a numerica de uma f u n c a o f ( x ) usando o Metodo de Romberg .
!
! Argumentos :
! f : Funcao na forma f ( x ) a s e r i n t e g r a d a ( Entrada ) .
! a : L i m i t e i n f e r i o r de i n t e g r a c a o ( Entrada ) .
! b : L i m i t e s u p e r i o r de i n t e g r a c a o ( Entrada ) .
! e r r r e l : Valor maximo a d m i t i d o para o e r r o r e l a t i v o ( Entrada ) .
! r e s u l t : Valor o b t i d o para a q u a d r a t u r a numerica ( S a id a ) .
! e r r e s t : Valor e s t i m a d o para o e r r o r e l a t i v o ( S ai d a ) .
!
! Data : Maio / 2 0 0 8 .
!
subroutine quad_rom ( f , a , b , e r r r e l , result , e r r e s t )
r e a l ( kind= dp ) , intent ( in ) : : a , b , e r r r e l
r e a l ( kind= dp ) , intent ( out ) : : result , e r r e s t
! Variaveis locais
integer : : k , i , np
r e a l ( kind= dp ) : : q u a t r o i , quatroim1 , e r r a b s
r e a l ( kind= dp ) , dimension ( : ) , pointer : : Ikm1 , I k
INTERFACE
function f ( x )
end function f
END INTERFACE
!
i f ( b == a ) then
r e s u l t= 0 . 0 _dp
e r r e s t= 0 . 0 _dp
return
end i f
np= 100
a l l o c a t e ( Ikm1 ( 0 : np ) , I k ( 0 : np ) )
I k (0)= trapez_rom ( f , a , b , 0 )
Ikm1 (0)= trapez_rom ( f , a , b , 1 )
Ikm1 (1)= ( 4 ∗ Ikm1 ( 0 ) − I k ( 0 ) ) / 3 . 0 _dp
k= 2
do
i f ( k > np ) then
np= 2∗np
Ikm1 => r e a l o c a r ( Ikm1 , np )
Ik => r e a l o c a r ( Ik , np )
end i f
! R e a l i z a l a c o s ao l o n g o das d i a g o n a i s .
I k (0)= trapez_rom ( f , a , b , k )
q u a t r o i= 1 . 0 _dp
do i= 1 , k
q u a t r o i= 4 . 0 _dp∗ q u a t r o i
quatroim1= q u a t r o i − 1 . 0 _dp
I k ( i )= ( q u a t r o i ∗ I k ( i −1) − Ikm1 ( i −1))/ quatroim1
end do
! C a l c u l a e compara e r r o
e r r a b s= ( I k ( k−1) − Ikm1 ( k −1))/ quatroim1
e r r e s t= abs ( e r r a b s / I k ( k ) )
i f ( e r r e s t <= e r r r e l ) then
r e s u l t= I k ( k )
e x it
else
k= k + 1
Ikm1= I k
end i f
end do
return
end subroutine quad_rom
Cabe aqui mencionar que tanto a função trapez_rom quanto a subrotina quad_rom necessitam de infor-
mações adicionais para que todas as interfaces e espécies de variáveis sejam explicitadas. A melhor estratégia
consiste em inserir estas rotinas em um módulo, o qual pode usar outros módulos que contenham declarações
globais de variáveis ou rotinas auxiliares. Outro ponto que merece destaque é que a subrotina quad_rom
faz uso de vetores alocáveis para acumular os resultados das diagonais da figura 3.5. Embora raramente
possa acontecer, é possível que o tamanho declarado para os vetores seja excedido devido às exigências na
acuracidade do resultado. Para evitar a ocorrência de um erro do tipo out-of-bounds, a subrotina faz uso de
vetores de ponteiros e invoca, sempre que necessário, a função auxiliar realocar, ela própria uma função
de ponteiro, a qual se encarregará de realocar os vetores auxiliáres. A função realocar é baseada na rotina
reallocate_dv apresentada no Numerical Recipes [12].
Todas as rotinas desenvolvidas neste capítulo, em conjunto com os módulos necessários para implementá-
las, podem ser obtidos em http://minerva.ufpel.edu.br/~rudi/grad/ModComp/Progs/.
3.4.2 Integração automática usando quadraturas gaussianas
A implementação de uma integração automática utilizando quadraturas gaussianas não é tão simples
quanto com as regras newtonianas, principalmente porque para as fórmulas da seção 3.3, diferentes valores
de N resultam em distintos valores das abcissas {xi }, o que não permite o uso de cálculos prévios da
quadratura, como acontece com o método de Romberg. Isto implica em um maior tempo de computação
para o cálculo da quadratura.
Para tentar remediar este problema, diferentes técnicas de extensão da quadratura gaussiana foram
elaboradas, baseadas na definição de nodos pré-definidos, ou seja, um conjunto de fixo de valores de abcissas
que são sempre utilizados para distintos valores de N . O problema envolve então a escolha adequada de
pesos e dos pontos {xi } restantes que maximizam a exatidão do resultado no menor tempo de computação
possível.
Um destes métodos denomina-se Quadratura de Gauss-Radau, onde um dos nodos fixos é um dos limites
da integração. Outro método é a Quadratura de Gauss-Lobatto, onde ambos os extremos a e b são nodos
fixos. Uma outra classe de métodos importantes são as fórmulas de Gauss-Kronrod, onde todas as abcissas
utilizadas em um cálculo prévio da quadratura são aproveitadas para valores subseqüentes de N . Se o
cálculo inicial utilizou N = m pontos, então o próximo cálculo utilizará N = 2n + m pontos: os n novos
pesos e abcissas mais os m pesos e abcissas anteriores. Kronrod mostrou que se n e m são escolhidos
tais que n = m + 1, uma fórmula de quadratura automática pode ser estabelecida para a regra de Gauss-
Legendre. Neste caso, a seqüência de pontos novo utilizados é N = 10, 21, 43, 87, . . . . Bibliotecas de
software numérico, tanto comerciais quanto gratuitas, sempre disponibilizam rotinas do tipo Gauss-Kronrod.
3.4.3 Integração adaptativa
Retornando à fórmula geral para quadratura numérica (3.1),
Z b N
X
f (x) dx = wi f (xi ) ,
a i=0
todos os métodos apresentados neste capítulo restringem-se a uma única regra utilizada para a determinação
das abcissas {xi } e os pesos {wi }. Um algoritmo de quadratura adaptiva, por outro lado, escolhe os valores
de {wi } e {xi } dinamicamente durante a computação, de forma a adaptar-se ao comportamente particular
de f (x).
Quando o integrando apresenta um comportamento que dificulta o cálculo da sua quadratura (f (x)
oscila rapidamente, por exemplo), a regra em uso, aplicada a todo intervalo de integração, pode encontrar
dificuldades para obter um resultado com a precisão solicitada. Nesta situação torna-se necessário o uso
de uma rotina adaptativa. Contudo, bons algoritmos de quadratura adaptiva são bastante complexos do
ponto de vista de cálculo numérico e custosos para ser desenvolvidos. Nesta situação, é recomendável que
o programador busque uma rotina pronta em alguma biblioteca de software numérico, ao invés de tentar
desenvolvê-la por si mesmo.
No método de Romberg, o valor de h é reduzido pela metade a cada iteração consecutiva do método,
até que a precisão solicitada seja alcançada. Por se basear em uma regra Newtoniana, o método exige que
o valor de h seja o mesmo ao longo de todo o intervalo de integração. Contudo, o comportamento de f (x)
pode não requerer que h seja o mesmo ao longo de todo o intervalo para que a precisão solicitada seja
atingida. Em regiões onde o integrando varia lentamente apenas uns poucos pontos podem ser suficientes;
ao passo que nas regiões onde f (x) varia rapidamente, um número maior de pontos é requerido.
Considera-se, por exemplo, o integrando ilus-
trado na figura 3.7. Na região d–e, f (x) é essencial-
mente constante, e o incremento h pode ser grande.
Contudo, na região a–d, f (x) varia rapidamente,
significando que o incremento h deve ser pequeno.
De fato, a região a–d pode ser dividida em três re-
giões distintas, como ilustrado. Inspeção visual do
comportamento de f (x) pode identificar as regiões
onde h deve ser pequeno ou grande. Porém, cons-
truir o gráfico de f (x) é um processo custoso e de-
morado, principalmente quando é necessário o cál-
culo de um número grande de integrais. Uma rotina
adaptativa deve ser capaz de identificar as regiões
onde h necessita ser maior ou menor e automati-
camente dividir o intervalo de integração de acordo
com essa identificação. Boas rotinas automáticas Figura 3.7: Função f (x) que apresenta distintos compor-
variam não somente os valores de h e dos pesos, tamentos ao longo do intervalo de integração.
mas tentam também diferentes regras de quadra-
tura, sempre visando a otimização no cálculo numérico. Em determinados intervalos, uma rotina automá-
tica do tipo Romberg pode atingir a precisão solicitada rapidamente, enquanto que em outro intervalo o
algoritmo pode optar por uma regra de quadratura gaussiana, por exemplo.


Capítulo 4
Soluções de Equações Não Lineares
4.1 Introdução
Um problema que surge com muita freqüência em computação científica consiste no cálculo das raízes
de uma equação na forma
f (x) = 0. (4.1)
Ou seja, é necessário calcular o conjunto de valores de {x} onde f (x) é nula. Em muitas situações, a função
f (x) pode ser conhecida explicitamente, como é o caso de um polinômio ou de uma função transcendental.
Às vezes, contudo, f (x) pode vir a ser conhecida somente de forma implícita, como ocorre quando f (x) é
solução de uma equação diferencial ou integral.
Em raras circunstâncias é possível calcular-se analiticamente as raízes de f (x). Situações onde isso
ocorre restringem-se, por exemplo, a equações polinomiais do 1º ao 4º grau ou de um polinômio qualquer
fatorável. Porém em geral somente soluções aproximadas para as raízes são possíveis, dependendo-se de
alguma técnica computacional para calcular a aproximação. Dependendo do contexto, solução aproximada
pode significar um ponto x∗ para o qual (4.1) é aproximadamente satisfeita, isto é, para o qual |f (x∗ )| é
pequeno, ou um ponto x∗ que está próximo de uma solução de (4.1). Infelizmente o conceito de solução
aproximada é um tanto vago. Uma solução aproximada obtida por um computador conterá sempre um erro
devido ao arredondamento, ou devido a uma instabilidade numérica ou devido ao truncamento gerado pelo
método empregado. De fato, há sempre infinitas soluções aproximadas, todas igualmente válidas, embora a
solução de (4.1) possa ser única.
Uma situação onde o efeito dos erros de arredondamento produzem falsas raízes pode ser vista na figura
6
1.4 à esquerda. Esta figura mostra o gráfico do polinômio p6 (x) = (x − 1) , escrito na forma expandida,
para valores próximos a x = 1. O gráfico foi gerado a partir de um programa de computador e, embora
as 6 raízes de p6 (x) são únicas e iguais a 1, o gráfico mostra um número grande de pontos onde a curva
cruza o eixo das abcissas. Estas falsas raízes foram produzidas pelos erros de arredondamento resultantes
principalmente do cancelamento de quantidades próximas entre si. Este exemplo isolado já mostra algumas
das dificuldades envolvidas no cálculo de raízes.
4.2 Métodos iterativos para o cálculo de raízes reais

Nesta seção serão apresentados os métodos iterativos elementares utilizados com maior freqüência para
o cálculo das raízes reais da função
f (x) = 0,
isto é, para uma função transcedental unidimensional. Estes métodos serão sempre exemplificados com o
cálculo da raiz real da equação de 3º grau
p3 (x) = x3 − x − 1 = 0. (4.2)
As raízes de p3 (x) podem ser obtidas analiticamente; elas consistem em uma raiz real e duas complexas
conjugadas:
√ 1/3 √ 1/3
1 27 3 69 1
9 + 69

x1 = − + 2
≈ 1.3247179572447460260
3 2 2 32/3
63
64 4.2. Métodos iterativos para o cálculo de raízes reais
√ √ √ 1/3
1 √ 27 3 69 1/3 1 − i 3 12 9 + 69

x2 = − 1+i 3 − −
6 2 2 232/3
≈ −0.66235897862237301298 + 0.56227951206230124390i
√ √ √ 1/3
1 √ 27 3 69 1/3 1 + i 3 12 9 + 69

x3 = − 1−i 3 − −
6 2 2 232/3
≈ −0.66235897862237301298 − 0.56227951206230124390i.
Os métodos iterativos mais conhecidos serão agora apresentados e estes terão a sua capacidade de calcular
a raiz x1 analisada.
4.2.1 Método da bisecção

Boa parte dos métodos de cálculo de raízes necessita do conhecimento prévio de alguma informação a
respeito da solução ou de f (x) para que possa convergir para a solução correta. Para que o método da
bisecção funcione, é necessário inicialmente cercar a raiz (ou raízes) entre dois valores de x. Assim, sabendo-
se que p3 (1) = −1 < 0 e que p3 (2) = 5 > 0, conclui-se que há um número ímpar de raízes dentro do intervalo
[1, 2]. Assim, a informação inicial que é necessária fornecer ao método da bissecção é um par de pontos
x = a0 e x = b0 distintos tais que
f (a0 ) f (b0 ) < 0, (4.3)
em cuja situação sempre haverá um número ímpar de raízes no intervalo [a0 , b0 ].
Se f (a0 ) f (b0 ) > 0, significa que há um número par de raízes no intervalo (zero inclusive), o que torna
necessária a procura de um outro intervalo. Se a condição (4.3) for satisfeita, há um número ímpar de raízes
em [a0 , b0 ]. Contudo, se f (x) for contínua em [a0 , b0 ] o seguinte teorema deve valer:
Teorema 4.1. Teorema de Rolle.

Seja f (x) um função é contínua no intervalo finito [a, b] e diferenciável no intervalo (a, b). Se
f (a) = f (b) = 0, então
f 0 (ξ) = 0
para algum ξ ∈ (a, b).
Este teorema implica em que se houver 3 ou mais raízes em [a0 , b0 ], a derivada de f (x) deve possuir uma ou
mais raízes neste intervalo. Caso seja possível calcular analiticamente as raízes de f 0 (x), este teorema pode
ser útil. Assim,
1
p03 (x) = 3x2 − 1 = 0 =⇒ x = ± √ .
3
Como não há raízes de p03 (x) em [1, 2], isto implica que p3 (x) possui somente uma raiz no intervalo.
O método consiste então em tomar como primeira aproximação para a raiz o valor médio:
a0 + b0
ξ1 = ,
2
sendo o erro absoluto igual ao valor do intervalo entre ξ1 e um dos pontos extremos:
b0 − a0
EA1 = |b0 − ξ1 | = .
2
No caso, x1 = ξ1 ± EA1 = 1, 5 ± 0, 5.
Comparando agora f (ξ1 ) com os pontos extremos, necessariamente deve ocorrer
f (ξ1 ) f (a0 ) < 0 ou f (ξ1 ) f (b0 ) < 0,
o que irá definir um novo intervalo, [a0 , ξ1 ] ou [ξ1 , b0 ] que contém a raiz de f (x), reiniciando o ciclo.
No exemplo,
p3 (1, 5) p3 (1) = −0, 875 < 0 ao passo que p3 (1, 5)p3 (2) = 4, 375 > 0.
Portanto, a raiz encontra-se no intervalo [1; 1, 5]. Tomando a nova aproximação e o seu erro:
1 + 1, 5
ξ2 = = 1, 25
2
Capítulo 4. Soluções de Equações Não Lineares 65
EA2 = 0, 25.
Verificando ξ2 :
p3 (1, 25) p3 (1) > 0 ao passo que p3 (1, 25)p3 (1, 5) < 0.
Portanto x1 ∈ [1, 25; 1, 5]. A proxima iteração:
1, 25 + 1, 5
ξ3 = = 1, 375
2
EA3 = 0, 125.
Verificando ξ3 :
p3 (1, 25) p3 (1, 375) < 0 ao passo que p3 (1, 375)p3 (1, 5) > 0.
Portanto,
1, 25 + 1, 375
ξ4 = = 1, 3125
2
EA4 = 0, 0625.
Verificando ξ4 :
p3 (1, 25) p3 (1, 3125) > 0 ao passo que p3 (1, 3125)p3 (1, 375) < 0.
Portanto, x1 ∈ [1, 3125; 1, 375]. Iterando novamente,
1, 3125 + 1, 375
ξ5 = = 1, 34375
2
EA5 = 0, 03125.
Verificando ξ5 :
p3 (1, 3125) p3 (1, 34375) < 0 ao passo que p3 (1, 34375)p3 (1, 375) > 0.
Portanto, ξ5 ∈ [1, 3125; 1, 34375].
As próximas 2 iterações produzem
x1 = 1, 328125 ± 0, 015625
x1 = 1, 3203125 ± 0, 0078125.
Portanto, pode-se observar que os resultados das iterações estão monotonicamente convergindo para a raiz
x1 ≈ 1.3247179572447460260, mas após 7 iterações somente 2 casas decimais corretas foram obtidas. Esta
é uma característica do método da bisecção: uma vez que a raiz de uma função contínua foi cercada, ele
certamente retornará o resultado correto, porém sua convergência é extremamente lenta. De uma forma
mais rigorosa, como o comprimento do intervalo que sabidamente contém a raiz é dividido pelo fator 2 a
cada iteração, o método da bisecção produz uma dígito binário correto a cada passo.
Um algoritmo que implementa o método da bisecção deve iniciar com os dois valores a0 e b0 (b0 > a0 )
para x, verificar se a raiz realmente está no intervalo fornecido e retornar os valores da raiz aproximada
a+b
ξ= (sendo a = a0 e b = b0 na primeira iteração)
2
e o erro absoluto da aproximação
|b − a|
EA = .
2
O erro absoluto deve então ser comparado com o valor máximo de erro tolerado, parâmetro que também
deve ser fornecido ao algoritmo. Se EA é maior que a tolerância, o novo intervalo [a, b] que contém a raiz é
determinado e o procedimento é repetido novamente. Se EA é menor ou igual que a tolerância, o algoritmo
retorna a última aproximação para a raiz. O algoritmo 4.1 implementa este processo.
A subrotina 4.1 implementa o algoritmo 4.1 em Fortran 95. Deve-se notar que, além de implementar os
passos contidos no algoritmo, a rotina controla também se realmente há pelo menos uma raiz no intervalo
fornecido e também se a tolerância solicitada for exageradamente pequena, como seria o caso se fosse
fornecido o valor erro= 10−20 ou menor para um resultado em precisão dupla, que contém somente cerca
de 15 casas decimais de precisão. Este controle é realizado pela variável inteira de saída iflag.
Algoritmo 4.1 Implementação do método da bisecção.
Dados: a0 , b0 (b0 > a0 ), f (x): função contínua em [a0 , b0 ] e tol (tolerância máxima para o erro).
an = a0 ; bn = b0
Para n = 0, 1, 2, . . . , faça:
m = (an + bn ) /2
Se f (an ) f (m) 6 0:
an+1 = an ; bn+1 = m
erro= |m − an | /2
Senão:
an+1 = m; bn+1 = bn
erro= |bn − m| /2
Fim Se
Se erro 6 tol: sai laço
Fim laço.
Programa 4.1: Subrotina em Fortran 95 que implementa o método da bisecção.

! ∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗ SUBROTINA BISEC ∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗
! Busca uma r a i z da f u n c a o F(X) p e l o Metodo da B i s e c c a o .
! Argumentos :
! F : Nome da f u n c a o c u j a r a i z e ’ d e s e j a d a ( Entrada ) .
! A,B: Pontos e x t r e m o s do i n t e r v a l o onde a r a i z e ’ p r o c u r a d a ( Entrada ) .
! XTOL: T o l e r a n c i a maxima para a aproximacao da r a i z ( Entrada ) .
! XM: Melhor r e s u l t a d o o b t i d o para a r a i z de F(X) ( S ai da ) .
! IFLAG : Um i n t e i r o : ( S a id a ) .
! = −1, Metodo f a l h o u , uma v e z que F tem o mesmo s i n a l em A e B.
! = 0 , Encerrou , uma v e z que ABS(A−B)/2 <= XTOL.
! = 1 , Encerrou , uma v e z que ABS(A−B)/2 e ’ t a o pequeno que
! novos v a l o r e s para a r a i z nao sao p o s s i v e i s .
!
! Autor : Rudi G a e l z e r , IFM − UFPel
! Data : Maio / 2 0 0 8 .
!
subroutine b i s e c ( f , a , b , x t o l , xm, i f l a g )
r e a l ( kind= dp ) , intent ( inout ) : : a
r e a l ( kind= dp ) , intent ( inout ) : : b
r e a l ( kind= dp ) , intent ( in ) : : xtol
r e a l ( kind= dp ) , intent ( out ) : : xm
integer , intent ( out ) :: iflag
INTERFACE
function f ( x )
end function f
END INTERFACE
r e a l ( kind= dp ) : : e r r o , fa , fm
!
i f l a g= 0
fa = f (a)
i f ( f a ∗ f ( b ) > 0 . 0 _dp) then
i f l a g = −1
print ’ ( " f ( x ) tem o mesmo s i n a l nos d o i s p o n t o s extremos : " , 2 e15 . 7 ) ’ , a , b
return
end i f
e r r o = abs ( b − a )
do ! E x e c u t e enquanto e r r o > x t o l .
erro = 0.5∗ erro
i f ( e r r o <= x t o l ) e x it
xm = 0 . 5 ∗ ( a + b )
i f (xm + e r r o == xm) then ! T e s t e para t o l e r a n c i a muito pequena .
iflag = 1
return
end i f
fm = f (xm)
i f ( f a ∗fm > 0 . 0 _dp) then ! Determine novo i n t e r v a l o .
a = xm
f a = fm
else
b = xm
end i f
end do
end subroutine b i s e c
4.2.2 Método da falsa posição

Uma modificação do método da bisecção que permite acelerar a taxa de convergência no cálculo da raiz
consiste em utilizar uma informação adicional de f (x), qual seja, o quão próximos da raiz estão os pontos
extremos do intervalo. No exemplo adotado: o cálculo da raiz real de p3 (x), o intervalo inicialmente definido
foi [1, 2]; porém, p3 (1) = −1, ao passo que p3 (2) = 5. Isto significa que a raiz provavelmente está mais
próxima de x = 1 que x = 2. Portanto, ao invés de calcular ξ1 como o ponto médio entre 1 e 2, será
calculada a média ponderada:
p3 (2).1 − p3 (1).2
w1 = = 1, 1666 . . . ,
p3 (2) − p3 (1)
o qual está ligeiramente mais próximo de x1 que o ponto médio ξ1 = 1, 5.
Verificando agora em qual intervalo se encontra a raiz, descobre-se que ela está em [w1 , 2], ao passo que
p3 (w1 ) = −0, 578703704 . . . . Repetindo o cálculo da média ponderada,
p3 (2).w1 − p3 (w1 ) .2
w2 = = 1, 253112033 . . . ,
p3 (2) − p3 (w1 )
a qual é também ligeiramente mais próxima de x1 que ξ2 .

O método da falsa posição pode ser sistematizado da seguinte maneira. Partindo de um intervalo inicial
que contenha pelo menos uma raiz de f (x), a n + 1-ésima aproximação para a raiz, obtida dos valores da
n-ésima aproximação, an , f (an ), bn e f (bn ) é dada por:
f (bn ) an − f (an ) bn
wn = . (4.4)
f (bn ) − f (an )
O ponto wn é a raiz da reta secante que passa pelos pontos (an , f (an )) e (bn , f (bn )). Se f (x) for côncava
na raiz, ou seja, se f 0 (x) > 0 na raiz, os pontos wn estarão sempre à esquerda da raiz. Se f (x) for convexa
(f 0 (x) < 0 na raiz), os pontos wn estarão sempre à direita da raiz. No caso de p3 (x), este é côncavo em
x = x1 e por conseqüência os valores de wn irão se aproximar de x1 sempre pela esquerda, como se pode
ver na figura 4.1.
Um aperfeiçoamento do método da falsa posição que permite acelerar a taxa de convergência à raiz é o
chamado Método da falsa posição modificado. Neste método, as secantes são substituídas por retas
de inclinações cada vez menores até que a raiz para uma determinada reta se encontre do lado oposto à
aproximação wn anteriormente obtida. Desta forma, as aproximações convergem à raiz pelo dois lados, ao
invés de um lado somente, como no método da falsa posição. Este método é ilustrado na figura 4.2, o valor
da ordenada em b0 é reduzido pela metade até que a raiz da reta se encontra do lado direito da raiz de f (x).
O algoritmo 4.2 mostra como o método da falsa posição modificado pode ser implementado. Ao contrário
da bisecção, o presente método não pode determinar inequivocamente um valor mínimo para o intervalo
onde a raiz se encontra. Na falta de uma melhor estimativa, o algoritmo toma como primeiro critério de
parada um valor mínimo admissível para o intervalo que contém a raiz (xtol). Como o valor de f (x) é
continuamente reduzido à metade em um dos extremos do intervalo, um valor absurdamente pequeno para
xtol pode inadvertidamente resultar em um valor numérico nulo para F ou G, devido à representação de
ponto flutuante. Para evitar esta ocorrência, o algoritmo utiliza um segundo critério de parada (ftol) que
estabelece o menor valor admissível para |f (x)| em qualquer um dos pontos extremos do intervalo.
Figura 4.1: Método da falsa posição. Figura 4.2: Método da falsa posição modificado.
Algoritmo 4.2 Implementação do método da falsa posição modificado.

Dados: a0 , b0 (b0 > a0 ), f (x): função contínua em [a0 , b0 ], xtol: tolerância máxima no tamanho de [a, b]
e ftol: tolerância máxima no valor de |f (x)|.
F = f (a0 ); G = f (b0 ); w0 = a0
Para n = 0, 1, 2, . . . , faça:
Se |bn − an | 6 xtol ou |wn | 6 ftol: sai laço
wn+1 = (Gan − F bn ) / (G − F )
Se f (an ) f (wn+1 ) 6 0:
an+1 = an ; bn+1 = wn+1 ; G = f (wn+1 )
Se f (wn ) f (wn+1 ) > 0: F = F/2
Senão:
an+1 = wn+1 ; F = f (wn+1 ); bn+1 = bn
Se f (wn ) f (wn+1 ) > 0: G = G/2
Fim Se
Fim laço
A subrotina 4.2 implementa o algoritmo 4.2. Além dos parâmetros de controle xtol e ftol já discuti-
dos, introduz-se um parâmetro opcional ntol que controla o número total de iterações admitidas, quando
presente. Este parâmetro pode ser importante quando o cálculo de f (x) é muito custoso do ponto de vista
computacional. Ele pode servir também para indicar se o cálculo de f (x) está sendo feito corretamente ou
se a obtenção da raiz é particularmente difícil.
Programa 4.2: Subrotina em Fortran 95 que implementa o método da falsa posição modificado.
! ∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗ SUBROTINA FAL_POS_MOD ∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗
! Busca uma r a i z da f u n c a o F(X) p e l o Metodo da F a l s a P o s i c a o M o d i f i c a d o .
! ∗∗∗∗∗∗ Argumentos de e n t r a d a ∗∗∗∗∗∗
! F : Nome da f u n c a o c u j a r a i z e ’ d e s e j a d a
! A,B: Pontos e x t r e m o s do i n t e r v a l o onde a r a i z e ’ p r o c u r a d a .
! XTOL: T o l e r a n c i a maxima para o i n t e r v a l o que contem a r a i z .
! FTOL: T o l e r a n c i a maxima para o v a l o r a b s o l u t o de F(W) .
! NTOL: Numero maximo de i t e r a c o e s a d m i t i d a s ( o p c i o n a l ) .
! Se NTOL e s t a a u s e n t e , p e r m i t e i n f i n i t a s i t e r a c o e s .
! ∗∗∗∗∗∗ Argumentos de s a i d a ∗∗∗∗∗∗
! A,B: Pontos e x t r e m o s do i n t e r v a l o que contem a m a t r i z .
! W: Melhor e s t i m a t i v a para a r a i z .
! IFLAG : Um i n t e i r o ,
! =−1, Metodo f a l h o u , uma v e z que F( x ) tem o mesmo s i n a l em A e B.
! = 0 , Encerrou , p o r qu e ABS(A−B) <= XTOL.
! = 1 , Encerrou , p o r qu e ABS(F(W) ) <= FTOL.
! = 2 , Encerrou , p o r qu e NTOL i t e r a c o e s foram r e a l i z a d a s .
! ∗∗∗∗∗∗ Metodo ∗∗∗∗∗∗
! O metodo da f a l s a p o s i c a o m o d i f i c a d o e ’ empregado . I s t o s i g n i f i c a que
! a cada passo , i n t e r p o l a c a o l i n e a r e n t r e os p o n t o s (A,FA) e
! (B ,FB) e ’ empregada , com FA∗FB < 0 , para um novo ponto (W, F(W) )
! que s u b s t i t u i um dos p o n t o s A ou B de t a l forma que novamente FA∗FB < 0 .
! A d i c i o n a l m e n t e , a ordenada de um ponto que e ’ r e p e t i d o em mais de uma
! i t e r a c a o e ’ d i v i d i d o por 2 a cada p a s s o s u b s e q u e n t e .
!
! Data : Junho / 2 0 0 8 .
!
subroutine fal_pos_mod ( f , a , b , x t o l , f t o l , w, i f l a g , n t o l )
r e a l ( kind= dp ) , intent ( in out ) : : a , b
r e a l ( kind= dp ) , intent ( in ) : : xtol , f t o l
integer , intent ( in ) , optional : : n t o l
r e a l ( kind= dp ) , intent ( out ) :: w
INTERFACE
function f ( x )
end function f
END INTERFACE
integer : : n
r e a l ( kind= dp ) : : fa , fb , fw , s i g n f a , p r v s f w
!
f a= f ( a )
s i g n f a= s i g n ( 1 . 0 _dp , f a )
f b= f ( b )
i f ( s i g n f a ∗ f b > 0 . 0 _dp) then
print ’ ( " f ( x ) tem o mesmo s i n a l nos d o i s p o n t o s extremos : " , 2 e15 . 7 ) ’ , a , b
i f l a g = −1
return
end i f
w= a
fw= f a
n= 1
do
i f ( abs ( a−b ) <= x t o l ) then ! V e r i f i c a s e i n t e r v a l o e ’ menor que x t o l .
i f l a g= 0
return
end i f
i f ( abs ( fw ) <= f t o l ) then ! V e r i f i c a s e ABS( f (w) ) e ’ menor que f t o l .
i f l a g= 1
return
end i f
w= ( f a ∗b − f b ∗ a ) / ( f a − f b ) ! C a l c u l a novo w por i n t e r p o l a c a o .
p r v s f w= s i g n ( 1 . 0 _dp , fw )
fw= f (w)
i f ( s i g n f a ∗ fw > 0 . 0 _dp) then ! A l t e r a o i n t e r v a l o .
a= w
f a= fw
i f ( fw ∗ p r v s f w > 0 . 0 _dp) f b = 0 . 5 ∗ f b
else
b= w
f b= fw
i f ( fw ∗ p r v s f w > 0 . 0 _dp) f a = 0 . 5 ∗ f a
end i f

i f ( ( p r e s e n t ( n t o l ) ) . and . ( n >= n t o l ) ) then
print ’ ( " Nao houve c o n v e r g e n c i a em " , i 5 , " i t e r a c o e s . " ) ’ , n t o l
i f l a g= 2
return
end i f
n= n + 1
end do
return
end subroutine fal_pos_mod
Utilizando a rotina fal_pos_mod para o cálculo da raiz de p3 (x), obteve-se os seguintes resultados:
w0 = 1.00000000000000
w1 = 1.16666666666667
w2 = 1.32330827067669
w3 = 1.32654296624656
w4 = 1.32471556046769
w5 = 1.32471795317359.
Ou seja, em 5 iterações, o resultado já concorda com x1 em 5 casas decimais, enquanto que com o método
da bisecção o resultado somente possuía 2 casas decimais corretas após o mesmo número de iterações.
4.2.3 Método da secante

O método da secante é um outro variante do mé-
todo da falsa posição no qual, ao contrário da versão
modificada, não se procura cercar a raiz entre dois
pontos. Ao contrário, a fórmula (4.4) é empregada
continuamente. O método da secante, por outro
lado, não mais pressupõe que a raiz esteja dentro
de um intervalo [a0 , b0 ]. O método requer somente
que sejam fornecidos dois valores iniciais para a raiz,
x−1 e x0 , a partir dos quais novas aproximações para
a raiz são obtidas a partir de
f (xn ) xn−1 − f (xn−1 ) xn

xn+1 = , (4.5)
f (xn ) − f (xn−1 )
para n = 0, 1, 2, . . . . Como agora f (xn−1 ) e f (xn )

não mais necessitam ter sinais opostos, a fórmula
(4.5) está sujeita a erros de arredondamento quando
ambos os valores forem próximos entre si. No
caso mais extremo, pode até ocorrer que f (xn ) =
f (xn−1 ), em cuja situação o método falha comple-
tamente. Uma maneira de escrever (4.5) que pode
mitigar a ocorrência dos erros de arredondamento é
Figura 4.3: Método da secante.
xn − xn−1
xn+1 = xn − f (xn ) . (4.6)
f (xn ) − f (xn−1 )
É fácil ver que (4.5) e (4.6) são idênticas. O comportamento das aproximações à raiz de f (x) no método da
secante é ilustrado pela figura 4.3.
Como a raiz não mais permanece necessariamente cercada por dois valores extremos, não é possível
garantir que o método da secante venha a convergir sempre. Caso o método convirja, os critérios usuais
de parada são os seguintes. Para uma determinada iteração, identificada pelo índice n, o método será
considerado bem sucedido se
|f (xn )| 6 ftol ou |xn − xn−1 | 6 xtol. (4.7a)
Ou seja, o valor absoluto da função ou a diferença absoluta entre duas aproximações consecutivas são
considerados menores que um valor de tolerância. Quando não se conhece a ordem de grandeza do valor de
f (x) em uma vizinhança em torno da raiz ou a ordem de grandeza da própria raiz, pode-se usar os seguintes
valores relativos como critérios de parada:
|f (xn )|

xn − xn−1
6 ftol ou 6 xtol. (4.7b)
fmax xn
A subrotina 4.3 implementa o método da secante. Como critérios de parada foram escolhidos o erro
absoluto no valor da função e o erro relativo entre dois resultados consecutivos. Para evitar um número
excessivo de cálculos de f (x), o parâmetro ntol é obrigatório para a rotina secante.
Programa 4.3: Subrotina em Fortran 95 que implementa o método da secante.
! ∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗ SUBROTINA SECANTE ∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗
! Busca uma r a i z da f u n c a o F(X) p e l o Metodo da S e c a n t e .
! FUNC: Nome da f u n c a o c u j a r a i z e ’ d e s e j a d a
! x1 , x2 : Dois v a l o r e s i n i c i a i s para o i n i c i o da i t e r a c a o .
! ERRABS: Primeiro c r i t e r i o de parada . Se ABS(F(Xn) ) <= FTOL,
! e n t a o Xn e ’ a c e i t o como r a i z
! ERRREL: Segundo c r i t e r i o de parada : e r r o r e l a t i v o .
! Se ABS(Xn − Xn−1) <= XTOL∗ABS(Xn) , e n t a o Xn e ’ a c e i t o como r a i z .
! NTOL: Numero maximo de i t e r a c o e s a d m i t i d a s .
! X: Melhor e s t i m a t i v a para a r a i z .
! = −1, Metodo f a l h o u . Nenhuma r a i z f o i e n c o n t r a d a em NTOL
! i t e r a c o e s . O u l t i m o v a l o r e n c o n t r a d o para X e ’ r e t o r n a d o .
! = 0 , Encerrou d e v i d o ao p r i m e i r o c r i t e r i o de parada .
! = 1 , Encerrou d e v i d o ao segundo c r i t e r i o de parada .
!
! Data : Junho / 2 0 0 8 .
!
subroutine s e c a n t e ( func , x1 , x2 , e r r a b s , e r r r e l , n t o l , x , i f l a g )
use Modelos_Computacionais_Extras , only : t r o c a
integer , intent ( in ) : : ntol
r e a l ( kind=dp ) , intent ( in ) : : x1 , x2 , e r r a b s , e r r r e l
r e a l ( kind=dp ) , intent ( out ) : : x
INTERFACE
function f u n c ( x )
r e a l ( kind=dp ) , intent ( in ) : : x
r e a l ( kind=dp ) : : f u n c
end function f u n c
END INTERFACE
integer : : j
r e a l ( kind=dp ) : : dx , f , f l , x l
f l = f u n c ( x1 )
f= f u n c ( x2 )
i f ( abs ( f l ) < abs ( f ) ) then ! Tome o v a l o r i n i c i a l com o menor v a l o r de
x= x1 ! f u n c ( x ) como aproximacao i n i c i a l .
x l= x2
call troca ( fl , f )
else
x l= x1
x= x2
end i f
do j= 1 , n t o l
dx= ( xl −x ) ∗ f / ( f − f l )
x l= x
f l= f
x= x + dx
f= f u n c ( x )
i f ( abs ( f ) <= e r r a b s ) then
i f l a g= 0
return
end i f
i f ( abs ( dx ) <= e r r r e l ∗ abs ( x ) ) then
i f l a g= 1
return
end i f
end do
i f l a g = −1
return
end subroutine s e c a n t e
Ao contrário dos métodos anteriores, o método da secante não exige que os dois pontos iniciais cerquem
a raiz. na tabela abaixo, mostra-se um estudo das aproximações realizadas para a obtenção da raiz x1 de
p3 (x). Em todos os casos, foram tomados os seguintes valores: errabs = 0, errrel = 10−7 e ntol = 50.
Cada coluna corresponde a pares distintos de valores para x1 e x2. Com exceção da primeira coluna, as
demais partiram de valores que não cercam a raiz. Observa-se que o método da secante convergiu em todos
os casos, embora no último a convergência tenha sido bastante lenta.
x1= 1, x2= 2 x1= 2, x2= 3 x1= -1, x2= -2

1.00000000000000 2.00000000000000 -1.00000000000000 0.665601992393366 1.32471374864206
1.16666666666667 1.72222222222222 -0.833333333333333 0.668577447291536 1.32471795532635
1.39560439560440 1.46867825516563 -0.345454545454545 4.75696684459274 1.32471795724475
1.31365666090990 1.36356158529402 6.49850961972721 0.722810860257192
1.32401611532221 1.32934949633224 -0.327662162639576 0.775378136138015
1.32472525004811 1.32488078110669 -0.309617266171994 2.68909924536253
1.32471795247273 1.32471865771829 -1.34519594172679 0.922191365232718
1.32471795724471 1.32471795735102 0.235096865426605 1.04120189173659
1.32471795724475 2.46288916284303 1.52276684371980
0.449496710807014 1.26997209752081
0.662624843273948 1.31554258824252
-21.8117328908561 1.32520726281671
4.2.4 Método de Newton-Raphson

Tomando novamente a fórmula do método da secante (4.6), o termo
xn − xn−1
f (xn ) − f (xn−1 )
se aproxima de 1/f 0 (xn ) quando a diferença entre xn e xn−1 tende a zero. Portanto, é razoável que se realize
esta substituição em (4.6), resultando a fórmula do Método de Newton-Raphson,
f (xn )
xn+1 = xn − . (4.8)
f 0 (xn )
Este resultado pode ser determinado de uma maneira um pouco mais rigorosa realizando o desenvolvimento
da função f (x) em série de Taylor em torno do ponto a, supondo que |x − a| 1:
f (x) ≈ f (a) + f 0 (a) (x − a) .
Se o ponto x é a raiz de f (x), resulta

f (a)
x=a− .
f 0 (a)
Escrevendo a como o valor prévio da iteração (a = xn ) e x como o valor seguinte (x = xn+1 ), obtém-se a
fórmula (4.8). De fato, esta fórmula fornece simplesmente o ponto onde a reta tangente a f (xn ) é nula.
O método de Newton-Raphson é um dos métodos mais utilizados para o cálculo de raízes porque fornece
uma convergência rápida quando as formas analíticas de f (x) e f 0 (x) são conhecidas e não são custosas
do ponto de vista computacional. Além disso, o método de Newton utiliza somente um ponto anterior, ao
contrário do método da secante que necessita de dois pontos. Quando o cálculo de f 0 (x) se torna proibitivo,
costuma-se utilizar o método da secante em seu lugar. Cabe aqui ressaltar que a fórmula (4.8) pode ser
escritas na forma genérica
xn+1 = g (xn ) , n = 0, 1, 2, . . . , (4.9)
onde g (xn ) é uma determinada função de xn . Fórmulas do tipo (4.9) são conhecidas como fórmulas de
ponto fixo, porque quando a seqüência x0 , x1 , x2 , . . . converge a um determinado ponto ξ, resulta que
lim xn = lim xn+1 = ξ,

n→∞ n→∞
em cuja situação (4.9) se torna ξ = g(ξ); ou seja, ξ é um ponto fixo de g(x).

O método de Newton-Raphson nem sempre irá convergir. De fato, freqüentemente ele irá divergir ou,
quando converge, tende para uma outra raiz, caso exista, distinta daquela em consideração. Esta última
situação pode ocorrer porque o método não permite um controle no sentido de convergência das iterações, ao
contrário do que acontece com métodos como da bisecção e da falsa posição. Busca-se, portanto, estabelecer
condições que garantam a convergência do método para qualquer escolha de valor inicial x0 dentro de um
dado intervalo. Estas condições são fornecidas pelo seguinte teorema [3].
Teorema 4.2.
Seja f (x) diferenciável duas vezes no intervalo fechado [a, b]. Sendo as seguintes condições
satisfeitas:
1. f (a)f (b) < 0;
2. f 0 (x) 6= 0, para x ∈ [a, b];
3. f 00 (x) 6 0 ou f 00 (x) > 0, ∀x ∈ [a, b];
4. nos pontos extremos a e b:
f (a) f (b)
0> > − (b − a) e 0 < 0 < b − a.
f 0 (a) f (b)
Então o método de Newton-Raphson converge para uma solução única ξ de f (x) = 0 em [a, b]
para qualquer escolha de x0 ∈ [a, b].
Alguns comentários a respeito destas condições
são apropriados. Condições (1) e (2) garantem que
há somente uma única solução em [a, b]. Condição
(3) garante que o gráfico de f (x) possui somente
uma única concavidade em [a, b] (côncava ou con-
vexa) e que f 0 (x) é monótono neste intervalo. Final-
mente, a condição (4) garante que a reta tangente a
f (x) em cada ponto extremo do intervalo intercepta
o eixo x dentro de [a, b]. Sucintamente, a condição
(4) exige que f (x) seja suficientemente inclinada em
[a, b] para que a raiz da reta tangente no ponto xn
esteja sempre dentro do intervalo considerado. A rá-
pida convergência do método de Newton-Raphson,
uma vez que as condições acima são satisfeitas, é
ilustrada na figura 4.4.
As condições deste teorema são também sufici-
entes para garantir a convergência do método da
secante, desde que os dois valores iniciais x0 e x1 Figura 4.4: Convergência do método de Newton-Raphson.
estejam ambos dentro de [a, b]. Neste caso, contudo Dado x0 ∈ [a, b], o método rapidamente converge para
a convergência à raiz pode se processar de duas for- limn→∞ xn = ξ.
mas distintas, dependendo da escolha feita para a
ordem dos valores de x0 e x1 .
Um algoritmo que implemente o método de Newton-Raphson deve ter como parâmetros de entrada o(s)
nome(s) da(s) rotina(s) que calcula(m) f (x) e f 0 (x), o valor de x0 que garantidamente satisfaça as condições
acima e o(s) parâmetro(s) de tolerância do erro de truncamento do método. Como critério de convergência,
pode-se adotar novamente um ou mais dos critérios (4.7a) ou (4.7b).
Para que se possa escrever uma rotina robusta, portanto, seria necessário garantir as condições (1) –
(4). Contudo, não há como verificar numericamente que as condições (2) e (3) estão sendo cumpridas para
qualquer função f (x) apresentada à rotina. Para compensar esta deficiência, uma estratégia consiste em
utilizar um algoritmo que mistura os métodos de Newton-Raphson e da bisecção. Sempre que a n + 1-ésima
iteração esteja dentro do intervalo [a, b], realiza-se nova iteração usando o método de Newton. Porém, se
xn+1 estiver fora de [a, b] ou se |f (xn+1 )| não estiver diminuindo rápido o suficiente, calcula-se a próxima
iteração usando o método da bisecção. O programa 4.5 implementa justamente este tipo de algoritmo em
Fortran 95.
Programa 4.4: Utiliza uma combinação dos métodos de Newton-Raphson e da bisecção para encontrar uma raiz
dentro do intervalo fornecido.
! ∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗ SUBROTINA NEWTON_BISEC ∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗
! Busca uma r a i z da f u n c a o F(X) a t r a v e s de uma combinacao dos metodos de
! Newton−Raphson e da b i s e c c a o .
! F_DFDX: Nome da s u b r o t i n a que r e t o r n a os v a l o r e s de F(X) e F ’ (X) .
! x1 , x2 : Dois v a l o r e s i n i c i a i s para o i n i c i o da i t e r a c a o .
! ERRABS: Primeiro c r i t e r i o de parada . Se ABS(F(Xn) ) <= FTOL,
! e n t a o Xn e ’ a c e i t o como r a i z
! ERRREL: Segundo c r i t e r i o de parada : e r r o r e l a t i v o .
! Se ABS(Xn − Xn−1) <= XTOL∗ABS(Xn) , e n t a o Xn e ’ a c e i t o como r a i z .
! NTOL: Numero maximo de i t e r a c o e s a d m i t i d a s .
! RAIZ : Melhor e s t i m a t i v a para a r a i z .
! = −2, Metodo f a l h o u . Nao e x i s t e r a i z em [ x1 , x2 ] .
! = −1, Metodo f a l h o u . Nenhuma r a i z f o i e n c o n t r a d a em NTOL
! i t e r a c o e s . O u l t i m o v a l o r e n c o n t r a d o para X e ’ r e t o r n a d o .
! = 0 , Encerrou d e v i d o ao p r i m e i r o c r i t e r i o de parada ou por novas
! i t e r a c o e s nao a l t e r a r e m o r e s u l t a d o .
! = 1 , Encerrou d e v i d o ao segundo c r i t e r i o de parada .
!
! Data : Junho / 2 0 0 8 .
! ( Baseado na f u n c a o r t s a f e do Numerical R e c i p e s ) .
!
subroutine newton_bisec ( f_dfdx , x1 , x2 , e r r a b s , e r r r e l , n t o l , r a i z , i f l a g )
integer , intent ( in ) : : ntol
r e a l ( kind=dp ) , intent ( in ) : : x1 , x2 , e r r a b s , e r r r e l
r e a l ( kind=dp ) , intent ( out ) : : r a i z
INTERFACE
subroutine f_dfdx ( x , fx , dfdx )
r e a l ( kind=dp ) , intent ( in ) :: x
r e a l ( kind=dp ) , intent ( out ) : : fx , dfdx
end subroutine f_dfdx
END INTERFACE
integer :: j
r e a l ( kind=dp ) : : df , dx , dxold , f , fh , f l , temp , xh , x l
c a l l f_dfdx ( x1 , f l , d f )
c a l l f_dfdx ( x2 , fh , d f )
i f ( f l ∗ f h > 0 . 0 _dp) then
i f l a g = −2
return
end i f
i f ( f l == 0 . 0 _dp) then
r a i z= x1
i f l a g= 0
return
e l s e i f ( f h == 0 . 0 _dp) then
r a i z= x2
i f l a g= 0
return
e l s e i f ( f l < 0 . 0 _dp) then ! O r i e n t e o i n t e r v a l o t a l que f ( x1 ) < 0 .
x l= x1
xh= x2
else
xh= x1
x l= x2
end i f
r a i z= 0 . 5 ∗ ( x1 + x2 )
dxold= abs ( x2 − x1 )
dx= dxold
c a l l f_dfdx ( r a i z , f , d f )
do j= 1 , n t o l ! Laco s o b r e o numero p e r m i t i d o de i t e r a c o e s .
i f ( ( ( r a i z −xh ) ∗ df−f ) ∗ ( ( r a i z −x l ) ∗ df−f ) >= 0 . 0 _dp & ! Se a i t e r a c a o e s t i v e r
. o r . abs ( 2 . 0 ∗ f ) > abs ( dxold ∗ d f ) ) then ! f o r a de [ x1 , x2 ] ,
dxold= dx ! ou s e nao e s t i v e r
dx= 0 . 5 ∗ ( xh − x l ) ! c o n v e r g i n d o rapidamente ,
r a i z= x l + dx ! use b i s e c c a o .
i f ( x l == r a i z ) then
i f l a g= 0
return
end i f
e l s e ! I t e r a c a o e s t a d e n t r o de [ x1 , x2 ] .
dxold= dx
dx= f / d f
temp= r a i z
r a i z= r a i z − dx
i f ( temp == r a i z ) then
i f l a g= 0
return
end i f
end i f
i f ( abs ( f ) <= e r r a b s ) then ! Primeiro c r i t e r i o de parada .
i f l a g= 0
return
end i f
i f ( abs ( dx ) <= e r r r e l ∗ abs ( r a i z ) ) then ! Segundo c r i t e r i o de parada .
i f l a g= 1
return
end i f
c a l l f_dfdx ( r a i z , f , d f )
i f ( f < 0 . 0 _dp) then
x l=r a i z
else
xh=r a i z
end i f
end do
i f l a g = −1
return
end subroutine newton_bisec
Utilizando a rotina newton_bisec para encontrar a raiz x1 de p3 (x) dentro do intervalo [1, 2], com
errabs= 0, errrel= 10−10 e ntol= 50, obteve-se as seguintes iterações:
w0 = 1.50000000000000
76 4.3. Raízes complexas de funções analíticas
w1 = 1.34782608695652
w2 = 1.32520039895091
w3 = 1.32471817399905
w4 = 1.32471795724479
w5 = 1.32471795724475.
Pode-se notar que com somente 5 iterações, todas as casas decimais disponíveis para uma variável de dupla
precisão foram obtidas.
4.3 Raízes complexas de funções analíticas

Os métodos discutidos até este momento permitem a obtenção de uma raiz real isolada uma vez que uma
aproximação prévia da raiz ou outra informação são conhecidas. A informação prévia pode ser, por exemplo,
o intervalo onde se sabe que um número ímpar de raízes reside, como no caso do método da bisecção.
Estes métodos não são muito satisfatórios quando todos os zeros de uma função são requeridos ou
quando boas aproximações iniciais não estão disponíveis. Outra evidente limitação dos métodos até agora
apresentados consiste na obtenção unicamente de raízes reais da função. Muitos problemas em física,
engenharia, matemática ou outro campo de ciências naturais e exatas exigem o conhecimento também de
raízes complexas de funções analíticas. Uma classe muito útil de funções onde todas estas limitações são
evidentes é a dos polinômios, da qual a função p3 (x), apresentada em (4.2) faz parte. Das três raízes de
p3 (x), somente uma (x1 ) é real, enquanto as outras duas (x2 e x3 ) são complexas. Contudo, os métodos
apresentados possibilitaram somente a obtenção de x1 .
Nesta seção, alguns métodos desenvolvidos para o cálculo numérico de raízes complexas de funções
analíticas serão abordados. Particular ênfase será concedida ao Método de Müller e uma descrição sucinta
será realizada acerca de métodos modernos que utilizam propriedades matemáticas oriundas da teoria de
funções analíticas.
4.3.1 O método de Müller

Este método relativamente recente, desenvolvido inicialmente por D. E. Müller [10], tem sido empregado
em diversas aplicações distintas com bastante sucesso. Este método pode ser usado para descobrir qualquer
número pré-fixado de raízes, reais ou complexas, de uma função analítica arbitrária. O método é iterativo,
converge quase quadraticamente na vizinhança de uma raiz, não requer a forma analítica da derivada da
função e obtém tanto raízes reais quanto complexas, mesmo quando estas são múltiplas.
Este método é global, no sentido de que o usuário não necessita fornecer uma aproximação inicial. Nesta
seção o método será apresentado, omitindo qualquer discussão a respeito da sua convergência, e uma rotina
que possibilita a obtenção de raízes tanto reais quanto complexas será também incluída. O problema de
encontrar as todas as raízes de um polinômio terá uma atenção especial, uma vez que este problema surge
com freqüência em todos os ramos das ciências naturais e exatas.
O método de Müller é uma extensão do método da secante (seção 4.2.3). Para relembrar, no método
da secante são fornecidas duas aproximações iniciais (xi e xi−1 ) para a solução da equação f (x) = 0, sendo
obtida uma terceira aproximação (xi+1 ) (Eq. 4.6). Esta aproximação consiste simplesmente na raiz da reta
secante que passa pelos pontos {xi , f (xi )} e {xi−1 , f (xi−1 )}. No método de Müller, são fornecidos 3 pontos:
{xi−2 , f (xi−2 )}, {xi−1 , f (xi−1 )} e {xi , f (xi )}, sendo a próxima aproximação à raiz, xi+1 , obtida como uma
raiz da parábola que cruza os 3 pontos anteriores. Este método está ilustrado na figura 4.5.
Para interpolar a parábola p(x):
p(x) = ax2 + bx + c
com a função f (x) nos três pontos apresentados, basta determinar o valor das constantes a, b e c de tal
forma que p(x) corta f (x) nestes pontos, como apresentado na figura 4.5. Uma maneira equivalente de
escrever p(x) é a seguinte:
p(x) = f (xi ) + f [xi , xi−1 ] (x − xi ) + f [xi , xi−1 , xi−2 ] (x − xi ) (x − xi−1 ) , (4.10a)
sendo
f (x1 ) − f (x0 )
f [x0 , x1 ] =
x1 − x0
f [x1 , x2 ] − f [x0 , x1 ]
f [x0 , x1 , x2 ] = ,
x2 − x0
Figura 4.5: O método de Müller. Par-

tindo de 3 pontos iniciais da função f (x):
{xi−2 , f (xi−2 )}, {xi−1 , f (xi−1 )} e {xi , f (xi )},
a parábola p(x) é contruída, sendo a próxima
aproximação para a raiz de f (x) tomada como
a raiz xi+1 da parábola que mais se aproxima
da raiz da função.
expressões particulares de
f [x0 ] = f (x0 )
f [x1 , . . . , xk ] − f [x0 , . . . , xk−1 ]
f [x0 , . . . , xk ] = ,
xk − x0
onde f [x0 , . . . , xk ] é a k-ésima diferença dividida de f (x) nos pontos x0 , . . . , xk . Pode-se verificar
facilmente que (4.10a) realmente interpola f (x) nos três pontos escolhidos. Uma vez que
2
(x − xi ) (x − xi−1 ) = (x − xi ) + (xi − xi−1 ) (x − xi ) ,
pode-se escrever p(x) também como

2
p(x) = f (xi ) + ci (x − xi ) + f [xi , xi−1 , xi−2 ] (x − xi ) , (4.10b)
onde
ci = f [xi , xi−1 ] + f [xi , xi−1 , xi−2 ] (xi − xi−1 ) .
A função p(x) apresentada em (4.10b) está escrita na forma de um polinômio do 2º grau de (x − xi ).

Buscando-se então uma raiz ξ de p(x), tal que p (ξ) = 0, resulta
−ci ± c2i − 4f (xi ) f [xi , xi−1 , xi−2 ]

p
2
p(ξ) = f (xi )+ci (ξ − xi )+f [xi , xi−1 , xi−2 ] (ξ − xi ) = 0 =⇒ ξ −xi = ,
2f [xi , xi−1 , xi−2 ]
a qual pode também ser escrita como
−2f (xi )
ξ − xi = . (4.11)
− 4f (xi ) f [xi , xi−1 , xi−2 ]
p
ci ± c2i
Se o sinal de (4.11) for escolhido de tal forma que o denominador seja o maior possível1 e o valor de ξ
resultante for tomado como a aproximação xi+1 da raiz de f (x), então a fórmula do método de Müller fica:
2f (xi )
xi+1 = xi − , (4.12)
c2i − 4f (xi ) f [xi , xi−1 , xi−2 ]
p
ci ±
1 Isto é, de tal forma que não possa ocorrer cancelamento, o que facilmente poderia gerar erros de arredondamento.

Algoritmo 4.3 Implementação numérica do método de Müller.
1. Dadas x0 , x1 e x2 , três aproximações iniciais para a raiz ξ de f (x). Calcule f (x0 ), f (x1 ) e f (x2 ).
2. Coloque i = 2 e calcule
hi = xi − xi−1 ; hi−1 = xi−1 − xi−2

f [xi−1 , xi ] = (f (xi ) − f (xi−1 )) /hi
f [xi−2 , xi−1 ] = (f (xi−1 ) − f (xi−2 )) /hi−1 .
3. Calcule
f [xi−2 , xi−1 , xi ] = (f [xi−1 , xi ] − f [xi−2 , xi ]) / (hi + hi−1 )

ci = f [xi−1 , xi ] + hi f [xi−2 , xi−1 , xi ] ,
4. Calcule q
hi+1 = −2f (xi ) / ci ± c2i − 4f (xi ) f [xi , xi−1 , xi−2 ] ,
escolhendo o sinal de modo a maximizar a magnitude do denominador.

5. Calcule
xi+1 = xi + hi+1 .
6. Calcule
f (xi+1 ) .
7. Teste se um dos seguintes critérios for satisfeito:
(a) |f (xi+1 )| 6 1 (Erro absoluto).

(b) |xi+1 − xi | 6 2 |xi+1 | (Erro relativo).
(c) O número máximo de iterações é excedido.
8. Se o teste for verdadeiro, retorna a última aproximação obtida (xi+1 ). Se o teste for falso, calcule
f [xi , xi+1 ] = (f (xi+1 ) − f (xi )) /hi+1 ,
faça i = i + 1 e recomece a partir do passo 3.
onde, conforme mencionado, o sinal do denominador de (4.12) deve ser escolhido de forma adequada.
Uma vez obtido xi+1 , o processo é então repetido utilizando-se xi−1 , xi e xi+1 em (4.12) para se obter
xi+2 e assim consecutivamente. Se os zeros obtidos a partir de (4.12) forem reais, então a situação é ilustrada
graficamente pela figura 4.5. Contudo, as raízes podem ser complexas mesmo que as aproximações iniciais
sejam reais, bastando para isso que c2i − 4f (xi ) f [xi , xi−1 , xi−2 ] < 0. Isto significa que mesmo que a raiz
procurada seja real, aproximações intermediárias podem ser complexas. Porém, à medida que as iterações
se aproximam da raiz real, a parte imaginária de xi+1 tende a zero. O algoritmo 4.3 apresenta a seqüência
de passos necessária para implementar o método de Müller.
O programa 4.5 implementa o método de Müller, conforme delineado no algoritmo 4.3, em uma subrotina
em Fortran 95. O método de Müller encontra uma raiz de cada vez. Para encontrar mais de uma raiz e
evitar que as iterações venham a convergir para valores previamente encontrados, o programa 4.5 possui
uma subrotina interna que implementa a técnica conhecida como deflação. Se, por exemplo, uma raiz ξ1
foi previamente obtida, a rotina calcula o próximo zero não a partir da função f (x) original, mas a partir
da função deflacionada ou reduzida
f (x)
f1 (x) = .
x − ξ1
Desta forma, se a raiz ξ1 for única, limx→ξ1 f1 (x) = 1 e o método deverá convergir para uma raiz ξ2 distinta.
Pode acontecer de ξ2 = ξ1 se esta raiz for dupla. contudo, a função será novamente reduzida para cada nova
raiz encontrada. Assim, se os zeros ξ1 , ξ2 , . . . , ξr foram previamente obtidos, o próximo zero será obtido a
partir da função reduzida
f (x)
fr (x) = .
(x − ξ1 ) (x − ξ2 ) · · · (x − ξr )
Programa 4.5: Implementação do método de Müller em Fortran 95.

! ∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗ SUBROTINA MULLER ∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗
! Encontra as r a i z e s de uma f u n c a o a n a l i t i c a u n i v o c a p e l o Metodo de M u l l e r .
!
! Argumentos :
! f n : Funcao a n a l i t i c a u n i v o c a f ( z ) c u j a s r a i z e s sao p r o c u r a d a s ( Entrada )
! n : Numero t o t a l de r a i z e s a serem e n c o n t r a d a s . ( Entrada )
! nprev : Numero de r a i z e s p r e v i a m e n t e c o n h e c i d a s . ( Entrada )
! maxit : Numero maximo de chamadas da f u n c a o f n ( z ) por r a i z . ( Entrada )
! e r r a b s : Primeiro c r i t e r i o de parada . ( Entrada )
! I t e r a c o e s sao i n t e r r o m p i d a s s e a b s ( f n ( z ) ) . l t . e r r a b s .
! e r r r e l : Segundo c r i t e r i o de parada . ( Entrada )
! I t e r a c o e s sao i n t e r r o m p i d a s s e a b s ( h ) . l t e r r r e l ∗ a b s ( z ) .
! z e r o s : Vetor que contem as r a i z e s de f n ( z ) . ( Entrada / Sa i da )
! z e r o s ( 1 ) , . . . , z e r o s ( nprev ) contem as r a i z e s p r e v i a m e n t e c o n h e c i d a s .
! z e r o s ( nprev +1) , . . . , z e r o s ( n ) contem as r a i z e s e n c o n t r a d a s .
! f a t o r : (OPCIONAL) Fator m u l t i p l i c a t i v o para v a l o r e s i n i c i a i s . ( Entrada )
! Para z= z e r o s ( i ) , os 3 p r i m e i r o s p o n t o s para a j u s t a r a p a r a b o l a sao
! z , z + f a t o r ∗h e z − f a t o r ∗h , sendo h um v a l o r f i x o .
! f n r e a l : (OPCIONAL) V a r i a v e l l o g i c a para r a i z e s r e a i s . ( Entrada )
! f n r e a l = . t r u e . s e t o d a s as r a i z e s sao r e a i s .
! f n r e a l= . f a l s e . s e ha r a i z e s c o m p l e x a s ( v a l o r padrao ) .
!
! Data : Junho / 2 0 0 9 .
!
subroutine m u l l e r ( fn , n , nprev , maxit , e r r a b s , e r r r e l , z e r o s , f a t o r , f n r e a l )
!
l o g i c a l , optional , intent ( in ) : : fnreal
integer , intent ( in ) : : n , nprev , maxit
r e a l ( kind= dp ) , intent ( in ) : : errabs , e r r r e l
r e a l ( kind= dp ) , optional , intent ( in ) : : fator
complex ( kind= dp ) , dimension ( n+nprev ) , intent ( inout ) : : z e r o s
integer : : i , n_it
r e a l ( kind= dp ) : : eps1 , eps2 , t e s t e , h_ini= 0 . 5 _dp
complex ( kind= dp ) : : c , den , d i v d f 1 , d i v d f 2 , dvdf1p , f z r
complex ( kind= dp ) : : f z r d f l , f z r p r v , h , hprev , z e r o , s q r
INTERFACE
function f n ( z )
complex ( kind= dp ) , intent ( in ) : : z
complex ( kind= dp ) : : fn
end function f n
END INTERFACE
! InicializaÃ§Ã£o .
e p s 1 = max( e r r r e l , 1 0 . 0 _dp∗ e p s i l o n ( 1 . 0 _dp ) )
e p s 2 = max( e r r a b s , 1 0 . 0 _dp∗ t i n y ( 1 . 0 _dp ) )
i f ( p r e s e n t ( f a t o r ) ) h_ini= f a t o r ∗ h_ini
!
l _ r a i z e s : do i = nprev + 1 , n
n_it = 0
! C a l c u l e os t r e s p r i m e i r o s v a l o r e s da i −esima r a i z como
! z e r o s ( i ) + h , z e r o s ( i )− h , z e r o s ( i )
zero = zeros ( i )
h = h_ini ∗ z1
c a l l d f l a c ( z e r o + h , i , n_it , f z r , dvdf1p , z e r o s )
c a l l d f l a c ( z e r o − h , i , n_it , f z r , f z r p r v , z e r o s )
hprev = −2.0_dp∗h
dvdf1p = ( f z r p r v − dvdf1p ) / hprev
c a l l d f l a c ( z e r o , i , n_it , f z r , f z r d f l , z e r o s )
l _ i t e r : do
divdf1 = ( f z r d f l − f z r p r v )/h
d i v d f 2 = ( d i v d f 1 − dvdf1p ) / ( h + hprev )
hprev = h
dvdf1p = d i v d f 1
c = d i v d f 1 + h∗ d i v d f 2
s q r = c ∗ c − 4 . 0 _dp∗ f z r d f l ∗ d i v d f 2
i f ( p r e s e n t ( f n r e a l ) . and . ( r e a l ( s q r ) < 0 . 0 _dp ) ) s q r = ( 0 . 0 _dp , 0 . 0 _dp)
sqr = sqrt ( sqr )
i f ( r e a l ( c ) ∗ r e a l ( s q r )+aimag ( c ) ∗ aimag ( s q r ) < 0 . 0 _dp) then
den = c − s q r
else
den = c + s q r
end i f
h = −2.0_dp∗ f z r d f l / den
fzrprv = f z r d f l
zero = zero + h
i f ( n_it > maxit ) e x it l _ i t e r
l _ d i v : do
c a l l d f l a c ( z e r o , i , n_it , f z r , f z r d f l , z e r o s )
! Verifique a convergencia .
t e s t e= abs ( h ) − e p s 1 ∗ abs ( z e r o )
i f ( t e s t e < 0 . 0 _dp) e x i t l _ i t e r
i f (max( abs ( f z r ) , abs ( f z r d f l ) ) < e p s 2 ) e x it l _ i t e r
! V e r i f i q u e s e v a l o r i t e r a d o d i v e r g e da r a i z .
i f ( abs ( f z r d f l ) < 1 0 . 0 _dp∗ abs ( f z r p r v ) ) e x i t l _ d i v
h = 0 . 5 _dp∗h
zero = zero − h
end do l _ d i v
end do l _ i t e r
zeros ( i ) = zero
end do l _ r a i z e s
return
CONTAINS
subroutine d f l a c ( z e r o , i , n_it , f z e r o , f z r d f l , z e r o s )
integer , intent ( in ) :: i
integer , intent ( inout ) : : n_it
complex ( kind= dp ) , intent ( in ) : : zero
complex ( kind= dp ) , intent ( out ) : : fzero , f z r d f l
complex ( kind= dp ) , dimension ( i ) , intent ( inout ) : : z e r o s
integer :: j
complex ( kind= dp ) : : den
!
n_it = n_it + 1
f z e r o = fn ( zero )
fzrdfl = fzero
do j = 2 , i
den = z e r o − z e r o s ( j −1)
i f ( abs ( den ) == 0 . 0 _dp) then
z e r o s ( i ) = z e r o ∗ 1 . 0 0 1 _dp
return
else
f z r d f l = f z r d f l / den
end i f

end do
return
end subroutine d f l a c
end subroutine m u l l e r
Usando a rotina muller para encontrar as três raízes de p3 (x) obteve-se os seguintes resultados.
• Com errabs= 0 e errrel= 0.1d0, os resultados são:
x1 = (−0.665243809187657, −0.556608124056967)
x2 = (−0.662340508718597, 0.562310707038522)
x3 = (1.32447378321995, 1.727695801886954E − 004)
com erros relativos iguais a
7.323503893991807E − 003, 4.172563925890038E − 005, 2.257958628007346E − 004
respectivamente.
• Com errabs= 0 e errrel= 1.0d-5, os resultados são:
x1 = (−0.662358978622373, −0.562279512062300)
x2 = (−0.662358978622373, 0.562279512062301)
x3 = (1.32471795724475, 2.958228394578794E − 031)
1.152237512587846E − 015, 0.000000000000000E + 000, 2.233100546724340E − 031
respectivamente.
• Com errabs= 0 e errrel= 1.0d-9, os resultados são:
x1 = (−0.662358978622373, −0.562279512062301)
x2 = (−0.662358978622373, 0.562279512062301)
x3 = (1.32471795724475, 0.000000000000000E + 000)
0.000000000000000E + 000, 0.000000000000000E + 000, 0.000000000000000E + 000
respectivamente.
Ou seja, observa-se que o método rapidamente converge para os valores exatos das raízes.


Capítulo 5
Problemas de Valor Inicial [Em

Construção]
5.1 Introdução
Neste capítulo serão discutidos alguns métodos de solução numérica de Equações Diferenciais Ordinárias
(ODE) que fazem parte de Problemas de Valor Inicial (PVI).
Em ciências exatas ou naturais, grande parte dos problemas existentes são descritos por equações dife-
renciais, cujas soluções gerais devem ser particularizadas por condições iniciais e/ou condições de contorno.
Quando ocorrem somente as primeiras, diz-se que o problema é de valor inicial.
Um problema de valor inicial pode ser definido da seguinte forma. Sendo x > x0 um parâmetro que
varia de forma independente no problema e y(x) uma função da variável x, a função y(x) será determinada,
em um problema de valor inicial, a partir da solução da equação diferencial ordinária de ordem n

F y (n) (x), y (n−1) (x), . . . , y 0 (x), y(x), x = f (x), (5.1a)
juntamente com as condições iniciais

g0 y (x0 ) , y 0 (x0 ) , . . . , y (n−1) (x0 ) = a0 (5.1b)

g1 y (x0 ) , y 0 (x0 ) , . . . , y (n−1) (x0 ) = a1 (5.1c)
.. ..
. . (5.1d)

gn y (x0 ) , y 0 (x0 ) , . . . , y (n−1) (x0 ) = an , (5.1e)
sendo F (· · · ) um funcional qualquer de y(x) e suas derivadas até a ordem n, f (x) uma função de x,
g0 (· · · ) , . . . , gn (· · · ) funcionais das condições iniciais y (x0 ) , . . . , y (n−1) (x0 ) e a0 ,. . . , an constantes. Em
problemas realísticos na física, geralmente os funcionais g0 , . . . , gn são lineares em y (x0 ) , . . . , y (n−1) (x0 )

mas o funcional F é não linear em y(x), . . . , y (n) (x) .

5.2 Equações de diferenças finitas lineares

A solução numérica do problema (5.1) envolve a discretização da ODE, ou seja, a transformação da
equação diferencial em uma equação de diferenças finitas. Para exemplificar, pode-se considerar o PVI
linear
y 0 = y, (5.2a)
y (x0 ) = a0 , (5.2b)
cuja solução é y(x) = a0 ex−x0 . Para discretizar este PVI de uma forma trivial, considera-se a definição de
uma derivada e omite-se o símbolo de limite:
y (x + h) − y(x)
y 0 (x) −→ ,
h
83
84 5.2. Equações de diferenças finitas lineares
sendo h um pequeno incremento em x. Desta forma, é possível afirmar que a solução no ponto x + h é
obtida a partir do conhecimento da solução em x através de
y (x + h) = (1 + h) y(x).
Partindo-se então do valor inicial y0 = a0 , obtem-se y1 = y (x + h)=(1 + h) y0 =(1 + h) a0 , y2 = y (x + 2h) =

2 n
(1 + h) y1 = (1 + h) a0 , etc. Por indução, pode-se deduzir que yn = (1 + h) a0 . Escrevendo agora o n-
ésimo valor de x como xn = x0 + nh e chamando xn ≡ x e yn ≡ y, temos
n
x − x0 x − x0
h= . Portanto, y = 1 + a0 .
n n
Empregando agora a identidade
z n

lim 1+
= ez ,
n→∞ n
resulta que a solução discretizada do PVI (5.2), quando n → ∞, reduz-se a y = a0 ex−x0 , a qual é justamente
a sua solução. Contudo, neste limite o resultado deverá estar bastante contaminado pela propagação de
erros de arredondamento; além disso, deseja-se buscar métodos que forneçam resultados mais acurados já
para as primeiras iterações.
Alguns exemplos de equações de diferenças finitas e suas soluções são
yn+1 − yn = 1 =⇒ yn = n + c
n (n − 1)
yn+1 − yn = n =⇒ yn = +c
2
yn+1 − (n + 1) yn = 0 =⇒ yn = cn!
Vamos considerar com algum detalhe uma equação de diferenças finitas linear de ordem N com coefici-
entes constantes
yn+N + aN −1 yn+N −1 + · · · + a1 yn+1 + a0 yn = 0. (5.3)
Esta equação deve possuir N soluções linearmente independentes, as quais são da forma yn = β n , ∀n, sendo
β uma constante. Substituindo esta solução em (5.3) resulta
β n+N + aN −1 β n+N −1 + · · · + a1 β n+1 + a0 β n = 0.
Dividindo-se por β n , resulta a equação característica
β N + aN −1 β N −1 + · · · + a1 β + a0 = 0, (5.4)
a qual fornece as raízes de um polinômio de grau N . Assumindo que todas as raízes β1 , β2 , . . . , βN são
distintas, a solução geral de (5.3) pode ser finalmente escrita como
yn = c1 β1n + c2 β22 + · · · + cN βN
n
, n = 0, 1, 2, . . . .
Se os valores de yn n = 0, . . . , N − 1 forem dados, estes, juntamente com (5.3), formam um problema

de valor inicial de diferenças finitas, o qual pode ser resolvido explicitamente resultando na solução
particular para yn .
Como um exemplo, a equação de diferenças
yn+3 − 2yn+2 − yn+1 + 2yn = 0
possui a equação característica

β 3 − 2β 2 − β + 2 = 0,
cujas raízes são β1 = 1, β2 = −1 e β3 = 2. Portanto, a solução geral é
n
yn = c1 1n + c2 (−1) + c3 2n .
Sendo agora dados y0 = 0, y1 = 1 e y2 = 1, então
y0 = c1 + c2 + c3 = 0
y1 = c1 − c2 + 2c3 = 1
y2 = c1 + c2 + 4c3 = 1

Capítulo 5. Problemas de Valor Inicial [Em Construção] 85
o qual forma um sistema linear nas constantes, cuja solução é c1 = 0, c2 = e c3 =
−1/3 1/3.
Portanto, a
solução particular é
1 n 2n
yn = − (−1) + .
3 3
Se alguma das raízes da equação característica (5.4) for dupla (β1 , por exemplo), então uma segunda
solução da mesma é nβ1n . No mesmo espírito, se algum par de raízes de (5.4) forem complexo conjugadas
(β1 = β2∗ , por exemplo), então estas podem ser escritas na sua forma polar e c1 β1 + c2 β2 pode ser reescrita
na forma rn (C1 cos nθ + C2 sennθ), onde r = |β1 | e θ = arg β1 .
As propriedades das equações de diferenças finitas consideradas nesta seção serão úteis para os métodos
desenvolvidos no restante deste capítulo.
5.3 Integração numérica por série de Taylor

Considerando-se inicialmente um PVI de primeira ordem na forma
y 0 = f (x, y) (5.5a)
y (x0 ) = y0 . (5.5b)
A função f (x, y) pode ser linear ou não linear em y, mas é assumido que esta é diferenciável em qualquer
ordem em x e y. Se ∂f /∂y for contínua no domínio de interesse, então a solução de (5.5) é única.
Sendo então y(x) a solução exata de (5.5), pode-se desenvolver y(x) em uma série de Taylor em torno
do ponto x = x0 :
1 2
y(x) = y0 + (x − x0 ) y 0 (x0 ) + (x − x0 ) y´´ (x0 ) + · · · . (5.6)
2!
O valor de y0 é suposto dado, mas as derivadas na série acima não são conhecidas uma vez que y(x)
é desconhecido. Contudo, dada a hipótese de f (x, y) ser diferenciável, as derivadas de (5.6) podem ser
obtidas tomando-se a derivada total de (5.5a) em relação a x, lembrando sempre que y é função de x.
Assim, obtem-se para as primeiras derivadas:
y0 = f
df
y 00 = = fx + fy y 0
dx
= fx + fy f
d2 f
y 000 = = fxx + fxy f + fyx f + fyy f 2 + fy fx + fy2 f
dx2
= fxx + 2fxy f + fyy f 2 + fy fx + fy2 f.
Continuando desta maneira, pode-se expressar qualquer derivada de y em termos de f (x, y) e suas derivadas
parciais. Contudo, para derivadas de mais alta ordem a expressão resultante torna-se cada vez mais extensa.
Por razões práticas, portanto, deve-se limitar o número de termos em (5.6) a um valor pequeno e
esta limitação restringe o valor de x para o qual a série (5.6) truncada resulta em um valor para y(x)
razoavelmente acurado. Assumindo que a série (5.6) truncada fornece uma boa aproximação para um passo
de comprimento h, isto é, x − x0 = h, pode-se calcular y em x0 + h, recalcular suas derivadas y 0 , y 00 , etc, em
x = x0 + h e então usar (5.6) novamente para calcular y em x0 + 2h; e assim sucessivamente. Prosseguindo
desta maneira, obtem-se uma conjunto discreto de valores {yn } que são aproximações da solução correta
nos pontos xn = x0 + nh (n = 0, 1, 2, . . . ). No restante deste capítulo, a solução exata de (5.5) no ponto xn
será denotada por y (xn ), enquanto que a solução aproximada será denotada por yn .
Para formalizar este procedimento, introduz-se o operador
h 0 h2 hk−1 (k−1)
Tk (x, y) = f (x, y) + f (x, y) + f 00 (x, y) + · · · + f (x, y) , k = 1, 2, . . . , (5.7)
2! 3! k!
onde f (j) (x, y) denota a j-ésima derivada total de f (x, y) com relação a x. Assim, truncando-se a série
(5.6) até o k-ésimo termo, pode-se escrever:
y(x0 + h) ≈ y0 + h Tk x0 , y (x0 ) . (5.8a)

O erro local cometido ao se tormar o passo de xn para xn+1 utilizando o método de Taylor na ordem k, é
fornecido pelo próximo termo da série de Taylor truncada:
hk+1 (k+1) hk
E= (ξ) = f (k) ξ, y (ξ) , xn < ξ < xn + h. (5.8b)

y
(k + 1)! (k + 1)!
86 5.4. O Método de Runge-Kutta
Algoritmo 5.1 Algoritmo de Taylor de ordem k.
Para encontrar uma solução aproximada do PVI
y 0 = f (x, y)
y(a) = y0
sobre o intervalo [a, b]:

1. Escolha um passo h = (b − a) /N . Defina
xn = a + nh, n = 0, 1, . . . , N.
2. Obtenha as aproximações yn de y (xn ) a partir da fórmula de recorrência
yn+1 = yn + hTk (xn , yn ) , n = 0, 1, . . . , N − 1,
onde Tk (xn , yn ) está definido em (5.7).
Neste caso, diz-se que o algoritmo de Taylor é de ordem k. O algoritmo 5.1 implementa o método de
Taylor.
5.3.1 O método de Euler

Arbitrando k = 1 em (5.8a,b), obtem-se o método de Euler e o seu erro local. Seguindo a representação
apresentada no algoritmo 5.1, a fórmula para o método de Euler fica:
yn+1 = yn + f (xn , yn ) , (5.9a)

1
E = f 0 (xn , yn ) h2 , xn < ξ < xn+1 . (5.9b)
2
Para este método, existe uma outra estimativa de erro que pode ser denominada de erro global ou erro
de convergência. Trata-se de um limite superior no erro cometido ao se utilizar repetidas vezes este método
com um passo fixo h, variando x entre x0 e algum limite superior x = b. Sendo xn = x0 + nh, este erro é
mensurado como
en = y (xn ) − yn ,
isto é, o erro realizado no processo de discretização empregado pelo método de Euler. Nesta definição, yn é
o valor aproximado dado pelo método de Euler (Eq. 5.9a), enquanto que y (xn ) é a solução exata do PVI
no ponto xn . Uma estimativa máxima para en é dada pelo Teorema (5.3.1) abaixo.
Teorema 5.1
Seja yn a solução aproximada de (5.5) obtida pelo Método de Euler (5.9). Se a solução exata de (5.5),
y = y(x), possui sua derivada segunda contínua no intervalo [x0 , b] e se neste intervalo as inegualdades
|fy (x, y)| 6 L, |y 00 (x)| < Y
são satisfeitas para certas constantes positivas L e Y , o erro de convergência en = y (xn ) − yn do Método
de Euler no ponto xn = x0 + nh tem seu valor máximo dado por
hY h (xn −x0 )L i
|en | 6 e −1 .
2L
O teorema (5.3.1) mostra que o erro é O(h), isto é, en → 0 proporcionalmente a h se x = xn é mantido
fixo. Por outro lado, para um h fixo, o erro aumenta na ordem exL quando x = xn se afasta de x0 .
5.4 O Método de Runge-Kutta

O Método de Euler não é muito útil para a solução de problemas que demandam uma maior acurácia;
a sua utilidade surge quando o programador necessita ter somente uma idéia da ordem de grandeza e da
Figura 5.1: Método do ponto médio ou

Método de Runge-Kutta de segunda ordem.
Acurácia em segunda ordem é obtida usando
a derivada no início do intervalo para encon-
trar uma solução intermediária no ponto mé-
dio do intervalo e, então, usando a derivada
no ponto médio ao longo de todo o intervalo.
tendência da solução de (5.5). Por outro lado, o algoritmo de Taylor (5.1) para uma ordem k alta é também
impraticável, pois necessita do conhecimento das derivadas de ordem k − 1 de f (x, y).
O Método de Runge-Kutta foi desenvolvido com o intuito de obter maior acurácia que o Método de Euler
e, ao mesmo tempo, evitar a necessidade de se conhecer derivadas de ordens altas. Para tanto, o método faz
uso da estratégia de calcular os valores de f (x, y) em pontos intermediários para cada passo da integração
de (5.5).
A deficiência no Método de Euler se deve ao fato de que a fórmula (5.9a) avança a solução por um
intervalo h usando somente informações somente no início do intervalo, isto é, no ponto x = xn . O método
não utiliza nenhuma outra informação sobre a variação de f (x, y) no intervalo [xn , xn+1 ]. O mesmo pode
ser dito do algoritmo de Taylor em qualquer ordem.
5.4.1 O Método de Runge-Kutta de segunda ordem ou o Método do ponto

médio
Numa tentativa de remediar esta deficiência, pode-se realizar primeiramente um passo tentativo até o
ponto médio no intervalo [xn , xn+1 ] e então utilizar os valores de x e y neste ponto médio para computar o
passo real ao longo de todo o intervalo de comprimento h. Esta sequência de 2 passos intermediários para
um passo completo é quantitativamente descrito pelo sistema de equações
k1 = hf (xn , yn )
k2 = hf (xn + h/2, yn + k1/2)
yn+1 = yn + k2 + O h3 .

Como indicado no termo de erro, o uso do ponto médio torna o método acurado em segunda ordem. A figura
5.1 ilustra a aplicação deste método. Já o algoritmo 5.2 mostra como este método pode ser implementado
em um programa de computador.
Algoritmo 5.2 O Método de Runge-Kutta de ordem 2.

Dado o PVI
y 0 = f (x, y) , y(x0 ) = y0 ,
aproximações yn para y (xn ), sendo xn = x0 + nh para um passo h fixo e n = 0, 1, . . . , são obtidas usando-se
a seguinte sequência de passos:
1. Calcule k1 dado por
k1 = hf (xn , yn ) .
2. A partir de k1 , calcule k2 dado por
1 1

k2 = hf xn + h, yn + k1 .
2 2
3. A partir de k2 , calcule a solução yn+1 dada por
yn+1 = yn + k2 .

88 5.5. Sistemas de equações diferenciais
Figura 5.2: Método de Runge-Kutta de

quarta ordem. Em cada passo a derivada é
calculada 4 vezes: uma vez no ponto inicial,
duas vezes no ponto médio e uma vez no ponto
final. Destas derivadas o valor final da solução
do PVI é calculado.
O erro local do Método de Runge-Kutta de ordem 2 é O h3 , ao passo que o erro local do Método

de Euler é O h2 . Isto significa que é possível usar um passo h com o primeiro método para se obter a

mesma acurácia do segundo. O preço que se paga é que para cada passo h o funcional f (x, y) é calculado
2 vezes, no início e no ponto médio do intervalo. Expressões com erros ainda menores podem ser obtidos
utilizando-se informações de derivadas de ordens mais altas no ponto médio. Contudo, em vez de se utilizar
esta complicação adicional, o uso prático recomenda o emprego do Método de Runge-Kutta de ordem 4
(seção 5.4.2).
5.4.2 O Método de Runge-Kutta de quarta ordem

Talvez o método mais empregado para a solução de PVI’s, o Método de Runge-Kutta de quarta ordem
faz uso das informações fornecidas por f (x, y) em 3 pontos (ou fórmulas) intermediários antes de calcular
a aproximação para yn+1 .
Sem demonstração, as fórmulas envolvidas neste método são:
k1 = hf (xn , yn ) (5.10a)
k2 = hf (xn + h/2, yn + k1/2) (5.10b)
k3 = hf (xn + h/2, yn + k2/2) (5.10c)
k4 = hf (xn + h, yn + k3 ) (5.10d)
1
yn+1 = yn + (k1 + 2k2 + 2k3 + k4 ) + O h5 . (5.10e)

6
O método de ordem 4 requer 4 cálculos de f (x, y) por passo h. Isto significa que este método deve ser
superior que o método de ordem 2 se o valor de h neste caso puder ser, pelo menos, 2 vezes maior que o
valor para o método de ordem 2, para se obter a mesma acurácia. Caso contrário, é melhor usar o algoritmo
5.2 ou algum outro método de solução de um PVI. A figura 5.2 ilustra a aplicação do método e o algoritmo
5.3 mostra a sua implementação.
5.5 Sistemas de equações diferenciais

As fórmulas (5.10a-e) para a aplicação do Método de Runge-Kutta de quarta ordem supõe a existência
de um PVI simples do tipo (5.5) o qual consiste em uma equação diferencial de primeira ordem (linear ou
não linear) com uma condição inicial simples. Contudo, grande parte dos problemas que surgem em ciências
exatas e naturais envolvem PVI’s compostos por uma ou mais equações diferenciais de segunda ordem ou
ordens mais altas, com um correspondente número de condições iniciais. Desejamos então estender o método
apresentado na seção 5.4.2 (ou qualquer outro) para esta situação mais geral.
Para exemplificar a generalização do método, vamos considerar o caso de uma ODE de ordem N com N
condições iniciais. A extensão para o caso onde há mais de uma equação diferencial, inclusive de diferentes
ordens, segue diretamente do exemplo apresentado. O PVI a ser considerado pode ser escrito a partir de
(5.1) como
y (N ) = f x, y(x), y 0 (x), · · · , y (N −1) (x) , (5.11a)
juntamente com as condições iniciais

g0 y (x0 ) , y 0 (x0 ) , . . . , y (N −1) (x0 ) = a0 (5.11b)
Algoritmo 5.3 O Método de Runge-Kutta de ordem 4.
Dado o PVI
y 0 = f (x, y) , y(x0 ) = y0 ,
aproximações yn para y (xn ), sendo xn = x0 + nh para um passo h fixo e n = 0, 1, . . . , são obtidas usando-se
a seguinte sequência de passos:
1. Calcule k1 dado por
k1 = hf (xn , yn ) .
1 1

k2 = hf xn + h, yn + k1 .
2 2
1 1

k3 = hf xn + h, yn + k2 .
2 2
k4 = hf (xn + h, yn + k3 ) .
5. A partir de k1 , k2 , k3 e k4 , calcule a aproximação yn+1 dada por

1
yn+1 = yn + (k1 + 2k2 + 2k3 + k4 ) .
6

g1 y (x0 ) , y 0 (x0 ) , . . . , y (N −1) (x0 ) = a1 (5.11c)
.. ..
. . (5.11d)

gN y (x0 ) , y 0 (x0 ) , . . . , y (N −1) (x0 ) = aN . (5.11e)
Definindo inicialmente y1 (x) = y(x), podemos escrever:
y10 (x) = y2 (x) (5.12a)

y20 (x) = y3 (x) (5.12b)
y30 (x) = y4 (x) (5.12c)
....
..
−1 (x) = yN (x), (5.12d)
0
yN
finalmente, fazendo uso de (5.11a),
0
yN (x) = f (x, y1 (x), y2 (x), · · · , yN (x)) , (5.12e)
com as condições iniciais (5.11b–e) escritas
g0 (y1 (x0 ) , y2 (x0 ) , . . . , yN (x0 )) = a0 (5.12f)

g1 (y1 (x0 ) , y2 (x0 ) , . . . , yN (x0 )) = a1 (5.12g)
.. ..
. .
gN (y1 (x0 ) , y2 (x0 ) , . . . , yN (x0 )) = aN . (5.12h)
Ou seja, ao invés procurarmos uma forma do método de Runge-Kutta para resolver 1 ODE de ordem N , o
que iremos fazer é resolver N equações de ordem 1.
90 5.5. Sistemas de equações diferenciais
Exemplo 5.1. Movimento harmônico amortecido. Suponhamos um corpo de massa m pendurado
do teto por uma mola que exerce uma força restauradora fR = −ky, oscilando sob a ação da gravidade,
mas imerso em um fluido viscoso tal que a força de resistência à passagem do corpo seja proporcional ao
quadrado da velocidade do mesmo, fv = Cv 2 . Este problema pode ser escrito na forma de um PVI como:
k C
ÿ = −g − y − ẏ 2
m m
y(0) = y0
ẏ(0) = v0 .
Definindo y1 (t) = y(t) e ẏ1 (t) = y2 (t), o PVI pode ser escrito a partir de (5.12) como:
ẏ1 = y2
k C
ẏ2 = −g − y1 − y22
m m
y1 (0) = y0
y2 (0) = v0 ,
ou seja, em vez de resolvermos 1 equação de 2ª ordem, vamos resolver 2 equações de 1ª ordem.

Quando o PVI for composto por mais de uma ODE de diferentes ordens, busca-se reduzir este sistema
sempre a um sistema de primeira ordem. Neste caso, ao invés de somente uma equação de primeira ordem
do tipo (5.12e), teremos um sistema de N equações do tipo:
y10 = f1 (x, y1 , y2 , · · · , yn ) (5.13a)

y20 = f2 (x, y1 , y2 , · · · , yn ) (5.13b)
.. ..
. .
0
yN = fN (x, y1 , y2 , · · · , yn ) , (5.13c)
onde neste sistema já estão incluídas as equações auxiliares (5.12a–d). É muitas vezes conveniente pensar
este sistema na forma vetorial,
y 0 = f (x, y) , (5.13d)
onde y e f são vetores com N componentes cada.
A subrotina 5.1 implementa o Método de Runge-Kutta de quarta ordem dado pelo algoritmo 5.3 em
Fortran 95. Nota-se que a subrotina resolve um sistema de EDO’s de primeira ordem do tipo (5.13a–c) ou
(5.13d).
Programa 5.1: Resolve um Problema de Valor Inicial usando o Método de Runge-Kutta de quarta ordem.
! ∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗ SUBROTINA RK4 ∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗∗
! R e s o l v e um Problema de Valor I n i c i a l p e l o Metodo de Runge−Kutta
! de q u a r t a ordem com p a s s o f i x o .
! Dados o v e t o r y ( : ) que contem as v a r i a v e i s e o v e t o r das d e r i v a d a s
! dydx ( : ) no ponto x , a r o t i n a i n v o c a a s u b r o t i n a d e r i v s ( y , x , dydx )
! que s e r a usada para avancar o v e t o r das s o l u c o e s y s a i ( : ) a t e o
! ponto x + h .
!
! Argumentos de e n t r a d a :
! y: Vetor de forma assumida contendo as s o l u c o e s do PVI no ponto x .
! dydx : Vetor de forma assumida contendo as d e r i v a d a s de y no ponto x .
! x: Ponto i n i c i a l do i n t e r v a l o .
! h: Tamanho do p a s s o .
! d e r i v s : S u b r o t i n a que c a l c u l a as d e r i v a d a s dydx no ponto x .
! Argumento de s a i d a :
! y s a i : Vetor de forma assumida contendo as s o l u c o e s do PVI no ponto x + h .
!
! Data : J u l h o / 2 0 0 9 .
! Obs : Baseada na s u b r o t i n a RK4 do Numerical R e c i p e s .
!
subroutine rk4 ( y , dydx , x , h , y s a i , d e r i v s )
r e a l ( kind= dp ) , dimension ( : ) , intent ( in ) : : y , dydx
r e a l ( kind= dp ) , dimension ( : ) , intent ( out ) : : y s a i
INTERFACE
subroutine d e r i v s ( x , y , dydx )
r e a l ( kind= dp ) , dimension ( : ) , intent ( in ) : : y
r e a l ( kind= dp ) , dimension ( : ) , intent ( out ) : : dydx
end subroutine d e r i v s
END INTERFACE
r e a l ( kind= dp ) : : h6 , hh , xh
r e a l ( kind= dp ) , dimension ( s i z e ( y ) ) : : dym , dyt , yt
!
c a l l v e r i f i c a _ t a m a n h o ( s i z e ( y ) , s i z e ( dydx ) , s i z e ( y s a i ) , ’ rk4 ’ )
hh= h ∗ 0 . 5 _dp
h6= h / 6 . 0 _dp
xh= x + hh
yt= y + hh∗dydx
c a l l d e r i v s ( xh , yt , dyt )
yt= y + hh∗ dyt
c a l l d e r i v s ( xh , yt , dym)
yt= y + h∗dym
dym= dyt + dym
c a l l d e r i v s ( x+h , yt , dyt )
y s a i= y + h6 ∗ ( dydx + dyt + 2 . 0 _dp∗dym)
return
end subroutine rk4

Índice Remissivo
Erros
Fontes, 1
Números, 1
Representação inteiros, 2
Representação reais, 3
92

Apostila 2

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila 2

Enviado por

Direitos autorais:

Formatos disponíveis

Introdução à Física Computacional

Apostila preparada para a disciplina de Modelos Com-

Início: Outubro de 2006. Versão: 22 de julho de 2009

Referências Bibliográficas iii

1 Representação de Números e Erros 1

4 Soluções de Equações Não Lineares 63

5 Problemas de Valor Inicial [Em Construção] 83

Autor: Rudi Gaelzer – IFM/UFPel Versão: 22 de julho de 2009

[1] Intel® fortran compiler for linux, http://www.intel.com/software/products/compilers/flin/docs/manuals.htm,

Autor: Rudi Gaelzer – IFM/UFPel Versão: 22 de julho de 2009

Representação de Números e Erros

1.1 Fontes de erros e incertezas

1. Formulação precisa de um modelo matemático e o seu modelo numérico relacionado.

2. Construção de um método destinado a resolver o problema numérico.

3. Implementação de um método para calcular a solução.

1.2 Representação de números em diferentes bases

Problema Real - Formulação dos Modelos @

1.2.1 Representação de números inteiros e conversões de base

N = (an an−1 . . . a1 a0 )10 ≡ an an−1 . . . a1 a0 .

Método das divisões sucessivas

Tabela 1.1: Intervalos de valores para os dígitos ai da base b.

Autor: Rudi Gaelzer – IFM/UFPel Versão: 22 de julho de 2009

O último quociente (qn ) somente será 0 se N = 0. Então,

Como exemplos, temos

1.2.2 Representação de números reais e conversões de base

Autor: Rudi Gaelzer – IFM/UFPel Versão: 22 de julho de 2009

0, 8125 0, 6250 0, 2500 0, 500

O exemplos a seguir mostram a dificuldade de se obter a representação de um número fracionário em

Exemplo 1.2. Um exemplo interessante é o número Xf = 0, 1. Neste caso,

e o processo de multiplicações sucessivas repete a seqüência de dígitos 0011 ad infinitum. Portanto,

Exemplo 1.3. Seja Xf = 0, 5225, então

Xf = α1 2−1 + α2 2−2 + α3 2−3 + · · · .

Portanto, um número real X = Xi + Xf pode ser representado na base 2 por

X = an 2n + an−1 2n−1 + · · · + a0 20 + α1 2−1 + α2 2−2 + α3 2−3 + · · · .

Exemplo 1.4. Seja X = 75, 8, temos

A operacionalização desta soma pode ser obtida pelos seguintes algoritmos:

1.2.3.1 Algoritmo de Horner.

1.2.3.2 Divisão de Ruffini.

Exemplo 1.5. Seja o número (11101)2 . Então, a partir da seqüência de Horner,

A partir da divisão de Ruffini,

1.2.4 Conversão de números fracionários da base b para a base decimal

O seu valor na base decimal será dado por

Xf = α1 2−1 + α2 2−2 + · · · + αn 2−n .

1.2.4.1 Algoritmo de Horner.

1.2.4.2 Divisão de Ruffini.

Exemplo 1.6. O número (0, 10111)2 , pelo Algoritmo de Horner, fica

+ β1 2−1 + β2 2−2 + · · · + βm 2−m 2−n−m

+ β1 2−1 + β2 2−2 + · · · + βm 2−m 2−n−2m

+ β1 2−1 + β2 2−2 + · · · + βm 2−m 2−n−3m

Usando agora a identidade,

Exemplo 1.7. O número fracionário

então o seu valor decimal será dado por

1.3.1 Adição binária

1 + 3 = (01)2 + (11)2 = (100)2 = 4.

Outro exemplo, se 10 = (1010)2 e 15 = (1111)2 , então

10 + 15 = (1010)2 + (1111)2 = (11001)2 = 25.

1.3.2 Subtração binária

10 − 8 = (1010)2 − (1000)2 = (10)2 = 2.

1.3.3 Multiplicação binária

Por exemplo, se 26 = (11010)2 e 2 = (10)2 , então

26 × 2 = (11010)2 × (10)2 = (110100)2 = 52.

1.4 Representação de números em computadores digitais

aq−1 aq−2 . . . a1 a0 , (1.2)

sendo δX = XX . Então, |δX | = EAX . Pode-se ver que

EA+ = |δX + δY | ≈ |f l (X) X + f l (Y ) Y | ,

1. f l(X) f l (Y ). Neste caso, obtém-se

2. f l (X) f l (Y ). Neste caso,

EA− = |δX − δY | = |f l (X) X − f l (Y ) Y | ,

1. f l (X) f l (Y ). Neste caso,

Supondo que |δX × δY | (|f l (X) × δY | , |f l (Y ) × δX |), obtém-se

Portanto, ER× ∼ O [max (X , Y )], da mesma forma que a adição.