Cap 2 11 Gradiente e Hessiana

Cálculo 2 - Capı́tulo 2.
11 - Gradiente e hessiana 1
Capı́tulo 2.11 - Gradiente e hessiana
2.11.1 - Nova notação 2.11.4 - O gradiente e as curvas de nı́vel

2.11.2 - Gradiente e hessiana 2.11.5 - Interpretação econômica do gradiente
2.11.3 - Significado do gradiente
Vimos nos últimos dois capı́tulos como calcular derivadas de primeira e de segunda ordens (de ordens
superiores, também) de funções de duas ou mais variáveis reais. Veremos agora como organizar essas derivadas,
em termos do vetor gradiente e da matriz hessiana, de um modo que será útil na maximização ou minimização
dessas funções. Veremos também o significado do vetor gradiente.
2.11.1 - Nova notação

Quando tratamos da derivada de funções de uma variável real, existem dois tipos de notação, usadas de
df
acordo com a comodidade e da preferência da pessoa que as usa: a notação de Leibniz, , e a notação de
′
dx
Newton, f (x). A primeira enfatiza o fato da derivada ser um limite de uma taxa de variação e a segunda
ressalta o fato da derivada ser uma função. Até o momento, temos usado uma notação mais ao estilo de Leibniz
∂f
para derivadas parciais: . Veremos agora uma notação mais ao estilo de Newton.
∂xi
Primeiro, não podemos utilizar a notação f (x), pois temos que especificar com relação a qual variável
estamos derivando. A solução é escrever
∂f ∂f
fx = e fy = .
∂x ∂y
Note que a notação utiliza um x como subscrito (letra menor, colocada um pouco abaixo da base da letra f )
para designar a derivada parcial com relação a x e um y subscrito para designar a derivada com relação a y.
p
Exemplo 1: calcule as derivadas parciais da função f (x, y) = x3 − y 2 .
Solução: escrevendo f (x, y) = (x3 − y 2 )1/2 , calculamos
1 3 3x2 1 3 −y
fx = (x − y 2 )−1/2 · 3x2 = p e fy = (x − y 2 )−1/2 · (−2y) = p .
2 2 x3 − y 2 2 x3 − y 2
Essa notação também é facilmente generalizada para o caso de funções com mais de duas variáveis, como
no exemplo a seguir.
Exemplo 2: calcule as derivadas parciais da função f (x, y, z) = 2x ln(y − z).

Solução: as derivadas parciais ficam
2x −2x
fx = 2x ln 2 ln(y − z) , fy = e fz = .
y−z y−z
A notação para derivadas parciais de segunda ordem é dada a seguir:
∂2f ∂2f ∂2f ∂2f

fxx = (fx )x = 2
, fxy = (fx )y = , fyx = (fy )x = , fyy = (fy )y = .
∂x ∂y∂x ∂x∂y ∂y 2
Cálculo 2 - Capı́tulo 2.11 - Gradiente e hessiana 2
p
Exemplo 3: calcule as derivadas parciais de segunda ordem da função f (x, y) = x3 − y 2 .
Solução: utilizando as derivadas parciais calculadas no exemplo 1 escritas sob a forma de potências:
3 2 3
fx = x (x − y 2 )−1/2 e fy = −y(x3 − y 2 )−1/2 ,
2
temos

3 3 2 −1/2 3 2 1 9
fxx = · 2x · (x − y ) + x · − (x3 − y 2 )−3/2 · 3x2 = 3x(x3 − y 2 )−1/2 − x2 (x3 − y 2 )−3/2 ,
2 2 2 4

3 2 1 3
fxy = fyx = x · − (x3 − y 2 )−3/2 · (−2y) = x2 y(x3 − y 2 )−3/2 ,
2 2 2

3 2 −1/2 1
fyy = −1 · (x − y ) −y· − (x3 − y 2 )−3/2 · (−2y) = −(x3 − y 2 )−1/2 − y 2 (x3 − y 2 )−3/2 .
2
A notação para as derivadas parciais de funções de mais de duas variáveis, ou a notação de derivadas parciais
de ordens superiores a dois, pode ser facilmente deduzida a partir daı́.
2.11.2 - Gradiente e hessiana

Agora introduziremos dois conceitos que nos serão úteis quando formos trabalhar em otimização: os de
gradiente e hessiana. O gradiente de uma função de duas variáveis reais é um vetor (matriz 2 × 1) definido
como
~ (x, y) = fx
∇f ,
fy
e a hessiana é a matriz
fxx fxy
H(f ) = .
fyx fyy
Exemplo 1: calcule o gradiente e a hessiana da função f (x, y) = xy 2 + 2x.

Solução: o gradiente e a hessiana ficam
2
~ fx y +2 fxx fxy 0 2y
∇f (x, y) = = , H(f ) = = .
fy 2xy fyx fyy 2y 2x
Esses dois conceitos podem ser generalizados para funções de n variáveis reais, como veremos a seguir para
n = 3.
   
fx fxx fxy fxz
~ (x, y, z) =  fy  ,
∇f H(f ) =  fyx fyy fyz  .
fz fzx fzy fzz
Exemplo 2: calcule o gradiente e a hessiana da função f (x, y) = x ln(yz).

Solução: temos
       
fx ln(yz) fxx fxy fxz 0 1/y 1/z
~ (x, y, z) =  fy  =  x/y  , H(f ) =  fyx
∇f fyy fyz  =  1/y −x/y 2 0  .
2
fz x/z fzx fzy fzz 1/z 0 −x/z
O gradiente e a hessiana podem ser calculados em pontos especı́ficos, como mostra o exemplo a seguir.
Exemplo 3: calcule o gradiente e a hessiana da função f (x, y) = xy 2 + 2x em (x, y) = (1, −1).

Solução: dados o gradiente e a hessiana calculados no exemplo 1, temos

~ (−1)2 + 2 3 0 2(−1) 0 −2
∇f (1, −1) = = , H(f ) = = .
2 · 1 · (−1) −2 2(−1) 2 · 1 −2 2
Podemos nos perguntar, com toda a razão, quais são os significados do gradiente e da hessiana. A resposta
para o gradiente é dada a seguir. Para a hessiana, teremos que esperar mais um pouco.
2.11.3 - Significado do gradiente

O gradiente tem uma caracterı́stica muito importante, que será mostrada nos exemplos a seguir.
Exemplo 1: calcule o gradiente de f (x, y) = x2 + y 2 em (x, y) = (1, 0), (x, y) = (0, 1), (x, y) = (1, 1) e
(x, y) = (0, 0) e desenhe esses vetores sobre as curvas de nı́vel da função.
Solução: o gradiente de f (x, y) = x2 + y 2 fica

~ (x, y) = fx 2x
∇f = .
fy 2y
Calculado nos pontos desejados, temos

~ 2 ~ 0 ~ 2 ~ 0
∇f (1, 0) = , ∇f (0, 1) = , ∇f (1, 1) = , ∇f (0, 0) = .
0 2 2 0
Note que cada gradiente é um vetor, onde a primeira linha é a sua primeira componente e a segunda linha é a
sua segunda componente. Por exemplo, ∇f ~ (1, 0) é um vetor que, a partir do ponto (1, 0), se desloca duas unidades
~
à direita; o vetor ∇f (0, 1) se desloca duas unidades para cima a partir do ponto (0, 1). A seguir, representamos
cada um desses vetores sobre as curvas de nı́vel da função. A função em três dimensões (um parabolóide), com os
vetores gradientes, é mostrada na última figura a seguir.
y y y
3 3 3
2 2 2
1 1 b 1 b
−3 −2 −1 0
b b
1 2 3
x −3 −2 −1 0
b
1 2 3
x −3 −2 −1 0
b
1 2 3
x
−1 −1 −1
−2 −2 −2
−3 −3 −3
y z
3
4.0
2
3.0
1
-4. 2.0
bb
x 0 -3
-4
.0
−1 0 1 2 3 .0 -
-3
−3 −2
1.
.0
2.0
-1. 0
-2
.0
−1
0
-1
.0
b
−2 1.0
1.
2.0
0
b
2.
3.0
0
3.
−3
0
x y
b
Note que os vetores gradiente sempre idicam a direção onde a função aumenta mais rapidamente e que, no
ponto onde a função é mı́nima, o vetor gradiente se anula. Vamos verificar esse comportamento em uma outra
função.
Exemplo 2: calcule o gradiente de f (x, y) = 4 − x2 − y 2 + 2x + y + xy em (x, y) = (1, 0), (x, y) = (0, 1),
(x, y) = (1, 1) e (x, y) = (0, 0) e desenhe esses vetores sobre as curvas de nı́vel da função.
Solução: o gradiente de f (x, y) = 4 − x2 − y 2 + 2x + y + xy fica

~ fx −2x + 2 + y
∇f (x, y) = = .
fy −2y + 1 + x
Calculado nos pontos desejados, temos

~ (1, 0) = 0 ~ (0, 1) = 3 ~ (1, 1) = 1 ~ (0, 0) = 2
∇f , ∇f , ∇f , ∇f .
2 −1 0 1
A seguir, representamos cada um desses vetores sobre as curvas de nı́vel da função. A função em três dimensões
(um parabolóide elı́ptico), com os vetores gradientes é mostrada na última figura a seguir.
y y y
5 5 5
4 4 4
3 3 3
2 2 2
b b b
b b
1 1 1
−2 −1 0
b
1 2 3 4 5
x −2 −1 0 1 2 3 4 5
x −2 −1 0 1 2 3 4 5
x
−1 −1 −1
−2 −2 −2
6.0
y b
5.0
5
4.0
4
3.0
3
2 -4. 2.0
0-3
-4
.0
b .0-2
-
.0-1 1.0
.3 0
1
-2
.
.0
-0 1
.0
−2 −1 0
b
1 2 3 4 5
x 1.0
1.
2.0
0
b
2.
3.0
0
−1
3.
y
0
−2 x
Como no exemplo 1, os vetores gradiente seguem sempre a direção para onde a função cresce mais rapida-
mente a partir do ponto dado. Outra caracterı́stica é que o vetor gradiente em um determinado ponto sempre
segue uma reta perpendicular à curva de nı́vel naquele ponto.
Um exemplo pode facilitar a compreensão da utilidade do gradiente: consideremos um aplpinista mı́ope que
quer subri uma montanha. Ele só enxerga claramente até dois metros de distância e não tem como enxergar
mais longe que isso. Como ele fará para subir a montanha?
Uma resposta é que ele pode, dentro de seu campo de visão, identificar para onde o terreno tem um
maior aclive (sobe mais rapidamente) e subir um pouco naquela direção e sentido. Depois, ele pára e verifica
novamente o terreno em torno de onde ele está. Segue novamente a direção para onde o terreno for mai ı́ngreme
e repete o processo até que o terreno não tenha mais para onde subir.
Essa tática pode ou não funcionar, pois o alpinista, caso não se defronte com algum abismo pelo caminho,
pode acabar chegando a um pico (máximo) local, achando que já chegou ao poco da montanha, quando ainda
está bem longe dela. A figura a seguir ilustra dois caminhos obtidos usando o gradiente como guia: no primeiro
caminho (em vermelho), chega-se ao topo do maior dos dois picos; no segundo (azul), chega-se apenas a um
máximo local.
Concluindo esta seção, o gradiente é um vetor que dá a direção de maior crescimento da função a partir
de um determinado ponto. Isto será muito útil na maximização ou minimização de uma função (a Leitura
Complementar 1.5.1 traz um método numérico utilizando o gradiente para determinar máximos e mı́nimos de
funções de diversas variáveis). A hessiana servirá mais tarde para verificar se um determinado ponto crı́tico é
um máximo, um mı́nimo ou um ponto de inflexão (ponto se sela). A demonstração disto necessita do conceito
de derivada direcional e será feita em uma leitura complementar do Módulo 2 deste curso.
2.11.4 - O gradiente e as curvas de nı́vel

Algo que pode ser notado nas figuras dos exemplos da seção anterior é que o vetor gradiente é sempre
perpendicular à curva de nı́vel da qual ele parte. Isto será provado agora, utilizando a regra da cadeia,
aprendida no Capı́tulo 2.8.
A regra da cadeia para uma função f (x, y), ou seja, uma função f : D(f ) ⊂ R2 → R, onde x = x(t) e
y = y(t), é dada por
df ∂f dx ∂f dy
(t) = (x, y) (t) + (x, y) (t) .
dt ∂x dt ∂y dt
Se considerarmos
uma curva
que seja a imagem de uma função vetorial γ (x(t), y(t)), podemos escrever f (γ(t))
′ dx dy
e γ (t) = (t), (t) , de modo que a mesma expressão para a regra da cadeia possa ser escrita
dt dt
df

(γ(t)) = ∇f (γ(t)) , γ ′ (t) ,
dt
isto porque h∇f (γ(t)) , γ ′ (t)i, o produto interno do gradiente pela derivada da função vetorial γ(t), é dado por

′
∂f ∂f dx dy ∂f dx ∂f dy
∇f (γ(t)) , γ (t) = (x, y), (x, y) , (t), (t) = (x, y) (t) + (x, y) (t) .
∂x ∂y dt dt ∂x dt ∂y dt
Consideremos agora uma curva de nı́vel da função f (x, y), que pode ser dada pela equação f (x, y) =
f (γ(t)) = c, onde c é uma constante. Se derivarmos ambos os lados dessa expressão com relação a t, obtemos
df
f (γ(t)) = c ⇔ (γ(t)) = 0 .
dt
Substituindo agora a derivada da esquerda pela expressão compacta da regra da cadeia, ficamos com

∇f (γ(t)) , γ ′ (t) = 0 ,
de modo que ∇f (γ(t)) é perpendicular ao vetor γ ′ (t).

y
Na figura ao lado, fazemos o gráfico de uma
γ ′ (t0 )
curva de nı́vel e de um vetor γ ′ (t0 ), que é sem- ∇f (x(t0 ), y(t0 ))
pre tangente a essa curva de nı́vel (de acordo com
o Capı́tulo 1.6). Se o gradiente é perpendicular a
γ(t0 )
γ ′ (t0 ), então ele será perpendicular à curva de nı́vel
x
no ponto t0 , que é o que querı́amos demonstrar.
Esse resultado é, na verdade, bem geral, e pode
ser aplicado às superfı́cies de nı́vel de funções de
três variáveis reais ou às hipersuperfı́cies de nı́vel
de funções de mias de três variáveis. O vetor gradi-
ente será sempre perpendicular a essas superfı́cies
ou hipersuperfı́cies de nı́vel.
A demonstração de que o gradiente é o vetor que indica a direção e o sentido de maior crescimento de
uma função necessita do conceito de derivada direcional e não serrá feita no texto principal deste capı́tulo.
Essa demonstração é feita na Leitura Complementar 2.11.1. Um método numérico de busca pelo máximo ou
mı́nimo local de uma função utilizando o gradiente é explicado na Leitura Complementar 2.11.2. A seção a
seguir mostra um significado econômico para o gradiente.
2.11.5 - Interpretação econômica do gradiente

O vetor gradiente pode ser aplicado em áreas econômicas e administrativas indicando que atitudes tomar
quando se quer aumentar o valor de uma função (como a produção, a utilidade ou o lucro) em diminuı́-la (como
na diminuição de custos). Mais especificamente, no caso de uma função de produção P (K, L) em termos do
capital K investido e do trabalho L, o gradiente pode nos dar a proproção em que novos investimentos devem
ser feitos em cada uma dessas áreas, como mostra o exemplo a seguir.
Exemplo 1: um industrial tem que decidir onde investir R$ 100.000 e estima que a produção de sua empresa
possa ser modelada pela função P (K, L) = 1, 1K 0,25 L0,75 , onde o capital investido K e o trabalho L são
medidos em milhões de reais. No momento, o capital investido é de 7 milhões de reais e o gasto em trabalho
é de 6 milhões de reais. Determine o quanto do dinheiro tem que ser usado em cada uma dessas áreas de
modo a maximizar a produção da empresa.
Solução: o vetor gradiente, calculado a partir do ponto (7, 6), correspondente ao nı́vel atual de investimento (7
milhões em capital e 6 milhões em trabalho) determina a “direção” de maior crescimento da produção. Portanto,
podemos começar calculando o gradiente da função nesse ponto:

~ 0, 275K −0,75L0,75 ~ 0, 275 · 7−0,75 · 60,75 0, 245
∇P (K, L) = ⇒ ∇P (7, 6) = ≈ .
0, 825K 0,25L−0,25 0, 825 · 70,25 · 6−0,25 0, 857
0, 245
Portanto, de modo a aumentar a produção ao máximo, deve-se usar uma proporção de entre o capital e
0, 857
o trabalho. Escrevendo o dinheiro disponı́vel em termos de milhões de reais, isto significa que deve-se investir
0, 245 0, 857
IK = · 0, 1 ≈ 0, 022 , IL = · 0, 1 ≈ 0, 078 ,
0, 245 + 0, 857 0, 245 + 0, 857
isto é, deve-se investir R$ 22.000 em capital e deve-se gastar R$ 78.000 em trabalho.
Exemplo 2: considere que o industrial do exemplo anterior tenha investido R$ 22.000 em capital e tenha
gasto R$ 78.000 em trabalho. Agora ele tem mais R$ 100.000 para investir. Onde esse dinheiro deve ser
investido?
Solução: no momento, temos K = 7 + 0, 22 = 7, 22 e L = 6 + 0, 78 = 6, 78, medidos em milhões de reais. O vetor
gradiente já foi calculado no exemplo anterior, de modo que só temos que calculá-lo para K = 7, 22 e L = 6, 78:

~ 0, 275K −0,75L0,75 ~ 0, 275 · 7, 22−0,75 · 6, 780,75 0, 262
∇P (K, L) = ⇒ ∇P (7, 22 , 6, 78) = ≈ .
0, 825K 0,25L−0,25 0, 825 · 7, 220,25 · 6, 78−0,25 0, 838
0, 262
Para aumentar a produção ao máximo, deve-se usar uma proporção de entre o capital e o trabalho. Isto
0, 838
significa que deve-se investir
0, 262 0, 838
IK = · 0, 1 ≈ 0, 024 , IL = · 0, 1 ≈ 0, 076 ,
0, 262 + 0, 838 0, 262 + 0, 838
isto é, deve-se investir R$ 24.000 em capital e deve-se gastar R$ 76.000 em trabalho.
Note que as proproções de quanto deve ser investido em capital ou trabalho mudam de acordo com o
nı́vel prévio de investimento. No segundo exemplo, o investimento em trabalho não foi tão grande quanto no
primeiro. Isto porque, de acordo com a função de produção escolhida, investimentos em capital e trabalho
trazem resultados cada vez menores em termos de produção conforme estes aumentam a patamares cada vez
maiores.
Terminamos esta exposição por aqui. Mais algumas aplicações do gradiente podem ser vistas na leitura
complementar deste capı́tulo e nos exercı́cios. Aplicações para a matriz hessian serão vistas mais tarde.
Resumo
• Gradiente: o gradiente de uma função f (x, y) é o vetor

~ (x, y) = fx
∇f
fy
O vetor gradiente, quando calculado em um ponto, dá a direção de maior variação da função naquele
ponto e é perpendicular à curva de nı́vel no mesmo ponto.
• Hessiana: a hessiana de uma função f (x, y) é a matriz

fxx fxy
H(f ) = .
fyx fyy
• Significado do gradiente: o gradiente dá, a cada ponto do domı́nio de uma função, a direção de
maior crescimento da função a partir daquele ponto. Além disso, ele é sempre perpendicular à curva
de nı́vel no ponto onde é calculado.
Todas as definições podem ser generalizadas para funções de n variáveis reais.
Leitura Complementar 2.11.1 - Derivada direcional

e o vetor gradiente
Como já vimos antes, o gradiente dá as derivadas de uma função f com relação a suas variáveis. Mais
especificamente para uma f (x, y), ele fornece as derivadas parciais dessa função com relação às variáveis x e y.
Como as derivadas parciais representam uma aproximação das taxas de variação da função com relação a suas
variáveis, podemos escrever

~ fx ∆f /∆x [f (x + ∆x, y) − f (x, y)] /∆x
∇f (x, y) = ≈ = .
fy ∆f /∆y [f (x, y + ∆y) − f (x, y)] /∆y
Isto significa que o gradiente dá, aproximadamente, a variação da função f (x, y) em duas direções diferentes:
uma com relação ao eixo x e a outra com relação ao eixo y.
Mas e se quisermos saber como a função varia com relação a alguma outra direção? Como podemos medir
tal variação?
Voltemos, agora, ao exemplo prático de uma função de produção de Cobb-Douglas: P (K, L) = AK α L1−α .
Podemos calcular, usando derivadas parciais, boas aproximações para a produtividade marginal do capital,
dada pela taxa de variação de P com relação a K, e para a produtividade marginal do trabalho, dada pela
taxa de variação de P com relação a L, respectivamente dadas por
∆P P (K + ∆K, L) − P (K, L) ∂P ∆P P (K, L + ∆L) − P (K, L) ∂P

= ≈ e = ≈ .
∆K ∆K ∂K ∆L ∆L ∂L
E se quisermos agora calcular a variação da produção quando fazemos uma variação ∆K no capital investido
e uma variação ∆L no gasto com o trabalho? Podemos escrever essa variação como
∆P = P (K + ∆K, L + ∆L) − P (K, L) .
O problema de como aproximar essa variação por meio de derivadas parciais é semelhante ao problema de
determinar a variação de uma função em uma determinada direção. A solução para isso é definir uma derivada
direcional.
a) A derivada direcional
A definição de uma derivada direcional é dada a seguir.
Definição 1 - Dadauma
função f (x1 , · · · , xn ), a sua derivada direcional com relação a uma direção
u1
dada pelo vetor u = é definida como
u2
f (x + hu1 , y + hu2 ) − f (x, y)

Du f (x, y) = lim ,
h→0 h
quando esse limite existir.

2
Exemplo 1: calcule a derivada direcional de f (x, y) = x2 − xy + 4x + 8 na direção u = .
1
Solução: pela definição 1, temos
f (x + hu1 , y + hu2 ) − f (x, y)

Df (x, y) = lim =
h→0 h
(x + 2h)2 − (x + 2h)(y + h) + 4(x + 2h) + 8 − x2 + xy − 4x − 8
= lim =
h→0 h
x2 + 4hx + 4h2 − xy − hx − 2hy − 2h2 + 4x + 8h − x2 + xy − 4x
= lim =
h→0 h
3hx + 2h2 − 2hy + 8h
= lim = lim (3x + 2h − 2y + 8) = 3x − 2y + 8 .
h→0 h h→0
Uma forma mais simples de se calcular uma derivada direcional é dada pelo teorema a seguir.

u1
Teorema 5 - Dada uma função f (x, y) diferenciável em x e em y e um vetor u = , então
u2
Du f (x, y) = fx (x, y)u1 + fy (x, y)u2 .
f (x + hu1 , x + hu2 ) − f (x, y)

Demonstração: considere a derivada direcional Du f (x, y) = lim . Se definirmos a
h→0 h
função g(x) = f (x + hu1 , y + hu2 ), então teremos
g(h) − g(0) f (x + hu1 , y + hu2 ) − f (x, y)

g ′ (0) = lim = lim = Du (x, y) .
h→0 h h→0 h
Escrevendo agora x̄ = x + hu1 e ȳ = y + hu2 , temos g(h) = f (x̄, ȳ) e, pela regra da cadeia,
dg dx̄ dȳ
g ′ (h) = = fx̄ (x̄, ȳ) + fȳ (x̄, ȳ) = fx̄ u1 + fȳ u2 .
dh dh dh
Para h = 0, teremos x̄ = x, ȳ = y e
g ′ (0) = fx (x, y)u1 + fy (x, y)u2 .
Comparando agora as duas expressões para g ′ (0), concluı́mos que
Du (x, y) = fx (x, y)u1 + fy (x, y)u2 .

2
Exemplo 2: calcule a derivada direcional de f (x, y) = x2 − xy + 4x + 8 na direção u = .
1
Solução: pelo teorema 1, temos
Df (x, y) = fx u1 + fy u2 = (2x − y + 4) · 2 + (−x) · 1 = 4x − 2y + 8 − x = 3x − 2y + 8 .

−1
Exemplo 3: calcule a derivada direcional de f (x, y) = ln(x3 − y) na direção u = .
2
Solução: pelo teorema 1, temos
1 1 −3x2 2 −3x2 − 2
Df (x, y) = fx u1 + fy u2 = · 3x2 · (−1) + 3 · (−1) · 2 = 3 − 3 = .
x3 −y x −y x −y x −y x3 − y
O exemplo a seguir mostra os cálculos das derivadas direcionais de uma função a partir de um ponto ao
longo de três vetores distintos.
Exemplo 4: calcule 2 2
a derivada
direcional
def (x, y) = x + y − 4x + 2y + 2xy no ponto (3, 1) ao longo dos
1 1 1
vetores u = ,v= ew= .
2 1 0
Solução: primeiro, calculamos fx e fy : fx = 2x − 4 + 2y e fy = 2y + 2 + 2x.
Calculadas no ponto (3, 1), temos fx (3, 1) = 2·3−4+2·1 = 6−4+2 = 4 e fy (3, 1) = 2·1+2+2·3 = 2+2+6 = 10.
Agora, fica fácil calcular as derivadas direcionais pedidas:
Du f (3, 1) = 4 · 1 + 10 · 2 = 24 , Dv (3, 1) = 4 · 1 + 10 · 1 = 14 , Dw (3, 1) = 4 · 1 + 10 · 0 = 4 .
b) Derivada direcional e o vetor gradiente

O conceito de derivada direcional serve, ainda, para provar que o vetor gradiente indica a direção de maior
crescimento de uma função. A demonstração parte do fato de que, usando o vetor gradiente, podemos definir
a derivada direcional de forma matricial:

fx
Du f = u1 u2 .
fy
No entanto, a demonstração envolve o conceito de produto escalar entre vetores, que é aprendido em cursos de
álgebra vetorial e será visto aqui de modo pragmático.
Podemos definir o produto escalar entre dois vetores u e v, escrito u · v, de duas formas distintas:
u · v = tr (v t u) ,
onde v t é a transposta do vetor v e v é o traço (soma dos elementos da diagonal principal de uma matriz), ou
u · v = |u||v| cos θ ,
onde |u| e |v| são os módulos dos vetores u e v, respectivamente, e θ é o ângulo entre esses dois vetores.
Cada uma dessas definições é útil, dependendo da forma como os dados do problema são fornecidos, como
mostram os dois exemplos a seguir.

−1 2
Exemplo 1: calcule u · v, onde u = ev= .
4 1

−1
Solução: u · v = tr (v t u) = tr

2 1 = tr (2) = 2 .
4
Exemplo 2: calcule u · v, onde |u| = 2, |v| = 3 e o ângulo entre eles é θ = 60o .

1
Solução: u · v = |u||v| cos θ = 2 · 3 · cos 60o = 6 · =3.
2
De acordo com a primeira definição de produto escalar, podemos escrever a definição da derivada direcional
como
fx
Du f = u1 u2 = tr ∇f ~ ·u ,
fy

~ = fx u1
onde ∇f eu= . Alternativamente, poderı́amos escrever essa mesma definição do seguinte
fy u2
modo:
~ ||u| cos θ ,
Du f = |∇f
onde θ é o ângulo entre o vetor gradiente e o vetor u.
Da segunda definição, podemos ver que a derivada direcional é maior quando cos θ é maior. O valor máximo
que cos θ pode ter é 1, o que ocorre quando θ = 0o . Portanto, o vetor gradiente e o vetor u devem ter a mesma
direção e sentido se quisermos maximizar a derivada direcional Du f . Daı́, conclui-se que a direção e o sentido
de maior valor da derivada direcional Du f , que é a direção e o sentido de maior crescimento da função f , é ao
longo do gradiente.

u1
Teorema 6 - Dada uma função f (x, y) diferenciável em x e em y e um vetor u = , então
u2
~ (x, y).
Du f (x, y) é máxima se u = ∇f
Exemplo 3: determine a direção de maior crescimento da função f (x, y) = 3x ln y no ponto (2, 1).
Solução: a direção de maior cresciment é dada pelo vetor gradiente nesse ponto, isto é,

~ fx 3 ln y ~ 3 · ln 1 0
∇f (x, y) = = , de modo que ∇f (2, 1) = = .
fy 3x/y 3 · 2/1 6
Leitura Complementar 2.11.2 - Método de busca por

gradiente
Veremos agora um método bastante eficiente para encontrar máximos e mı́nimos de funções envolvendo
mais de uma variável real. Esse método é baseado no fato do gradiente sempre apontar a direção e o sentido
de maior crescimento de uma função a cada ponto do domı́nio desta. Faremos esse estudo por meio de alguns
exemplos. A teoria será exposta conforme a necessidade de cada exemplo.
Problema 1: Mı́nimo de uma parabolóide

Comecemos com um problema bem simples, que é determinar o ponto mı́nimo do parabolóide dado pela
função f (x, y) = x2 + y 2 partindo do ponto (1, 1).
O método de busca por gradiente segue o seguinte algoritmo:
~ (x, y).
• Calcula-se o gradiente ∇f
• Escolhe-se um ponto inicial ~x0 pertencente ao domı́nio da função.
• A partir desse ponto, calculamos o próximo ponto ~x1 , dado por
~ (~x0 ) ,
~x1 = ~x0 + λ∇f
onde o vetor gradiente dá a direção de maior variação da função e λ é um parâmetro que indica o sentido a ser
seguido e o módulo da variação a ser feita.
• Determina-se o valor de λ que maximiza ou minimiza a função objetivo, dependendo do problema ser um de
maximização ou de minimização.
• Calcula-se ~x1 usando o valor de λ determinado anteriormente. Se |~x1 − ~x0 | < ǫ, onde ǫ é um parâmetro dado
pelo problema que indica qual o grau de precisão desejado, então o problema termina por aı́. Senão, repete-se
todo o processo.
Apliquemos esse procedimento ao problema em questão. Primeiro, calculamos o gradiente da função f (x, y):
 
∂f
∂x

~ (x, y) =  2x
∇f = .

2y
 
∂f
∂y

1
O ponto inicial já foi escolhido pelo problema: ~x0 = . Calculando o gradiente, temos
1

~ (~x0 ) = 2·1 2
∇f = .
2·1 2
Determinamos então um novo ponto ~x1 :

~ (~x0 ) = 1 2 1 + 2λ
~x1 = ~x0 + λ∇f +λ = .
1 2 1 + 2λ
Substituindo esse ponto na função objetivo, temos
f (~x1 ) = (1 + 2λ)2 + (1 + 2λ)2 = 1 + 4λ + λ2 + 1 + 4λ + λ2 = 2 + 8λ + 8λ2 .
Note que a função só depende agora do parâmetro λ, de modo que podemos escrevê-la como
f (λ) = 2 + 8λ + 8λ2 .
Essa função tem um ponto crı́tico quando

1
f ′ (λ) = 0 ⇔ 8 + 16λ = 0 ⇔ 16λ = −8 ⇔ λ = − .
2
Para determinamos se esse ponto crı́tico é um mı́nimo da função, calculamos a segunda derivada desta:
f ′′ (x) = 16 .
Como esse valor é positivo, a concavidade da função é sempre para cima e λ = − 21 é um ponto de mı́nimo.
Substituindo o valor de λ encontrado, temos
1 + 2 · − 21
 

0
~x1 =   = .
0
1 + 2 · − 12

O gradiente de ~x1 fica, então,

~ (~x1 ) = 2·0 0
∇f = .
2·0 0
O fato do vetor gradiente ser nulo indica que atingimos a solução ótima. Se quiséssemos calcular um novo
ponto ~x2 , terı́amos
~ 0 0 0
~x1 = ~x1 + λ∇f (~x1 ) = +λ = = ~x1 .
0 0 0

0
Portanto, não há mais como melhorar a solução e o ponto que minimiza a função é ~x1 = .
0
Problema 2: Função exponencial

2 −y 2
Vamos usar o método de busca por gradiente para maximizar a função f (x, y) = 12e−(x+4) . Começamos
calculando o gradiente da função f (x, y):
 
∂f
∂x
~ (x, y) = 
∇f  .

∂f
∂y
As derivadas parciais são dadas por

∂f 2 2 2 2
= 12 e−(x+4) −y · [−2(x + 4)] = −24(x + 4) e−(x+4) −y ,
∂x
∂f 2 2 2 2
= 12 e−(x+4) −y · (−2y) = −24y e−(x+4) −y ,
∂y
de modo que o gradiente fica  2 −y 2 
−24(x + 4) e−(x+4)
~ (x, y) = 
∇f .
2 2
−24y e−(x+4) −y

0
Escolhamos o ponto inicial como sendo: ~x0 = . Calculando o gradiente, temos
0
 2 −02 
−24(0 + 4) e−(0+4)
~ (~x0 ) =  −96 e−16
∇f = .
2 −02 0
−24 · 0 · e−(0+4)

~ (~x0 ) = 0 −96 e−16 −96 e−16 λ
~x1 = ~x0 + λ∇f +λ = .
0 0 0

−16 λ+4)2 −02 −16 λ+4)2
f (~x1 ) = 12 e−(−96 e = 12 e−(−96 e .
A função agora só dependedo parâmetro λ, de modo que podemos escrevê-la como
−16 λ+4)2
f (λ) = 12 e−(−96 e .
Derivando a função com relação a λ, temos

2 2
f ′ (λ) = 12 e−(−96 e λ+4) · −2(−96 e−16 λ + 4)(−96 e−16 = 2304 e−16 (−96 e−16 λ + 4) e−(−96 e λ+4) .
−16 −16
Essa função tem um ponto crı́tico quando

−16 λ+4)2
f ′ (λ) = 0 ⇔ 2304 e−16 (−96 e−16 λ + 4) e−(−96 e = 0 ⇔ −96 e−16 λ + 4 = 0 ⇔ 96 e−16 λ = 4 ⇔
1 16
⇔λ= e .
24
Para determinamos se esse ponto crı́tico é um mı́nimo da função, calculamos a segunda derivada desta:
2 −16 λ+4)2
f ′′ (x) = 2304 e−16 (−96 e−16 ) e−(−96 e λ+4) + 2304 e−16 (−96 e−16 λ + 4) e−(−96 e
−16
·

· −2(−96 e−16 λ + 4)(−96 e−16 =
−16 λ+4)2 −16 λ+4)2
= −221184 e−32 e−(−96 e + 442368 e−32 (−96 e−16 λ + 4)2 e−(−96 e .

2 2 2
e16 e16 e16 e16

−32 − −96 e +4 − −96 e−16 +4
−16
′′ −32 −16
f = −221184 e e 24
+ 442368 e −96 e +4 e 24
=
24 24
2 2
= −221184 e−32 e−(−4+4) + 442368 e−32 (−4 + 4)2 e−(−4+4) =
= −221184 e−32 e0 + 442368 e−32 · 0 · e0 = −221184 e−32 .
e16
Como esse valor é negativo, a concavidade da função nesse ponto é para baixo e λ = 4 é um ponto de máximo.
16
−96 e−16 e24

−4
~x1 = = .
0 0
Calculando o gradiente para esse ponto, temos

 2 2 
−24(−4 + 4) e−(−4+4) −0
~ (~x1 ) = 
∇f = 0 .
−(−4+4)2 −02 0
−24 · 0 · e
Como o gradiente é nulo, ~x1 corresponde ao máximo da função f (x, y).
Problema 4: Localização de um armazém

Vamos, agora, resolver um problema mais prático envolvendo a minimização de uma função. Um novo
armazém de uma indústria de pesticidas deve ser instalado na região que compreende as cidades de Besourinhos,
Formigas e Cupinzal. A cidade de Besourinhos tem 400.000 habitantes; a cidade de Formigas, localizada 20
km a leste de Besourinhos, tem uma população de 250.000; a cidade de Cupinzal tem 140.000 habitantes e fica
a 10 km a leste de Besourinhos e a 100 km ao norte dessa cidade.
a) Formule um problema de pesquisa operacional que minimize as distâncias do novo armazém às três cidades
que serão servidas por ele.
b) Resolva esse problema usando busca por gradiente.
c) Modifique o problema anterior de modo que a função-objetivo seja proporcional à população de cada cidade.
d) Resolva o problema modificado usando busca por gradiente.
Solução:
a) O problema consiste em determinar onde deve ser construı́do um armazém que sirva às três cidades indicadas
de modo a minimizar a distância deste às cidades. Podemos localizar as cidades em um eixo cartesiano
de coordenadas estabelecendo Besourinhos na origem (0, 0), a cidade formigas no ponto (20, 0) e a cidade de
Cupinzal em (10, 10). No gráfico indicamos coordenadas arbitrárias para a localização do armazém que deverão
ser determinadas pelo problema.
y
10 b
C
b
(x, y)
B F
b b
x
0 10 20
As variáveis de decisão do problema são (x, y) =coordenadas do armazém. A função-objetivo é minimizar a

soma das distâncias do armazém aos três centros urbanos. As distâncias do armazém até Besourinhos, Formigas
e Cupinzal são dadas, respectivamente, por
p p
dB = (x − 0)2 + (y − 0)2 = x2 + y 2 ,
p p
dF = (x − 20)2 + (y − 0)2 = (x − 20)2 + y 2 ,
p
dC = (x − 10)2 + (y − 10)2 .
Portanto, o problema fica
p p p
min d(x, y) = x2 + y 2 + (x − 20)2 + y 2 + (x − 10)2 + (y − 10)2 .
O problema não tem restrições, pois as variáveis x e y podem assumir quaisquer valores reais.
b) Para resolver o problema por meio de busca por gradiente, precisamos calcular as derivadas parciais dx e dy
da função-objetivo:
∂d 1 1 −1/2
dx = = (x2 + y 2 )−1/2 · 2x + (x − 20)2 + y 2 · 2(x − 20) +
∂x 2 2
1 −1/2
+ (x − 10)2 + (y − 10)2 · 2(x − 10) =
2
−1/2 −1/2
= x(x2 + y 2 )−1/2 + (x − 20) (x − 20)2 + y 2 + (x − 10) (x − 10)2 + (y − 10)2

,
∂d 1 1 −1/2 1 −1/2
dy = = (x2 + y 2 )−1/2 · 2y + (x − 20)2 + y 2 · 2y + (x − 10)2 + (y − 10)2 · 2(y − 10) =
∂y 2 2 2
−1/2 −1/2
= y(x2 + y 2 )−1/2 + y (x − 20)2 + y 2 + (y − 10) (x − 10)2 + (y − 10)2

.
O gradiente fica
~ dx
∇d(x, y) = ,
dy
onde dx e dy são dados pelas equações anteriores.
Para iniciarmos a busca, escolheremos um ponto inicial apropriado. Quanto mais próximo do ponto ótimo
estiver esse ponto inicial, melhores serão as chances da busca terminar logo. Observando o gráfico que mostra
as posições das cidades,
vemosque elas são simétricas com relação a x = 10. Portanto, podemos partir, por
10
exemplo, do ponto ~x0 = . Calculando o gradiente, temos
0

~ 0
∇d(~x0 ) = .
−1

~ x0 ) = 10 0 10
~x1 = ~x0 + λ∇d(~ +λ = .
0 −1 −λ

p p p
d(~x1 ) = 102 + (−λ)2 + (10 − 20)2 + (−λ)2 + (10 − 10)2 + (−λ − 10)2 =
p p p p
= 100 + λ2 + 100 + λ2 + (λ + 10)2 = 2 100 + λ2 + |λ + 10| = d(λ) .
A presença do módulo mostra que, à direita ou à esquerda do ponto λ + 10 = 0 ⇔ λ = −10, podemos escrever
essa função como √
2√100 + λ2 − λ − 10 , λ < −10 ;
d(λ) =
2 100 + λ2 + λ + 10 , λ ≥ −10 .
Para λ < −10 a derivada dessa função fica
1
d′ (λ) = 2 · (100 + λ2 )−1/2 · 2λ − 1 = 2λ(100 + λ2 )−1/2 − 1 .
2
Para λ > −10, temos
1
d′ (λ) = 2 · (100 + λ2 )−1/2 · 2λ + 1 = 2λ(100 + λ2 )−1/2 + 1 .
2
Note que a derivada não é definida em λ = −10.
Essa função tem pontos crı́ticos quando d′ (λ) = 0 ou quando d′ (λ) não existe. Portanto, ela tem um ponto
crı́tico em λ = −10, que é onde ela não é definida. Para λ < −10, temos
d′ (λ) = 0 ⇔ 2λ(100 + λ2 )−1/2 − 1 = 0 ⇔ 2λ(100 + λ2 )−1/2 = 1 ⇔ 2λ = (100 + λ2 )1/2 ⇔

100 10
⇔ 4λ2 = 100 + λ2 ⇔ 4λ2 = 100 + λ2 ⇔ 3λ2 = 100 ⇔ λ2 =

⇔ λ = ±√ .
3 3
10 10
Só que tanto λ = − √ 3
quanto λ = √
3
são maiores que −10, o que indica que para λ < −10 não há pontos
crı́ticos. Para λ > −10,
d′ (λ) = 0 ⇔ 2λ(100 + λ2 )−1/2 + 1 = 0 ⇔ 2λ(100 + λ2 )−1/2 = −1 ⇔ 2λ = −(100 + λ2 )1/2 ⇔

100 10
⇔ 4λ2 = 100 + λ2 ⇔ 4λ2 = 100 + λ2 ⇔ 3λ2 = 100 ⇔ λ2 =

⇔ λ = ±√ .
3 3
No entanto,
′ 10 ′ 10
d −√ =0, d √ =2,
3 3
10
o que mostra que λ = √
3
não é um ponto crı́tico. Portanto, os pontos crı́ticos da função d(x, y) são dados por
10
λ = −10 e λ = − √ .
3
Para determinamos se algum desses pontos crı́ticos são um mı́nimo da função, calculamos a segunda derivada
desta. Para λ > −10, que é o único caso (fora λ = −10) onde ocorrem pontos crı́ticos, temos

2 −1/2 1
′′
d (λ) = 2(100 + λ ) +2 − (100 + λ2 )−3/2 · 2λ = 2(100 + λ2 )−1/2 − 2λ(100 + λ2 )−3/2 .
2
10
Substituindo λ = − √ 3
, temos
′′ 10
d −√ ≈ 0, 104 .
3
10
Portanto, λ = − √ 3
é um ponto de mı́nimo.
Resta ainda analisar o ponto λ = −10, que não pode ser analisado usando derivadas. Tomando valores
próximos a ele, vemos que d(−10, 1) ≈ 28, 526 e d(−9, 9) ≈ 28, 243. Já que d(−10) = 28, 284, este não é um
10
ponto de mı́nimo nem de máximo da função, mas apenas uma cúspide. Concluı́mos, então, que λ = − √ 3
é o
único ponto de mı́nimo da função d(λ). Para que visualizemos melhor a situação, segue um gráfico da função
d(λ).
d(λ)
45
40
35
30
25
20
15
10
0
λ
−15 −10 −5 5

!
10
~x1 = 10
√
.
3

~ x0 ) = 0 0
∇d(~ = .
0 0
O fato do vetor gradiente ser nulo indica que atingimos a solução ótima. Portanto, não há mais como melhorar
a solução e o ponto que minimiza a função é
!
0

0
~x1 = 10 ≈ .
√
3
5, 774
O valor mı́nimo da função-objetivo é d ≈ 27, 320. A seguir, fazemos uma descrição gráfica dos passos feitos
pelo problema:
y
10 b
C
B F
b b b
x
0 10 20
c) O problema agora consiste em determinar onde deve ser construı́do um armazém que sirva às três cidades
indicadas de forma proporcional às suas populações. Podemos fazer isto dando um peso a cada distância
da função-objetivo que seja proprocional à população de cada cidade. Usando como variáveis de decisão do
problema (x, y) =coordenadas do armazém, temos, então,
p p p
min d(x, y) = 400 x2 + y 2 + 250 (x − 20)2 + y 2 + 140 (x − 10)2 + (y − 10)2 .
d) O gradiente é dado por

~ dx
∇d(x, y) = ,
dy
onde
∂d 1 1 −1/2
dx = = 400 · (x2 + y 2 )−1/2 · 2x + 250 · (x − 20)2 + y 2 · 2(x − 20) +
∂x 2 2
1 −1/2
+140 · (x − 10)2 + (y − 10)2 · 2(x − 10) =
2
−1/2 −1/2
= 400x(x2 + y 2 )−1/2 + 250(x − 20) (x − 20)2 + y 2 + 140(x − 10) (x − 10)2 + (y − 10)2

,
∂d 1 1 −1/2
dy = = 400 · (x2 + y 2 )−1/2 · 2y + 250 · (x − 20)2 + y 2 · 2y +
∂y 2 2
1 −1/2
+140 · (x − 10)2 + (y − 10)2 · 2(y − 10) =
2
−1/2 −1/2
= 400y(x2 + y 2 )−1/2 + 250y (x − 20)2 + y 2 + 140(y − 10) (x − 10)2 + (y − 10)2

.
Para
iniciarmos
a busca, escolheremos um ponto inicial apropriado. Partiremos novamente do ponto inicial
10
~x0 = . Calculando o gradiente, temos
0

~ x0 ) = 150
∇d(~ .
−140

~ x0 ) = 10 150 10 + 150λ
~x1 = ~x0 + λ∇d(~ +λ = .
0 −140 −140λ

p p
d(~x1 ) = 400 (10 + 150λ)2 + (−140λ)2 + 250 (−10 + 150λ)2 + (−140λ)2 +
p
+140 (150λ)2 + (−140λ − 10)2 =
p p
= 400 100 + 3000λ + 22500λ2 + 19600λ2 + 250 100 − 3000λ + 22500λ2 + 19600λ2 +
p
+140 22500λ2 + 100 + 2800λ + 19600λ2 = d(λ) =
p p
= 400 100 + 3000λ + 42100λ2 + 250 100 − 3000λ + 42100λ2 +
p
+140 100 + 2800λ + 42100λ2 = d(λ) .
Calculando a derivada da função, ficamos com
d′ (λ) = 200(3000 + 84200λ)(100 + 3000λ + 42100λ2 )−1/2 +

+125(−3000 + 84200λ)(100 − 3000λ + 42100λ2 )−1/2 +
+70(2800 + 84200λ)(100 + 2800λ + 42100λ2 )−1/2
Teremos que usar um método numérico (método de Newton) para encontrar as raı́zes dessa derivada. Para
isso, precisamos calcular sua derivada segunda:
d′′ (λ) = 16840000(100 + 3000λ + 42100λ2 )−1/2 − 62, 5(−3000 + 84200λ)2 (100 − 3000λ + 42100λ2 )−3/2 +
+10525000(100 − 3000λ + 42100λ2 )−1/2 − 62, 5(−3000 + 84200λ)2 (100 − 3000λ + 42100λ2 )−3/2 +
+5894000(100 + 2800λ + 42100λ2 )−1/2 − 35(2800 + 84200λ)2 (100 + 2800λ + 42100λ2 )−3/2
Usando o algoritmo de Newton, temos, então, partindo de λ0 = 0,

d′ (λ0 ) d′ (0) 42100
λ1 = λ0 − = 0 − ≈0− ≈ −0, 022 ,
d′′ (λ0 ) d′′ (0) 1926500
d′ (−0, 022) −4651, 944
λ2 = −0, 022 − ′′ ≈ −0, 022 − ≈ −0, 020 ,
d (−0, 022) 2596943
d′ (−0, 020) 897, 329
λ3 = −0, 020 − ′′ ≈ −0, 020 − ≈ −0, 020 .
d (−0, 020) 2522698, 865
Como d′′ (−0, 020) = 2522698, 865, que é positivo, este é um mı́nimo da função. Para visualizarmos melhor essa
função, ela está representada no gráfico a seguir.
d(λ)
8000
7500
7000
0
λ
−0, 03 −0, 02 −0, 01 0, 01

7
~x1 = .
2, 8
~ x0 ) = 73, 149
∇d(~ .
71, 964
Precisamos fazer uma nova iteração para encontrar um resultado melhor.

~ 7 73, 149 7 + 73, 149λ
~x2 = ~x1 + λ∇d(~x1 ) = +λ = .
2, 8 71, 964 2, 8 + 71, 964λ
p p
d(~x2 ) = 400 (7 + 73, 149λ)2 + (2, 8 + 71, 964λ)2 + 250 (−13 + 73, 149λ)2 + (2, 8 + 71, 964λ)2 +
p
+140 (−3 + 73, 149λ)2 + (−7, 2 + 71, 964λ)2 .
Usando novamente um método numérico, descobrimos que esta função tem um mı́nimo em λ = −0, 033.
Substituindo novamente na expressão para ~x2 , temos

4, 586
~x2 = .
0, 425
O gradiente fica
~ x0 ) = 79, 480
∇d(~ .
−78, 066
Construı́mos, então, o ponto ~x3 :
4, 586 + 79, 480λ
~x3 = .
0, 425 − 78, 066λ
A função-objetivo fica
p
d(~x2 ) = 400 (4, 586 + 79, 480λ)2 + (0, 425 − 78, 066λ)2 +
p
+250 (−15, 414 + 79, 480λ)2 + (0, 425 − 78, 066λ)2 +
p
+140 (−5, 414 + 79, 480λ)2 + (−9, 575 − 78, 066λ)2 .
Usando um método numérico, descobrimos que esta função tem um mı́nimo em λ = −0, 012. Portanto,

3, 632
~x3 = .
1, 362
Repetindo o mesmo processo, chegamos ao ponto

2, 760
~x4 = .
0, 362
A tabela a seguir mostra todos passos do método, que vão até que a precisão de três casas decimais seja
alcançada.
i xi yi i xi yi
0 10 0 16 0, 197 0, 027
1 7 2, 8 17 0, 165 0, 057
2 4, 586 0, 425 18 0, 128 0, 018
3 3, 632 1, 362 19 0, 107 0, 037
4 2, 760 0, 362 20 0, 084 0, 012
5 2, 242 0, 814 21 0, 070 0, 024
6 1, 739 0, 234 22 0, 054 0, 007
7 1, 432 0, 509 23 0, 045 0, 015
8 1, 112 0, 154 24 0, 032 0, 004
9 0, 922 0, 325 25 0, 027 0, 009
10 0, 722 0, 101 26 0, 019 0, 002
11 0, 601 0, 210 27 0, 016 0, 005
12 0, 469 0, 066 28 0, 008 0, 000
13 0, 391 0, 136 29 0, 007 0, 002
14 0, 305 0, 043 30 0, 000314 −0, 000044
15 0, 255 0, 088 31 0, 000301 0, 0000861
Nas últimas duas linhas foram usadas mais casas decimais para evitar singularidades nas derivadas primeira e
segunda da função d(x, y). Pode-se ver que a solução ótima, com precisão de duas casas decimais, é

0
~x = ,
0
isto é, o armazém deve ser construı́do na cidade de Besourinhos.

Uma descrição gráfica dos passos feitos pelo problema é feita a seguir:
10 b
C
B F
b b
x
0 10 20
Note o comportamento em zigue-zague da busca, tı́pica do método de busca por gradiente, que torna a
busca difı́cil e lenta quando nos aproximamos da solução do problema.
Exercı́cios - Capı́tulo 2.11
Nı́vel 1
Gradiente
Exemplo 1: calcule o gradiente da função f (x, y, z) = x cos(yz).

Solução: temos
∂f ∂f ∂f
fx = = cos(yz) , fy = = −xz sen (yz) , fz = = −xy sen (yz) .
∂x ∂y ∂z
Portanto,    
fx cos(yz)
~ =  fy  =  −xz sen (yz)  .
∇f
fz −xy sen (yz)
E1) Calcule os gradientes das seguintes funções:

√
a) f (x, y) = xy 3 , b) f (x, y) = 2x + cos y, c) f (x, y, z) = 4xz − 8y 2 , d) f (x, y, z) = 8x y − 2 ez .
Exemplo 2: calcule o vetor que dá a direção e sentido de maior crescimento da função f (x, y, z) = x cos(yz)
no ponto (1, 0, 2).
Solução: o gradiente da função, calculado no exemplo 3, é dado por
 
cos(yz)
~ =  −xz sen (yz)  .
∇f
−xy sen (yz)
O vetor gradiente calculado no ponto desejado dá a direção e o sentido de maior variação da função. Portanto, em
(1, 0, 2), temos      
cos(0 · 2) cos 0 1
~ (1, 0, 2) =  −1 · 2 sen (0 · 2)  =  −2 sen 0  =  0  .
∇f
−1 · 0 sen (0 · 2) −0 0
E2) Calcule os vetores que dão as direções e sentidos de maior crescimento das funções abaixo nos pontos
indicados:
a) f (x, y) = xy 3 , (1, 1); b) f (x, y) = 2x + cos y , (0, π); c) f (x, y, z) = 4xz − 8y 2 , (1, 4, 2);
√
d) f (x, y, z) = 8x y − 2 ez , (2, 1, 0).
Hessiana
Exemplo 3: calcule a hessiana da função f (x, y, z) = x cos(yz).

Solução: as derivadas parciais de segunda ordem já foram calculadas no exemplo 3. A partir delas, temos
   
fxx fxy fyz 0 −z sen (yz) −y sen (yz)
H(f ) =  fyx fyy fyz  =  −z sen (yz) −xz 2 cos(yz) −x sen (yz) − xyz cos(yz) 
fzx fzy fzz −y sen (yz) −x sen (yz) − xyz cos(yz) −xy 2 cos(yz)
E3) Calcule as hessianas das seguintes funções:

√
a) f (x, y) = xy 3 , b) f (x, y) = 2x + cos y, c) f (x, y, z) = 4xz − 8y 2 , d) f (x, y, z) = 8x y − 2 ez .
Nı́vel 2
E1) As figuras a seguir ilustram algumas curvas de nı́vel das funções f (x, y) = 2x2 + 3y 2 , g(x) = 3x2 − 2y 2 e
h(x, y) = 3x − x3 − 3xy 2 . Desenhe sobre essas curvas de nı́vel os vetores gradiente normalizados dessas funções
nos pontos (0, 0), (1, 0), (0, 1) e (1, 1) com origem nos pontos dados.
y
y y
4
2
3
1
2 1
1
b
x 0
x b b
x
0 1 2 3 −2 −1 0 1 2
−1 1 −3 −2 −1
−1
−2 −1
−1
−3
−2
−4
f (x, y) = 2x2 + 3y 2 g(x, y) = 3x2 − 2y 2 h(x, y) = 3x − x3 − 3xy 2
E2) Considerando os dados a seguir, calcule, aproximadamente, um vetor que dê a direção e o sentido do
gradiente no ponto (0, 0).
x/y −2 −1 0 1 2
−2 −3, 2 −3, 1 −2, 9 −2, 8 −3, 0
−1 −2, 9 −2, 7 −2, 7 −2, 6 −2, 8
0 −1, 6 −1, 4 −1, 2 −1, 4 −1, 6
1 −0, 4 −0, 6 −0, 4 −0, 7 −0, 6
2 0, 6 0, 8 0, 7 0, 8 0, 3
p
E3) O laplaciano de uma função f (x, y) é definido como ∇2 f = fxx + fyy . Dada f (x, y) = x2 + y 2 , prove
que ∇2 f = f1 .
E4) Determine em qual direção e sentido uma função f decresce mais rapidamente.
E5) Determine
todos
os pontos para os quais a direção de maior mudança da função f (x, y) = x2 + y 2 − x − 3y
1
é dada por .
1
E6) Um industrial tem que decidir onde investir R$ 50.000 e estima que a produção de sua empresa possa ser
modelada pela função P (K, L) = 1, 3K 0,45 L0,55 , onde o capital investido K e o trabalho L são medidos em
milhões de reais. No momento, o capital investido é de 5 milhões de reais e o gasto em trabalho é de 4 milhões
de reais. Determine o quanto do dinheiro tem que ser usado em cada uma dessas áreas de modo a maximizar
a produção da empresa (use uma precisão de um milhar de reais na resposta).
Nı́vel 3
x2
E1) Calcule a reta normal e a reta tangente à elipse + y 2 = 2 no ponto (−2, 1) seguindo as seguintes
4
instruções:
x2
a) Considere que a elipse é uma curva de nı́vel da função f (x, y) = + y 2 e calcule o gradiente dessa função
4
no ponto (−2, 1).
b) Usando o fato do gradiente ser perpendicular à curva de nı́vel para calcular um ponto da reta normal à
elipse no ponto dado.
c) Utilize o ponto (−2, 1) e o novo ponto dado para calcular a equação da reta normal à elipse naquele ponto.
d) Use o fato da reta tangente ser perpendicular à reta normal calculada para repetir o processo (considerando
agora a reta normal como uma isoquanta de uma função adequada) e calcular a equação da reta tangente.
e) Desenhe em um mesmo gráfico a elipse dada, o ponto (−2, 1) e as retas normal e tangente a essa curva nesse
ponto.
E2) Calcule a reta normal e a reta tangente à curva x3 − 3y = 5 no ponto (2, 1).
E3) Um industrial estima que a produção de sua empresa possa ser modelada pela função de produção de
Cobb-Douglas P (K, L) = 1, 2K 0,6 L0,4 , onde o capital investido K e o trabalho L são medidos em milhões de
reais. No momento, o capital investido é de 5 milhões de reais e o gasto em trabalho é de 4 milhões de reais. Ele
pretende, nos próximos 6 meses, investir R$ 1.000.000 todo mês. Determine uma estratégia de investimentos
para o industrial para os próximos 6 meses de modo a maximizar a sua produção. Assuma nos seus cálculos
que ele sempre invista em unidades de milhares de reais.
E4) Use busca por gradiente com precisão de duas casas decimais para maximizar a função
f (x, y) = 4 − x2 − y 2 + 2x − 3y partindo do ponto x0 = (0, 0).
E5) Use busca por gradiente com precisão de duas casas decimais para maximizar a função
f (x, y) = 4 − x2 − y 2 + 2x − xy partindo do ponto x0 = (0, 0).
Respostas
Nı́vel 1
   √ 
4z 8 y
~ = y3 ~ y2 ~ =  −16y , d) ∇f √
~ =  4x/ y .
E1) a) ∇f , b) ∇f = , c) ∇f
3xy 2 − sen y
4x −2 ez
   
8 8
~ (1, 1) = 1 ~ (0, π) = 2 ~ (1, 4, 2) =  −64 , d) ∇f
~ (2, 1, 0) =  8 .
E2) a) ∇f , b) ∇f , c) ∇f
3 0
4 −2
 
0 0 4
0 3y 2 0 0
E3) a) H(f ) = , b) H(f ) = , c) H(f ) =  0 −16 0 ,
3y 2 6xy 0 − cos y
4 0 0
0 √4 0
 
x
d) H(f ) =  √4x − y2x 3/2 0 .
0 0 −2 ez
Nı́vel 2 y
y
y
E1)
4
2
3
1
2 1 b
1
bb x 0
b x b bb x
0 1 2 3 −2 −1 0 1 2
−1 1 −3 −2 −1
−1
−2 −1
−1
−3
−2
−4
f (x, y) = 2x2 + 3y 2 g(x, y) = 3x2 − 2y 2 h(x, y) = 3x − x3 − 3xy 2


0
E2) .
−1
y2 x2 x2 + y 2 1 1
E3) ∇2 f = fxx + fyy = + 2 = 2 = 2 = .
(x2 +y )2 3/2 2
(x + y ) 3/2 (x + y 2 )3/2 (x + y 2 )1/2 f
~ .
E4) Na direção dada por −∇f
E5) Para os pontos (1, 2) e (0, 1). y
E6) Ele deve investir R$ 19.780 em captial e usar R$ 30.220 em trabalho. 3
2
Nı́vel 3
b 1

~ (−2, 1) = −1 1
E1) a) ∇f . b) (−3, 3). c) y = −2x − 3. d) y = x + 2. e) x
2 2 −3 −2 −1 0 1 2 3
−1
−2
1
E2) A reta normal é dada por y = −0, 3x + 1, 6. A reta tangente é dada por y = (x + 1).
3 −3
E3) A estratégia de investimentos é dada pela tabela a seguir. Os investimentos são dados em milhares de reais.
Mês K L
1 623 377
2 623 377
3 622 378
4 622 378
5 623 377
6 623 377
E4) a) x = 1 e y = −1, 5, f = 7, 25 (uma iteração).

E5) a) x = 1, 33 e y = −0, 67, f = 5, 33 (10 iterações).

Cap 2 11 Gradiente e Hessiana

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Cap 2 11 Gradiente e Hessiana

Enviado por

Direitos autorais:

Formatos disponíveis

Cálculo 2 - Capı́tulo 2.

Capı́tulo 2.11 - Gradiente e hessiana

2.11.1 - Nova notação 2.11.4 - O gradiente e as curvas de nı́vel

2.11.1 - Nova notação

Exemplo 2: calcule as derivadas parciais da função f (x, y, z) = 2x ln(y − z).

A notação para derivadas parciais de segunda ordem é dada a seguir:

∂2f ∂2f ∂2f ∂2f

2.11.2 - Gradiente e hessiana

Exemplo 1: calcule o gradiente e a hessiana da função f (x, y) = xy 2 + 2x.

Exemplo 2: calcule o gradiente e a hessiana da função f (x, y) = x ln(yz).

Exemplo 3: calcule o gradiente e a hessiana da função f (x, y) = xy 2 + 2x em (x, y) = (1, −1).

2.11.3 - Significado do gradiente

Calculado nos pontos desejados, temos

Calculado nos pontos desejados, temos

2.11.4 - O gradiente e as curvas de nı́vel

de modo que ∇f (γ(t)) é perpendicular ao vetor γ ′ (t).

2.11.5 - Interpretação econômica do gradiente

Leitura Complementar 2.11.1 - Derivada direcional

∆P P (K + ∆K, L) − P (K, L) ∂P ∆P P (K, L + ∆L) − P (K, L) ∂P

∆P = P (K + ∆K, L + ∆L) − P (K, L) .

f (x + hu1 , y + hu2 ) − f (x, y)

f (x + hu1 , y + hu2 ) − f (x, y)

Du f (x, y) = fx (x, y)u1 + fy (x, y)u2 .

f (x + hu1 , x + hu2 ) − f (x, y)

g(h) − g(0) f (x + hu1 , y + hu2 ) − f (x, y)

Du (x, y) = fx (x, y)u1 + fy (x, y)u2 .

Df (x, y) = fx u1 + fy u2 = (2x − y + 4) · 2 + (−x) · 1 = 4x − 2y + 8 − x = 3x − 2y + 8 .

Du f (3, 1) = 4 · 1 + 10 · 2 = 24 , Dv (3, 1) = 4 · 1 + 10 · 1 = 14 , Dw (3, 1) = 4 · 1 + 10 · 0 = 4 .

b) Derivada direcional e o vetor gradiente

Exemplo 2: calcule u · v, onde |u| = 2, |v| = 3 e o ângulo entre eles é θ = 60o .

Leitura Complementar 2.11.2 - Método de busca por

Problema 1: Mı́nimo de uma parabolóide

Determinamos então um novo ponto ~x1 :

Substituindo esse ponto na função objetivo, temos

f (~x1 ) = (1 + 2λ)2 + (1 + 2λ)2 = 1 + 4λ + λ2 + 1 + 4λ + λ2 = 2 + 8λ + 8λ2 .

Essa função tem um ponto crı́tico quando

O gradiente de ~x1 fica, então,    

Problema 2: Função exponencial

As derivadas parciais são dadas por

Determinamos então um novo ponto ~x1 :

Substituindo esse ponto na função objetivo, temos

Derivando a função com relação a λ, temos

Essa função tem um ponto crı́tico quando

Substituindo o valor de λ encontrado, temos

Calculando o gradiente para esse ponto, temos

Como o gradiente é nulo, ~x1 corresponde ao máximo da função f (x, y).

Problema 4: Localização de um armazém

d) Resolva o problema modificado usando busca por gradiente.

As variáveis de decisão do problema são (x, y) =coordenadas do armazém. A função-objetivo é minimizar a

Determinamos então um novo ponto ~x1 :

Substituindo esse ponto na função objetivo, temos

d′ (λ) = 0 ⇔ 2λ(100 + λ2 )−1/2 − 1 = 0 ⇔ 2λ(100 + λ2 )−1/2 = 1 ⇔ 2λ = (100 + λ2 )1/2 ⇔

d′ (λ) = 0 ⇔ 2λ(100 + λ2 )−1/2 + 1 = 0 ⇔ 2λ(100 + λ2 )−1/2 = −1 ⇔ 2λ = −(100 + λ2 )1/2 ⇔

Substituindo o valor de λ encontrado, temos

O gradiente de ~x1 fica, então,    

d) O gradiente é dado por  

Determinamos então um novo ponto ~x1 :

Substituindo esse ponto na função objetivo, temos

Calculando a derivada da função, ficamos com

d′ (λ) = 200(3000 + 84200λ)(100 + 3000λ + 42100λ2 )−1/2 +

Usando o algoritmo de Newton, temos, então, partindo de λ0 = 0,

Substituindo o valor de λ encontrado, temos

O gradiente de ~x1 fica, então,

O gradiente de ~x1 fica, então,

d) O gradiente é dado por