Escolar Documentos
Profissional Documentos
Cultura Documentos
Curso de Matemática
Volta Redonda
Julho de 2016
Universidade Federal Fluminense
Volta Redonda
Julho de 2016
Aos diversos professores da UFF
e os que participaram da banca da minha monografia,
principalmente a minha professora e orientadora: Marina Sequeiros
que fez a grande diferença para a realização deste trabalho.
A eles, a minha homenagem.
Agradecimentos
ON Ortonormal
VA Variável Aleatória
Lista de símbolos
AT Matriz A transposta
1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3 Revisão de Álgebra Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.1 Vetores e Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.2 Normas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4 Métodos de Fatoração Matricial . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.1 Equações Normais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2 Decomposição em Valores Singulares (SVD) . . . . . . . . . . . . . . . . . . 27
4.3 Fatoração QR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5 Métodos de Mínimos Quadrados e Aplicações . . . . . . . . . . . . . . . . . 39
5.1 O Método de Mínimos Quadrados . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.3 Condicionamento e Estabilidade . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.4 Regressão Linear Simples e Múltipla . . . . . . . . . . . . . . . . . . . . . . . 52
6 Conclusões e Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . 65
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
1
1 Introdução
1
https://archive.org/stream/werkecarlf04gausrich# page/n1/mode/2up ou https://archive.org/details/werkecarlf04gausrich
2 Capítulo 1. Introdução
2 Objetivos
Neste capítulo é feita uma breve revisão de alguns conceitos de Álgebra Linear que serão
indispensáveis no decorrer do trabalho.
Algumas definições e resultados importantes da teoria são introduzidas. Para mais
detalhes, veja [1], [2], [5], juntamente com os livros de Álgebra Linear: [14], [10] e Análise Real:
[12].
Produto Interno
As definições a seguir se encontram no livro de Álgebra Linear [10] e do livro Análise
Real [12].
Um produto interno é uma função que associa a cada par de vetores x, y do espaço
vetorial um número real denotado por hx, yi, chamado produto interno de x por y.
Neste trabalho, o produto interno é definido do seguinte modo: considere x, y dois vetores
colunas de Rm , então,
Xm
x y=
T
xi yi
i=1
Note que se x, y pertencentes ao espaço vetorial são vetores tais que hx, zi = hy, zi para
todo z pertencente ao espaço vetorial então x = y. Com efeito, isto implica que hx − y, zi = 0
para todo z pertencente ao espaço vetorial, logo x − y = 0 e x = y.
O comprimento euclidiano de x, denotado por ||x||, é definido como
X 2 1/2
n
√
||x|| = xT x = |xi | .
i=1
Vetores Ortogonais
Definição 1. Um par de vetores x e y são ortogonais se xT y = 0. Isto significa que eles formam
um ângulo reto entre si, em Rm . Dois conjuntos de vetores X e Y são ortogonais (ou X é ortogonal
a Y) se todo x ∈ X é ortogonal a todo y ∈ Y.
Demonstração. Se os vetores em S não são independentes, então algum vk ∈ S pode ser expresso
como uma combinação linear de outros membros v1 , ..., vn ∈ S ,
Xn
vk = ci vi ,
i=1
i,k
desde que vk , 0, vk .vk = ||vk ||2 > 0. Usando a bilinearidade de produto interno e a
ortogonalidade de S , calculamos
Xn
vk .vk =
T
ci vTk vi = 0,
i=1
i,k
Componentes de um vetor
Produtos internos podem ser usados para decompor vetores arbitrários em componentes
ortogonais. Por exemplo, sejam {q1 , q2 , . . . , qn } um conjunto ON e v um vetor arbitrário. A
quantidade qTj v é um escalar.
Pode-se utilizar esses escalares como coordenadas em uma expansão, obtendo o vetor
Uma matriz m × n de posto completo é uma matriz que tem o máximo possível do posto,
ou seja: o mínimo de m ou n. Isto significa que uma matriz de posto completo com m ≥ n tem
que ter n colunas L.I.
Teorema 2. Uma matriz A ∈ Rm×n com m ≥ n tem posto completo se, e somente se, ela não
mapeia dois vetores distintos para um mesmo vetor.
Multiplicação de Matrizes
As definições e os exemplos a seguir podem ser encontrados em [1].
Seja x = (x j ) um vetor coluna de dimensão n e seja A = (ai j ) uma matriz de tamanho
m × n. O produto de A por x resulta no vetor coluna b = (bi ) = Ax, donde b ∈ Rn . Note que
n
X
bi = ai j x j , i = 1, . . . , m. (3.2)
j=1
• bi é a i-ésima entrada de b,
• x j é a j-ésima entrada de x.
Observe que da equação (3.2) para equação (3.3) não aconteceu nada além de uma ligeira
alteração na notação.
3.1. Vetores e Matrizes 9
. . . x1n−1
1 x1 x12 x13
1 x2 x22 x23 . . . x2n−1
A = .. .. .. .. .. ..
.
. . . . . .
. . . xm
1 xm xm xm3
2 n−1
Nesse exemplo, está claro que o produto matriz-vetor Ac não precisa ser pensado como
m somatórios escalares distintos, cada um dando uma combinação linear diferente das entradas
de c, como (3.2) pode sugerir. Ao invés disso, A pode ser vista como uma matriz de colunas,
cada uma com valores amostrados de um monômio ,
A = 1 X X 2 . . . X n−1 ,
(3.5)
e o produto Ac deve ser entendido como a soma de um único vetor na forma (3.3), que
fornece uma combinação linear destes monômios, Ac = c0 + c1 x + c2 x2 + · · · + cn−1 xn−1 = p(x).
10 Capítulo 3. Revisão de Álgebra Linear
Para o produto de uma matriz A por uma matriz C, B = AC, cada coluna de B é uma
combinação linear das colunas de A. Para deduzir este fato, considere inicialmente a fórmula
usual para produto de matrizes. Considere a matriz A de dimensão l × m e a matriz C de dimensão
m × n. Assim, B necessariamente deve possuir dimensão l × n. Suas entradas são definidas por
m
X
bi j = aik ck j . (3.6)
k=1
m
X
B = Ac j =
j
ck j Ak . (3.7)
k=1
v1 u1 . . . vn u1
i . ..
= ..
h
u v1 v2 . . . vn = v1 u v2 u . . . vn u . .
v1 um . . . vn un
Exemplo 3. Considere B = AU, onde U é uma matriz triangular superior cuja dimensão é n × n
com entradas ui j = 1 se i ≤ j e ui j = 0 se i > j. Pode-se escrever esse produto da seguinte forma:
1 . . . 1
. . . .. .
B1 B2 . . . Bn = A1 A2 . . . An .
1
3.1. Vetores e Matrizes 11
Im(A) = {Au : u ∈ Rn }.
Note que Im(A) ⊂ Rm . Pode-se, também, ver a Im(A) como o espaço das colunas da
matriz A, conforme mostra o teorema 3.
Demonstração. Por (3.3) qualquer Ax é uma combinação linear das colunas de A. Por outro lado,
qualquer vetor y no espaço gerado pelas colunas de A pode ser escrito como uma combinação
linear das colunas, y = nj=1 x j A j . Formando um vetor x com os coeficientes de x j , obtém-se
P
Núcleo
N(A) = {u : Au = 0}
Note que N(A) ⊂ Rn . Se o produto interno canônico é assumido, pode-se mostrar que o
núcleo de A é o espaço dos vetores ortogonais a todas as linhas de A.
12 Capítulo 3. Revisão de Álgebra Linear
Matriz Inversa
Considere In a matriz identidade n × n. Tem-se In = [δi j ], onde δi j é o símbolo de
Kronecker: δi j = 0 se i , j e δii = 1. Quando não houver ambiguidade, será simplesmente escrito
I em vez de In .
(b) Im(A) = m,
(c) Im(A) = Rm ,
(g) det(A) , 0.
A demonstração do teorema 4 acima pode ser encontrada facilmente nos livros de Álgebra
Linear, como por exemplo [10], [14] e [16].
A seguir, enuncia-se o Teorema de Binet, que será utilizado em uma demonstração na
seção 4.2 sobre SVD.
Teorema 5 (de Binet). O determinante do produto de duas matrizes quadradas de mesma ordem
é igual ao produto dos determinantes destas matrizes, ou seja, det(AB) = det(A) det(B), onde
A, B são matrizes de ordem n.
Para mais detalhes sobre a demonstração do teorema 5, veja a página 219 do livro [14].
Matriz Simétrica
Matriz Transposta
Seja A = (ai j ) ∈ Rm×n . A matriz transposta de A é a matriz AT = (a ji ), onde AT ∈ Rn×m .
Ou seja:
a1,1 a1,2 . . . a1,n a1,1 a2,1 . . .
am,1
a2,1 a2,2 . . . a2,n a1,2 a2,2 . . . am,2
A = . .. .. .. ⇔ AT
= . .. . . ..
.. ..
. . . . . .
am,1 am,2 . . . am,n a1,n a2,n . . . am,n
T
1. AT = A,
2. (A + B)T = AT + BT ,
3. (cA)T = cAT ,
4. (AB)T = BT AT ,
Para facilitar o entendimento das demonstrações a seguir, uma matriz A será denotada da
seguinte maneira: A = [ai, j ]m,n
i, j=1 .
Demonstração.
T
AT = [ai, j ]n,m
j,i=1 e, portanto, AT = [ai, j ]m,n
i, j=1 = A.
T
(A + B)T = [ai, j + bi, j ]m,n
i, j=1 = [ai, j + bi, j ]n,m
j,i=1 = A + B .
T T
i, j=1 . Então,
3. Seja A = [ai, j ]m,n
T m,n T
(cA)T = c[ai, j ]m,n
i, j=1 = [cai, j ]i, j=1 = [cai, j ]n,m
j,i=1 = c[ai, j ] j,i=1 = cA .
n,m T
14 Capítulo 3. Revisão de Álgebra Linear
n,p T
(AB)T = [ai, j ]m,n i, j=1 [b i, j ] i, j=1
m,p
T
n
X
= ai,k bk, j
k=1 i, j=1
n p,m
X
= ai,k bk, j
k=1 j,i=1
.
n p,m
X
= bk, j ai,k
k=1 j,i=1
= BT AT
5. Se A é uma matriz não singular, então AA−1 = A−1 A = I. Daí, segue que:
T T
I = I T = AA−1 = AT A−1
e
T T
I = I T = A−1 A = A−1 AT
Definição 6. Chama-se matriz definida positiva a uma matriz A tal que xT Ax > 0 para todo
x , 0.
Demonstração. Supondo que A seja não-invertível, então existe um vetor não-nulo x ∈ Rn tal
que Ax = 0 e, portanto, xT Ax = 0, o que é uma contradição.
Matrizes Ortogonais
Para mais detalhes sobre as definições a seguir, veja [1].
T
Em outras palavras, Qi Q j = δi j .
Veja algumas propriedades sobre matrizes ortogonais e suas respectivas demonstrações.
Considere A ∈ Rm×m uma matriz quadrada e c ∈ R uma constante qualquer.
2. A matriz A é ortogonal se, e somente se, suas colunas formam um conjunto ortonormal.
3. A matriz A é ortogonal se, e somente se, suas linhas formam um conjunto ortonormal.
Demonstração.
A.
1 , i= j
Por hipótese, AT A = In , donde: ai · a j =
0 , i, j
isto é, o conjunto formado pelos vetores coluna {A1 , A2 , . . . , An } é um conjunto ON. Reci-
procamente, se as colunas de A formam um conjunto ON de vetores, então por cálculo
direto AT A = In .
4. Imediatamente tem-se:
AT = A−1 ⇔ (AT )T = (A−1 )T ⇔ A = (AT )−1 .
16 Capítulo 3. Revisão de Álgebra Linear
A invariância de produtos internos significa que ângulos entre vetores são preservados,
assim como seus comprimentos:
||Qx|| = ||x|| (3.10)
No caso real, que é o que está sendo tratado neste trabalho, a multiplicação por uma
matriz ortogonal Q corresponde a uma rotação rígida (se det Q = 1) ou reflexão (se det Q = −1)
do espaço vetorial.
3.2 Normas
As noções essenciais de tamanho e distância em um espaço vetorial são obtidas por
normas.
Norma Vetorial
A norma é uma função || · || : Rm → R que atribui um comprimento de valor real para
cada vetor. Uma norma deve satisfazer as 3 condições a seguir. Para todos vetores x e y e todos
escalares α ∈ R,
2. ||αx|| = |α|||x||,
p-normas
X 2 1/2 √
m
||x||2 = |xi | = xT x
i=1
||x||∞ = max |xi |
1≤i≤m
X p 1/p
m
||x|| p = |xi | , (1 ≤ p < ∞)
i=1
2. ||αA|| = |α|||A||,
Esta identidade, bem como sua análoga baseada em linhas ao invés de colunas, pode ser
expressa compactamente pela equação:
p p
||A||F = tr(AT A) = tr(AAT ), (3.13)
onde tr(A) denota o traço de A, a soma dos seus elementos na diagonal com A sendo uma
matriz quadrada.
Demonstração. Desde que ||Qx||2 = ||x||2 para todo x, pelo item 3.10, a invariância na norma 2,
segue de 3.11. Para a norma de Frobenius pode-se usar 3.13.
19
Projetores
A definição a seguir pode ser vista com mais detalhes em [1].
Um projetor é uma matriz quadrada P que satisfaz
P2 = P (4.1)
Uma matriz deste tipo também é definida como matriz idempotente. Esta definição inclui
projetores ortogonais e não-ortogonais. Será utilizado o termo “Projetor Oblíquo” para o caso
em que o projetor é não-ortogonal.
Note que se v ∈ Im(P), tem-se v = Px para algum x e
Pv = P2 x = Px = v.
P(Pv − v) = P2 v − Pv = 0,
ou seja, Pv − v ∈ N(P).
20 Capítulo 4. Métodos de Fatoração Matricial
Projetores Complementares
(I − P)2 = I − 2P + P2 = I − P.
N(I − P) = Im(P).
Além disso, observe que N(I − P) ∩ N(P) = {0}, pois qualquer vetor v em ambos
conjuntos satisfazem v = v − Pv = (I − P)v = 0. Equivalentemente segue que,
Projetores Ortogonais
Observação 1. É importante dizer que projetores ortogonais não são matrizes ortogonais.
Existe também uma definição algébrica: Um projetor ortogonal é qualquer projetor que é
simétrico, satisfazendo PT = P e (4.1). É claro que esta definição é equivalente à primeira.
21
Demonstração. (⇐) Seja P um projetor ortogonal. Aqui, será usada a SVD (Veremos este
método com mais detalhes na seção 4.2). Suponha que P projeta sobre S 1 na direção de S 2 ,
onde S 1 ⊥ S 2 e S 1 tem dimensão n. Então um SVD de P pode ser construído da seguinte
maneira: seja {q1 , q2 , . . . , qm } uma base ON para Rm , onde {q1 , q2 , . . . , qn } é uma base para S 1
e {qn+1 , qn+2 , . . . , qm } é uma base para S 2 . Para j ≤ n, tem-se PQ j = Q j e para j > n tem-se
PQ j = 0. Agora, seja Q uma matriz ortogonal na qual as j-ésimas colunas são preenchidas por
Q j . Logo, tem-se:
PQ = Q . . . Qn 0 . . . ,
1
e dessa forma,
1
..
.
Q PQ =
T
1 = Σ,
0
..
.
onde Σ é uma matriz diagonal com uns nas primeiras n entradas e zeros nas demais.
Assim, construi-se uma decomposição em valores singulares de P :
P = QΣQT .
22 Capítulo 4. Métodos de Fatoração Matricial
Logo, xT (P − P2 )y = 0.
Portanto, o projetor é ortogonal, como queríamos mostrar.
Pode-se construir um projetor ortogonal sobre um espaço Rm começando com uma base
arbitrária, não necessariamente ortogonal. Suponha que o subespaço é gerado pelos vetores L.I.
{a1 , . . . , an } e seja A um matriz m × n tal que a j-ésima coluna é A j .
Ao passar de v para sua projeção ortogonal y ∈ Im(A), a diferença y − v tem que
ser ortogonal com relação a Im(A). Equivalentemente, pode-se dizer que y tem que satisfazer
T
A j (y − v) = 0 para todo j. Desde que y ∈ Im(A), pode-se definir y = Ax e escrever esta condição
T
da seguinte maneira: A j (Ax − v) = 0 para cada j, ou equivalentemente, AT (Ax − v) = 0 ou
AT Ax = AT v. É fácil mostrar que, como A tem posto máximo então AT A é não-singular. Portanto,
x = (AT A)−1 AT v.
P = A(AT A)−1 AT .
No caso particular de uma base ON A = Q, obtém-se QQT = I, daí segue que P = QQT .
4.1. Equações Normais 23
Figura 3 – Perpendicular
Por essa interpretação, é fácil entender que uma solução de problema de mínimos
quadrados para o sistema linear Ax = b sempre vai existir. Essa solução existe porque pode-se
projetar b no “plano” Im(A) para obter o vetor u ∈ Im(A), e existe x ∈ Rn tal que u = Ax. Esse x
é a solução. Porque b − Ax é perpendicular a Im(A) e todo vetor em Im(A) é uma combinação
linear dos vetores colunas de A, então b − Ax é ortogonal a todas colunas de A, ou seja,
AT (b − Ax) = 0
ou
AT Ax = AT b. (4.2)
AT r = 0,
ou equivalentemente,
AT Ax = AT b,
ou novamente equivalente,
Pb = Ax
Fatoração Cholesky
As definições e exemplos discutidos aqui podem ser encontrados em [9].
Antes de definir a fatoração Cholesky, será vista a fatoração LU para melhor entendi-
mento.
Fatoração LU
Definição 8. Se A é uma matriz quadrada que pode ser fatorada na forma A = LU, onde L é
triangular inferior e U triangular superior, então dizemos que A = LU é uma fatoração LU de A.
custo computacional. O que é óbvio, porque bastou encontrar apenas a matriz L e sua transposta.
Ou seja, o cálculo da matriz U, neste caso, se reduz ao cálculo de LT .
Veja a seguir dois exemplos de fatoração de Cholesky:
√2 0 0
√
2 − √1
0
2 −1 0 q q 2 q
A = −1 2 −1 = − √2 0 . 0 = L1 L1
1 3 T
3
− 23
2 2
q
0 −1 2 0 − 2 √2 0 0 √2
3 3 3
4 −2 4 10 2 0 0 0 2 −1 2 5
−2 10 1 −2 −1 3 0 0 0 3 1 1
B = = .
0 0 1 2 = L2 L2
T
4 1 6 13 2 1 1 0
10 −2 13 31 5 1 2 1 0 0 0 1
Observação 3. Observe que as matrizes A e B acima, são matrizes simétricas. E possuir essa
propriedade é uma das condições necessárias para aplicar a fatoração de Cholesky.
Teorema 10. Uma matriz simétrica A é definida positiva se, e somente se, pode ser fatorada
como LLT , onde L é uma matriz triangular inferior com elementos positivos na diagonal.
Para obter mais detalhes e passo a passo sobre a fatoração de Cholesky, a referência
indicada é [9].
Para resolver o problema de mínimos quadrados utilizando o método de equações
normais, será aplicada a fatoração Cholesky em AT A.
Dessa forma, AT A = LLT tal que
a11 a12 · · · a1n
a21 a22 · · · a2n
. .. . . .
.. . . ..
A A =
T
ak1 ak2 · · · akn
. .. . . .
.. . . ..
an1 an2 · · · ann
é uma matriz simétrica e positiva e
l11 0 0 0 ··· 0 l11 l21 · · · lk1 · · · ln1
l21 l22 0 0 ··· 0 0 l22 · · · lk2 · · · ln2
. .. .. .. . .. .. .. ..
.. 0 0 ..
. . 0 . . . . .
LL =
T
.
lk1 lk2 · · · lkk · · · 0 0 0 · · · lkk · · · lnk
. .. .. .. .. . .. .. .. ..
.. . 0 0 ..
. . . . . . .
ln1 ln2 · · · lnk · · · lnn 0 0 ··· 0 ··· lnn
1. Lz = AT b e, em seguida
Ideia Geométrica
Mais detalhes sobre o método podem ser encontrados em [1].
A ideia do método baseia-se no fato geométrico de que a imagem da esfera unitária sob
qualquer matriz m × n é uma hiperelipse.
Sejam S a esfera Euclidiana usual em Rn , isto é, a esfera unitária na norma-2 e AS a
imagem de S sob o mapeamento de A: uma hiperelipse.
Considere o termo “hiperelipse” como sendo uma generalização m-dimensional de uma
elipse. Pode-se definir uma hiperelipse em Rm como a superfície obtida quando se “estica” a
esfera unitária em Rm por alguns fatores σ1 , . . . , σm (podendo ser zero) em algumas direções
ortogonais u1 , . . . , um ∈ Rm .
Considere os vetores ui unitários, ou seja, ||ui ||2 = 1. Os vetores {σi ui } são os semi-
eixos principais da hiperelipse, com comprimentos σ1 , . . . , σm . Se A tem posto r, então teremos
exatamente r dos comprimentos de σi diferentes de zero, e, em particular, se m ≥ n, no máximo
n deles serão diferentes de zero.
Suponha, por enquanto, que A ∈ Rm×n (m ≥ n) possui posto completo n. Então a imagem
AS é uma hiperelipse em Rm .
28 Capítulo 4. Métodos de Fatoração Matricial
Definição Formal
Seja A ∈ Rm×n uma matriz arbitrária. Uma decomposição em valores singulares de A é
uma fatoração tal que A = UΣV T , onde:
U ∈ Rm×m é ortogonal,
V ∈ Rn×n é ortogonal,
4.2. Decomposição em Valores Singulares (SVD) 29
Σ ∈ Rm×n é diagonal.
Note que U e V são matrizes ortogonais quadradas e Σ possui a mesma forma de A mesmo
quando A não é quadrada. As entradas diagonais da matriz Σ são os valores singulares defi-
nidos anteriormente. Ou seja, Σ = diag(σ1 , σ2 , . . . , σn ). As colunas de U são compostas por
u1 , u2 , . . . , un e as colunas de V são compostas por v1 , v2 , . . . , vn , ambos definidos anteriormente.
A seguir mostra-se que toda matriz possui uma fatoração SVD. Portanto, mostra-se que
a imagem de uma esfera unitária sob qualquer mapa linear é uma hiperelipse.
Teorema 11 (Existência e Unicidade do SVD). Toda matriz A ∈ Rm×n possui uma decomposição
em valores singulares. Além disso, os valores singulares {σ j } são unicamente determinados, e,
se A é quadrada e os σ j são distintos então os vetores singulares a esquerda e a direita {u j } e
{v j } são unicamente determinados.
Antes da demonstração, veja uma reapresentação geométrica desse teorema. Dada uma
matriz A, qualquer, de dimensão m × n, ela pode ser vista como um mapeamento de um vetor
x ∈ Rn para um vetor y = Ax ∈ Rm . Desse modo, pode-se escolher um sistema de coordenadas
ortogonal para Rn (onde os eixos unitários são as colunas de V) e outro sistema de coordenadas
ortogonal para Rm (onde os eixos unitários são as colunas de U) tal que A é uma matriz diagonal
n n
(Σ), isto é, mapeia um vetor x = βi vi ∈ Rn para um vetor y = Ax = σi βi ui ∈ Rm . Em outras
P P
i=1 i=1
palavras, qualquer matriz é diagonal desde que se escolha o sistema de coordenadas ortogonal
apropriado para seu domínio e imagem.
Para demonstrar esse teorema, será feita indução sobre m e, em seguida, indução sobre n.
Demonstração. Assuma que a decomposição em valores singulares existe para matrizes A(m−1)×(n−1) .
Será provado que essa decomposição existe para matrizes de dimensão m × n. Suponha que
A , 0, pois se A fosse igual a 0, poderia-se tomar Σ = 0 e U e V poderiam ser matrizes ortogonais
quaisquer.
O passo básico ocorre quando n = 1 (desde que m > n). Assim, Am×1 = Um×1 Σ1×1 V1×1 ,
com U = ||A||
A
2
, Σ = ||A||2 , e V = 1.
Para a indução sobre n, suponha que vale para n−1. E, assim, será provado que vale para n.
Tome v tal que ||v||2 = 1 e ||A||2 = ||Av||2 > 0. Tal v existe pela definição de ||A||2 = max||v||2 =1 ||Av||2 .
h i
Seja u = ||Av||
Av
2
, tal que u é um vetor unitário. Escolha Ŭ e V̆ de modo que U = um×1 Ŭ m×(n−1)
h i
é uma matriz ortogonal e possui dimensão m × n, e V = vn×1 V̆n×(n−1) é também uma matriz
30 Capítulo 4. Métodos de Fatoração Matricial
Note que o último item também é zero, porque caso contrário σ = ||A||2 = ||U T AV||2 ≥
||[1, 0, . . . , 0]U T AV||2 = ||[σ|uT AV̆]||2 > σ, que é uma contradição. Agora pode-se aplicar a
hipótese de indução em Ă para conseguir Ă = U1 Σ1 V1T , onde U1 , Σ1 e V1 possuem dimensões
(m − 1) × (n − 1), (n − 1) × (n − 1) e (n − 1) × (n − 1), respectivamente. Logo,
T
σ 0 σ σ 0
0 1 0 1 0
U AV = = = . .
T
0 Ă. 0 U1 Σ1 V1T . 0 U1 . 0 Σ1 . 0 V1 .
ou seja,
T
σ 0
1 0 1 0
A = U . . ,
0 U1 . 0 Σ1 . 0 V1 .
SVD Reduzido
Foi visto que as equações referentes aos vetores singulares à esquerda e aos vetores
singulares à direita podem ser escritas como:
Av j = σ j u j , 1 ≤ j ≤ n.
4.2. Decomposição em Valores Singulares (SVD) 31
Pode-se expressar esse conjunto de equações vetoriais como uma equação matricial, isto
é: AV = U bbΣ. Ou então, mais precisamente, tem-se
σ1
σ
v1 v2 . . . vn 2
A = u1 u2 . . . un .
.
.
σn
onde bΣ é uma matriz diagonal n × n com entradas reais positivas (Lembre-se de que
b é uma matriz m × n com colunas ortonormais; V
assumimos que A possui posto completo n); U
é uma matriz n × n com colunas ortonormais.
Assim, V é ortogonal e, portanto, pode-se multiplicar por sua transposta para obter:
A=U
bbΣV T . (4.3)
SVD Completo
Na maioria das aplicações, o SVD é usado exatamente da forma descrita acima. No
entanto, esta não é a maneira mais comum de se formular um SVD. Com isso, serão introduzidos
os termos “reduzido” (com os chapéus nas matriz U e Σ) e “completo” com o objetivo de
diferenciar a fatoração (4.3), que vista anteriormente, da fatoração (4.4), que será vista a seguir.
Veja a ideia do SVD completo: As colunas de U b são n vetores ortonormais no espaço
m-dimensional Rm . Mas, se m = n, eles não formam uma base de Rm , e nem U b é uma matriz
ortogonal. No entanto, adicionando m − n colunas ortonormais, U b pode ser estendida para uma
matriz ortogonal. Isso será feito de modo arbitrário e o resultado obtido será denotado de U (sem
chapéu).
32 Capítulo 4. Métodos de Fatoração Matricial
Mudança de Base
O método SVD permite dizer que toda matriz é diagonal, desde que se faça uma escolha
adequada para as bases dos espaços domínio e imagem. Veja como funciona esta escolha.
4.2. Decomposição em Valores Singulares (SVD) 33
b = Ax ⇔ b0 = U T b = U T Ax = U T UΣV T x = ΣV T x = Σx0 .
A = CΛC −1 , (4.5)
Teorema 12. O posto da matriz A é igual a r, justamente o número de valores singulares não
nulos.
Demonstração. Sabe-se que o posto de uma matriz diagonal é dado pelo número de entradas não
nulas. Observe que na decomposição A = UΣV T , as matrizes U e V possuem posto completo.
Logo, posto(A) = posto(Σ) = r.
Teorema 13. O vetores singulares u1 , u2 , . . . , ur são uma base ortonormal em Im(A), isto é,
Im(A) = hu1 , u2 , . . . , ur i.
Teorema 14. O vetores singulares vr+1 , vr+2 . . . , vn são uma base ortonormal em N(A), isto é,
N(A) = hvr+1 , vr+2 , . . . , vn i.
Demonstração. Observe que a primeira parte dessa demonstração já foi estabelecida no Teorema
11 sobre existência e unicidade da decomposição em valores singulares. Como A = UΣV T ,
onde U e V são matrizes ortogonais, ||A||2 = ||Σ||2 = max{|σ j |} = σ1 , pelo teorema 7. Portanto,
||A||2 = σ1 , Para norma de Frobenius, use o teorema 7 novamente e a equação (3.12) para concluir
que ||A||F = ||Σ||F .
4.3. Fatoração QR 35
m
Y
Teorema 16. Seja uma matriz A ∈ R m×m
. Vale que |det(A)| = σi , ∀A
i=1
m
Y
Portanto, | det(A)| = σi .
i=1
4.3 Fatoração QR
Os resultados a seguir podem ser vistos em [1], [3] e [4]. Para estudos complementares
sobre a fatoração QR, veja [5], [2], [6] e [23].
Em várias aplicações, a fatoração SVD é muito custosa computacionalmente, e com isso,
deve-se buscar fatorações mais simples. Dentre elas, a mais importante é a que será descrita a
seguir e suas decomposições. A decomposição QR é uma fatoração de uma matriz A em um
produto de uma matriz ortogonal Q e uma matriz triangular R.
Essa fatoração pode ser construída tanto usando transformações adequadas de matrizes
(dados conhecidos ou matrizes de Householder) quanto usando o algoritmo de ortogonalização
Gram-Schmidt discutido no final deste capítulo.
Também é possível gerar uma versão reduzida do fatoração QR, como será vista a seguir.
Fatoração QR Reduzida
Na maioria das vezes, se está interessado nos espaços coluna de uma matriz A. Considere
os sucessivos espaços gerados pelas colunas a1 , a2 , . . . de A:
O símbolo h· · · i indica o subespaço gerado pelos vetores que estiverem dentro dos
parênteses. Logo, ha1 i é o espaço unidimensional gerado por a1 , ha1 , a2 i é o espaço bidimensional
gerado por a1 e a2 e assim por diante.
36 Capítulo 4. Métodos de Fatoração Matricial
Note que, a partir das observações feitas na seção 3.1, o item (4.6) pode ser reescrito,
esquematicamente, como a seguir:
r11 r12 . . . r1n
..
r22 .
A1 A2 . . . An = Q1 Q2 . . . Qn ,
...
rnn
onde as entradas diagonais rkk são diferentes de zero. Desse modo, pode-se escrever
a1 , . . . , ak como uma combinação linear de q1 , . . . , qk . Observe que o bloco superior esquerdo
k×k da matriz triangular é invertível. Desse modo, pode-se expressar q1 , . . . , qk como combinação
linear de a1 , . . . , ak . Assim, as equações assumem as seguintes formas, fora do esquema matricial:
a1 = r11 q1 ,
a2 = r12 q1 + r22 q2 ,
a3 = r13 q1 + r23 q2 + r33 q3 , (4.7)
..
.
an = r1n q1 + r2n q2 + · · · + rnn qn .
Fatoração QR Completa
Na fatoração QR completa de A ∈ Rm×n (m ≥ n) acrescentam-se m − n colunas
b Portanto, obtém-se uma matriz Q ortogonal de dimensão m × m. Nesse
ortonormais na matriz Q.
processo, acrescentam-se também, linhas nulas em Rb para se obter a matriz R de dimensão m × n,
e que continua sendo triangular superior. A representação esquemática pode ser vista na Figura
9.
Todas as matrizes possuem uma fatoração QR, e além disso, essa fatoração é única,
conforme mostram os teoremas a seguir.
Teorema 17. Toda matriz A ∈ Rm×n (m ≥ n) possui uma fatoração QR completa e portanto
também possui fatoração QR reduzida.
Teorema 18. Cada matriz A ∈ Rm×n (m ≥ n) de posto completo possui uma única fatoração QR
tal que A = QR com r j j > 0.
Ortogonalização de Gram-Schmidt
Dados a1 , a2 , . . . , podem-se construir vetores q1 , q2 , . . . e entradas ri j por um processo
de ortogonalização sucessiva. E essa ideia é chamada de Ortogonalização de Gram-Schmidt.
O processo funciona da seguinte maneira: no j-ésimo passo, o objetivo é encontrar um
vetor unitário q j ∈ ha1 , a2 , . . . , a j i tal que q j é ortogonal a q1 , . . . , q j−1 . De fato, isso acontece.
Por isso vamos considerar a técnica de ortogonalização vista em (3.1). Dessa equação, tem-se
que:
v j = a j − (qT1 a j )q1 − (qT2 a j )q2 − · · · − (qTj−1 a j )q j−1 (4.8)
é um vetor que satisfaz o que é exigido, exceto que ele ainda não está normalizado. Ao
dividir o vetor por ||v j ||2 , o resultado é o vetor q j desejado.
38 Capítulo 4. Métodos de Fatoração Matricial
Tendo essa ideia em mente, pode-se reescrever as equações (4.7) do seguinte modo:
a1
q1 =
r11
a2 − r12 q1
q2 =
r22
a3 − r13 q1 − r23 q2
q3 = (4.9)
r33
..
.
an − n−1
P
i=1 rin qi
qn =
rnn
Da equação (4.8) é evidente que uma definição apropriada para os coeficientes ri j nos
numeradores de (4.9) é:
ri j = qTi a j (i , j). (4.10)
Neste capítulo é descrito o método dos mínimos quadrados e como as fatorações matrici-
ais são usadas para resolver o problema.
r = b − Ax ∈ Rm
Em geral, o vetor r é diferente de zero. Entretanto, ele pode ser minimizado. E medir
o quão pequeno é o tamanho de r envolve escolher uma norma. Se a norma-2 é escolhida, o
problema vai ter a seguinte forma:
Equações Normais
O modo clássico de resolver os problemas de mínimos quadrados é usando o método de
equações normais.
Se A possui posto completo, é quadrada, simétrica e positiva definida, o método padrão
de se resolver um sistema de equações de dimensão n é a Fatoração Cholesky. Esse método
40 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações
constrói uma fatoração AT A = RT R, onde R é uma matriz triangular superior. Note que se pode
reduzir a equação tal que
RT Rx = AT b.
SVD
Pode-se calcular o SVD da matriz A do seguinte modo:
1. Forme a matriz AT A.
3. Defina Σ uma matriz diagonal não-negativa de dimensão m×n tal que Σ seja a raiz quadrada
de Λ.
y = Pb = U
bUbT b
U
bbΣV T x = U
bUbT b ⇒ ΣV T x = U
b bT b. (5.2)
bT b.
2. Calcule o vetor U
Σw = U
3. Revolva o sitema diagonal b bT b para w.
4. Defina x = Vw.
Nota-se que, enquanto a fatoração QR reduz o problema dos mínimos quadrados para
um sistema de equações triangular, o SVD reduz a um sistema de equações diagonal, o que é
trivialmente resolvido. Se A tem posto completo, o sistema diagonal é não singular.
A equação (5.2) pode ser derivada de equações normais. Se AT Ax = AT b, então
ΣT U
Vb bT U
bbΣV T x = Vb
ΣT U ΣV T x = U
bT b, que implica que b bT b.
Fatoração QR
Aqui está outro método clássico, porém mais moderno, para resolver problemas de
mínimos quadrados. Se tornou popular em meados de 1960. Este método é baseado na fatoração
QR reduzida, vista na seção 4.3. Pelo método de ortogonalização de Gram-Schimidt ou pela
triangulação de Householder (que é mais comum), consegue-se construir a fatoração A = QbR.
b
Seja P = Q bT , dessa forma obtém-se:
bQ
y = Pb = Q
bQbT b.
Q b =Q
bRx bQbT b ⇒ b =Q
Rx bT b. (5.3)
bT b.
2. Calcule o vetor Q
b =Q
3. Resolva o sistema triangular superior Rx bT b para x.
Observe que a equação (5.3) também pode ser derivada de equações normais.
De fato, se AT Ax = AT b, então R
bT Q
bT Q b =R
bRx bT Q b =Q
bT b ⇒ Rx bT b.
42 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações
5.2 Aplicações
As aplicações do problema de mínimos quadrados são de grande importância e ocorrem
em muitas áreas de pesquisa aplicada e engenharia, tais como estatística, fotogrametria, proces-
samento de sinal e controle. Devido ao grande aumento na capacidade de captura automática
de dados, os problemas de mínimos quadrados de grande porte são atualmente rotineiramente
resolvidos.
O problema de mínimos quadrados foi primeiro apresentado e formulado por Gauss para
resolver um problema prático de demarcação de fronteiras para o governo alemão. Existiam im-
portantes razões econômicas e jurídicas para saber exatamente onde as fronteiras se encontravam
entre lotes de terra de propriedade de donos diferentes. Topógrafos tentaram estabelecer esses
limites, medindo certos ângulos e distâncias e, em seguida, a triangulação de pontos de referência
conhecidos. Conforme a população aumentava, se tornava necessário melhorar a precisão da
localização desses pontos de referência conhecidos, tanto por razões econômicas quanto legais.
Assim, pesquisadores mediram muitos ângulos e distâncias entre os pontos de referência e coube
a Gauss compreender como tornar essas medições mais precisas e atualizar a base de dados
desses locais para o governo. Para isso, ele desenvolveu o método de mínimos quadrados.
O problema que Gauss resolveu deve ser periodicamente revisitado. Em 1974, o “The
National Geodetic Survey (NGS)” dos EUA comprometeu-se a atualizar a base de dados ge-
odésico dos EUA, que consistia de cerca de 700.000 pontos. As motivações tinham crescido
para incluir o fornecimento de dados precisos o suficiente para engenheiros civis e planejadores
regionais planejarem projetos de construção e para os geofísicos estudarem o movimento das
placas tectônicas na crosta terrestre (as quais podem se mover até 5 cm por ano). O correspon-
dente problema dos mínimos quadrados foi o maior já resolvido na época: cerca de 2,5 milhões
equações em 400.000 incógnitas. Foi também muito esparso, o que tornou o problema tratável
nos computadores disponíveis em 1978, quando o cálculo foi feito.
Será feita uma breve discussão sobre a formulação do problema. Na verdade, trata-se
de um problema não linear que é resolvido através de uma aproximação por uma sequência
de problemas lineares, na qual cada um deles é um problema de mínimos quadrados linear.
O banco de dados consiste de uma lista de pontos (pontos de referência), cada um marcado
por localização: latitude, longitude, e possivelmente elevação. Por simplicidade, assuma que
a terra é plana e suponha que cada ponto i é rotulado por coordenadas lineares zi = (xi , yi )T .
Para cada ponto é desejável calcular uma correção δzi = (δxi , δyi )T de modo que a localização
correta z0i = (xi0 , y0i )T = zi + δzi coincida com as novas medidas, mais precisas. Estas medidas
incluem as distâncias entre pares selecionados de pontos e ângulos entre o segmento de linha do
ponto i até j e de i até k (Veja a figura 10). Para ver como transformar essas novas medições em
5.2. Aplicações 43
restrições, considere o triângulo na figura 10. Os cantos são identificados pelas suas localizações
(corrigidas), e os ângulos θ e o comprimento L das arestas também são mostrados. A partir desses
dados, é fácil escrever a seguir as restrições com base em identidades trigonométricas simples.
Por exemplo, uma medição precisa de θi leva à restrição
onde cos2 θi é expresso em termos de produtos internos de certos lados do triângulo. Se for
assumido que δzi é pequeno comparado com zi , então será possível linearizar esta limitação da
seguinte forma: multiplicar através do denominador da fração, multiplicar todas as condições
para obter um polinômio de grau 4 em todas as “δ-variáveis” (por exemplo δxi ), e desprezar
todos os termos que contenham mais de uma δ-variável como fator. Isso gera uma equação
em que todas as δ-variáveis aparecem linearmente. Se todas estas restrições lineares de todas
as novas medidas de ângulo e distância juntas forem coletados, será obtido um sistema linear
sobredeterminado de equações para todas as δ-variáveis. O objetivo é encontrar as menores
correções, ou seja, os menores valores de δxi , etc., que estão mais próximos de satisfazer essas
restrições. Este é um problema de mínimos quadrados.
c0 y1
. . . x1m−1
1 x1 x12 x13
c1 y2
1 x2 x22 x23 . . . x2m−1
=
.. .. .. .. .. c2 y3
..
. . . . . . . ..
.. .
. . . xm
1 xm xm xm3
2 m−1
cm−1 ym
Para determinar os coeficientes {ci } para um certo conjunto de dados, pode-se resolver
este sistema de equações, na qual está garantido ser não singular, desde que os pontos {xi } sejam
distintos.
Agora, considere um polinômio de grau n − 1: p(x) = c0 + c1 x + · · · + cn−1 xn−1 para
algum n < m. Esse polinômio será um ajuste de mínimos quadrados aos dados se ele minimizar
a soma dos quadrados dos “afastamentos” (ou desvios) a partir dos dados, isto é, se o polinômio
escolhido de grau n − 1 minimizar:
m
X
|p(xi ) − yi |2
i=1
Pode-se dizer que esta soma dos quadrados acima é equivalente ao quadrado da norma
do resíduo, que é denotada por ||r||22 , para o sistema retangular de Vandermonde a seguir:
y1
. . . x1n−1
1 x1 x12 x13 c0
y2
1 x2 x22 x23 . . . x2n−1 c1
.
.. .. .. .. .. .. . ≈ y3
. . . . . . ..
..
.
. . . xm
1 xm xm xm3
2 n−1
cn−1
ym
Figura 14 – Dados sem perturbação - Grau 4 Figura 15 – Dados sem perturbação - Grau 7
Conforme o grau do polinômio aumenta, ocorre um melhor ajuste aos dados e diminuição
dos resíduos. Pode-se observar que o polinômio de grau 8 apresenta um bom ajuste aos dados
capturando melhor o comportamento sinuoso da função do que os graus anteriores. Já com o
grau 10 verifica-se que o polinômio não acompanha o comportamento da curva original para
os valores extremos. No entanto, o polinômio de grau 12 pode ser considerado como o menor
grau do polinômio encontrado que melhor se ajusta aos dados. Embora os polinômios de graus
maiores, como 17 e 20 pareçam capturar bem o comportamento da função, também precisam
de um maior número de parâmetros a serem estimados pelo método e isso pode acarretar um
super-ajuste aos dados.
46 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações
Figura 16 – Dados sem perturbação - Grau 8 Figura 17 – Dados sem perturbação - Grau 11
Figura 18 – Dados sem perturbação - Grau 12 Figura 19 – Dados sem perturbação - Grau 15
Figura 20 – Dados sem perturbação - Grau 17 Figura 21 – Dados sem perturbação - Grau 18
5.2. Aplicações 47
Em geral em problemas deste tipo, busca-se ajustar polinômios de grau baixo para evitar
problemas de mal condicionamento, isto é, quando o problema se mostra sensível a perturbações
nos dados.
Agora, será incluída uma perturbação nos dados para avaliar como o problema lida com
essa situação. Ou seja, dados os mesmos xi , foram calculados yi + δi , onde δi > 0 é um número
real bem pequeno que foi gerado como um dado vindo de uma distribuição normal padrão. Veja
os novos gráficos nas figuras (de 24 à 35):
Para estes casos, verifica-se que o polinômio de grau 12 apresenta um bom ajuste aos
dados e os polinômios de graus maiores apresentam aproximações muito ruins, principalmente
nos extremos dos intervalos, evidenciando um mal condicionamento do problema apresentado.
É importante comentar que existe uma alternativa para o ajuste polinomial. Não é
necessário ajustar apenas polinômios. Pode-se repetir este mesmo procedimento do exemplo
anterior para outros tipos de funções. A ideia é simples:
Sejam f1 (y), . . . , fn (y) um conjunto de funções independentes, onde o domínio de f é Rk
e a imagem é R. E considere, também, um conjunto de pontos (y1 , b1 ), . . . , (ym , bm ) com yi ∈ Rk e
bi ∈ R. Deseja-se encontrar um melhor ajuste a esses pontos de modo que b = nj=1 x j f j (y). Em
P
48 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações
Figura 26 – Dados com perturbação gaussiana - Figura 27 – Dados com perturbação gaussiana -
Grau 4 Grau 7
Figura 28 – Dados com perturbação gaussiana - Figura 29 – Dados com perturbação gaussiana -
Grau 8 Grau 11
Figura 30 – Dados com perturbação gaussiana - Figura 31 – Dados com perturbação gaussiana -
Grau 12 Grau 15
5.3. Condicionamento e Estabilidade 49
Figura 32 – Dados com perturbação gaussiana - Figura 33 – Dados com perturbação gaussiana -
Grau 17 Grau 18
outras palavras, deve-se escolher x = [x1 , . . . , xn ]T que minimize os resíduos ri ≡ nj=1 x j f j (y)−bi
P
Condicionamento de um problema
Um problema pode ser visto como uma função f : X → Y onde X é um espaço vetorial
normado de dados e Y é também um espaço vetorial normado, só que de soluções. Normalmente
50 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações
f é uma função não linear, mas na maioria das vezes é, pelo menos, contínua. Geralmente, o
interesse do pesquisador está no comportamento de um problema f num determinado ponto
x ∈ X.
Um problema é bem-condicionado quando o problema possui a propriedade de que todas
as pequenas pertubações em x causam apenas pequenas mudanças em f (x). Enquanto que um
problema mal-condicionado é aquele que tem a propriedade de que alguma pequena pertubação
em x causa grandes mudanças em f (x). Observe que o significado das palavras “pequenas” e
“grandes” na discussão acima varia de acordo com a aplicação. As vezes é mais apropriado medir
as pertubações em uma escala absoluta, outras vezes é melhor medi-las em relação à norma do
objeto a ser perturbado. A seguir são definidos número condição absoluto e número condição
relativo.
Para a maioria dos problemas, o limite do supremo na equação 5.4 acima pode ser
interpretado como um supremo sobre todas as pertubações infinitesimais δx, e para facilitar a
leitura, a fórmula é escrita de maneira mais simples:
||δ f ||
κ = sup
b , (5.5)
δx ||δx||
onde δx e δ f são entendidos como infinitesimais.
Se f é diferenciável, pode-se avaliar o número de condição por meio da derivada de f.
∂ fi
Seja J(x) uma matriz cujas entradas i, j são as derivadas parciais ∂x j
avaliadas em x, conhecida
como matriz Jacobiana de f em x. A definição da derivada de primeira ordem, fornece δ f ≈
J(x)δx, com igualdade quando ||δx|| → 0. O número condição absoluto se torna:
κ = ||J(x)||,
b (5.6)
Tanto o número de condição absoluto quanto o número de condição relativo têm suas
utilidades, mas o último é mais importante na análise numérica.
Para problemas de mínimos quadrados lineares, os dados são A uma matriz m × n e b
um vetor de dimensão m. A solução é tanto o vetor de coeficientes x ou o ponto correspondente
y = Ax. Isto define quatro casos de condicionamento a serem estudados: sensibilidade de y a
perturbações em b; sensibilidade de x a perturbações em b; sensibilidade de y a perturbações
em A e sensibilidade de x a perturbações em A. Uma discussão detalhada sobre esses problemas
pode ser encontrada em [1].
Estabilidade de um problema
Seria muito bom se algoritmos numéricos pudessem fornecer as soluções exatas dos
problemas numéricos. Mas, lembre-se que os problemas são contínuos enquanto que os compu-
tadores digitais são discretos, ou seja, isto geralmente não é possível. A noção de estabilidade é
a maneira padrão de caracterizar o que é possível. E ser “possível”, em análise numérica, é ter
ideia do que significa obter a “resposta certa”, mesmo que não seja exata.
Se o problema for mal-condicionado, o objetivo de precisão é excessivamente ambicioso.
Arredondamento dos dados de entrada é inevitável em um computador digital, e mesmo se todos
os cálculos posteriores pudessem ser efetuados perfeitamente, esta perturbação por si só poderia
levar a uma mudança significativa no resultado. Em vez de olhar para a precisão em todos os
casos, a maioria da vezes é mais adequado apontar para a estabilidade.
Um algoritmo pode ser definido como um mapeamento f˜ : X → Y entre os espaços
vetoriais X de dados e Y das soluções. Denote a solução calculada para um sistema de equações
Ax = b por x̃.
Estabilidade
|| f˜(x) − f ( x̃)||
= O( máquina ) (5.10)
|| f ( x̃)||
52 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações
Diz-se que um algoritmo f˜ para um problema f é estável para trás se para cada x ∈ X,
Com relação a estabilidade dos algoritmos para resolver problemas de mínimos quadrados
pode-se verificar os resultados dados pelos teoremas a seguir.
Teorema 19. A solução do problema de mínimos quadrados de posto máximo (5.1) pela Orto-
gonalização de Gram-Schmidt é estável “para trás”.
Teorema 20. A solução do problema de mínimos quadrados de posto máximo (5.1) através do
método de Equações Normais é instável. A estabilidade pode ser alcançada, no entanto, pela
restrição a uma classe de problemas em que κ(A) é uniformemente limitado superiormente ou
(tan θ)
é uniformemente limitado inferiormente, onde κ(A) = σ1 /σn , θ = cos−1 ||b||
||y||
e η = ||A||||x|| .1
η ||Ax||
Teorema 21. A solução do problema de mínimos quadrados de posto máximo (5.1) por SVD é
estável “para trás”.
Detalhes sobre a teoria e os teoremas podem ser obtidos em [1], [8] e [2].
Definição 10. Pode-se associar um conjunto de números reais com os resultados de experimentos
aleatórios, definindo, assim, uma VA (Variável Aleatória), que transforma os pontos do espaço
amostral em pontos da reta real (isto é, números).
1
Esses números se referem ao número condição do problema de mínimos quadrados, descrevendo a sensibilidade
de y e x a perturbações em A e b.
5.4. Regressão Linear Simples e Múltipla 53
Definição 11. A média amostral é a média aritmética dos valores em uma amostra aleatória
n
x1 , x2 , . . . , xn 1 X
x= = xi .
n n i=1
Demonstração.
n
X n
X
(xi − a)2 = (xi − a + x − x)2
i=1 i=1
n
X
= ((xi − x) − (a − x))2
i=1
n
X
= [(xi − x)2 − 2(xi − x)(a − x) + (a − x)2 ]
i=1
n
X
= [(xi − x)2 − 2(xi a − xi x − xa − x2 ) + (a − x)2 ]
i=1
n
X n
X n
X
= (xi − x)2 − 2 (xi a − xi x − xa − x2 ) + (a − x)2
i=1 i=1 i=1
n
X n
X n
X n
X n
X n
X
= 2
(xi − x) − 2[ xi a − xi x − xa − x ]+
2
(a − x)2
i=1 i=1 i=1 i=1 i=1 i=1
:0
n
X Xn
= − n(xa) + n(x )] +
2
2
x)2
(xi − x) − 2[(nx)a
−(nx)x
(a −
i=1 i=1
n
X n
X
= (xi − x) +
2
(a − x)2
i=1 i=1
pode deixar de considerar outros fatores que também afetam y; qual a relação funcional entre y e
x e como se pode estar certo de que se está capturando uma relação entre y e x.
Uma equação simples é:
y = β0 + β1 x + ,
EY = β0 + β1 x. (5.13)
Quando se refere a uma regressão que é linear, significa que a esperança condicional de
Y dado que X = x é uma função linear de x.
Ao escrever E(Y|x) = β0 + β1 x implicitamente se assume a hipótese de que a regressão
de Y em X é linear.
E(Y|x) ≈ β0 + β1 x
Observação 4. Pode ser extremamente improvável que a função verdadeira f (X) seja de fato
linear em X. Em problemas de regressão, f (X) = E(Y|X) tipicamente será não linear e não aditivo
em X mas, representar f (X) por um modelo linear é usualmente conveniente e algumas vezes
uma aproximação necessária. Conveniente porque um modelo linear é fácil de interpretar e é a
aproximação de Taylor de 1a ordem para f (X). Algumas vezes necessário porque se o número
de amostras é pequeno, um modelo linear pode ser tudo que se é capaz de ajustar aos dados sem
“overfitting”.
5.4. Regressão Linear Simples e Múltipla 55
para cada i. Assim, i é o termo de erro para a observação i, uma vez que ele contém todos os
fatores além de xi , que afetam yi .
Baseado nos dados, definem-se as quantidades a seguir.
Médias amostrais:
n n
1X 1X
x= xi e y= yi
n i=1 n i=1
Somas de quadrados:
n
X n
X
S xx = (xi − x) 2
e S yy = (yi − y)2
i=1 i=1
Para qualquer reta y = c + dx, a soma dos quadrados dos resíduos (SQR) é definida
como:
n
X
S QR = (yi − (c + dxi ))2 .
i=1
SQR mede a distância vertical de cada ponto de dado para a linha c + dx e então soma os
quadrados dessas distâncias. As estimativas de β0 e β1 são definidas como os valores a e b tal
que a reta a + bx minimiza SQR. Isto é, as estimativas de mínimos quadrados, a e b satisfazem:
n
X n
X
min (yi − (c + dxi )) = 2
(yi − (a + bxi ))2 .
c,d
i=1 i=1
Para qualquer valor d fixo, o valor de c que dá o valor mínimo pode ser encontrado
escrevendo:
Xn Xn
(yi − (c + dxi )) =
2
((yi − dxi ) − c)2
i=1 i=1
Pelo teorema 22, demonstrado no início desta seção, o valor de c que minimiza essa
soma é:
n
1X
c= (yi − dxi ) = y − dx.
n i=1
= S yy − 2dS xy + d S xx . 2
Para obter o valor de d que minimiza SQR, basta derivar a função quadrática em d e
igualar a derivada a 0, obtendo assim, o mínimo global:
Este valor é de fato um mínimo desde que o coeficiente de d2 é positivo. Portanto, dados
S
os valores c e d obtidos, a = y − cx e b = S xxxy são os valores de c e d que minimizam a SQR.
5.4. Regressão Linear Simples e Múltipla 57
Ao considerar o valor de uma única observação yi (ao invés de sua esperança), quando x1
é fixado em x1i e x2 está fixado em x2i , então é preciso adicionar o componente de erro, i , pois
uma observação particular yi pode desviar da média de todas as observações em x1i e x2i . Assim,
o modelo para yi é:
yi = β0 + β1 x1i + β2 x2i + i
A expressão usando matrizes podem ser expressa de modo mais compacto como:
y = Xβ +
Pode ser visto que a variável y pode ser decomposta em um componente determinístico
Xβ e um componente aleatório .
O objetivo da análise de regressão é estimar os parâmetros β0 , β1 , β2 e a variância de i
com base nos dados da amostra. Para isso, é preciso fazer hipóteses sobre o modelo. Assuma que
os valores de xi1 , xi2 estão fixos em amostragens repetidas e que o único componente aleatório no
modelo é . Isto é, a matriz X é fixa, mas o vetor é aleatório, o qual fornecerá valores diferentes
em amostragens repetidas.
Considere também que cada i é normalmente distribuído com média zero e a variância
comum σ2 , e os i são não correlacionados.
A última hipótese é que o posto da matriz X deve ser igual ao número de parâmetros
a serem estimados (três no caso de duas variáveis independentes) e o número de parâmetros
a serem estimados deve ser menor do que o número de observações na amostra. Desde que o
número de parâmetros a serem estimados deve ser igual ao número de colunas de X, a condição
do posto será satisfeita se os vetores colunas formam um conjunto linearmente independente.
[e1 , e2 , . . . , en ] .
5.4. Regressão Linear Simples e Múltipla 59
y = Xβ + ,
y = Xb
β + e,
β é considerado
Como X e y são conhecidos, eles são considerados constantes, e o vetor b
como uma variável. Busca-se obter um valor particular do vetor b β que minimize eT e. Assim,
β tal que:
deseja-se encontrar o valor de b
∂eT e
= 0,
∂b
β
isto é,
∂eT e
= 0 = −2X T y + 2X T Xb
β,
∂b
β
1 x11 x21 y1
1 . . . 1 βˆ 1 1 . . . 1
1
1 x12 x22 0 y
βˆ1 = x11 x12 . . . x1n .2
x11 x12 . . . x1n . . .
.. .. .. ..
x21 x22 . . . x2n βˆ
2 x21 x 22 . . . x2n
1 x1n x2n yn
β = X T y.
X T Xb
60 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações
Como X T X é uma matriz quadrada k × k, ela é assumida ser não singular e portanto
inversível, assim, pode-se multiplicar ambos os lados das equações normais por (X T X)−1 para
obter:
β = (X T X)−1 X T y.
(X T X)−1 (X T X)b
ou seja,
β = (X T X)−1 X T y.
b
O método de mínimos quadrados pode ser usado para qualquer número de variáveis
independentes contínuas.
A seguir, serão exibidas algumas aplicações envolvendo regressão linear múltipla usando
dados simulados e dados reais.
MSE MAD
Regressão Linear 1.11 0.84
CART 9.871 2.523
MARS 0.996 0.799
Tabela 1 – Dados simulados - função linear
Pode-se comparar o resultado obtido com a regressão múltipla com outras técnicas de
regressão, como o método que trabalha com arvores binárias de regressão, conhecido como
CART e o método MARS, que é uma generalização do método CART. Os resultados desses
métodos foram obtidos do trabalho de [17]. A tabela a seguir mostra os erros MSE (Mean
Squared Error) e MAD (Mean Absolute Deviation) para os modelos estudados. O MSE e o MAD
são calculados como:
n
1X
MSE = (yi − f˜(xi ))2 (5.14)
n i=1
n
1X
MAD = |yi − f˜(xi )| (5.15)
n i=1
onde yi é o valor da resposta no conjunto teste e f˜(xi ) é o valor obtido pelo cálculo da
função ajustada pelo modelo no xi do conjunto teste.
Verifica-se que o modelo capturou bem a associação linear existente entre a variável
resposta e as variáveis explicativas.
Analogamente, será feito o mesmo procedimento anterior para uma função com estrutura
não linear.
Neste exemplo também será gerado um conjunto de dados, porém com uma função não
linear.
MSE MAD
Regressão Linear 796.72 17.73
CART 273.972 11.820
MARS 51.454 5.359
Tabela 2 – Dados simulados - função não linear
Como a função utilizada agora possui uma estrutura fortemente não linear, diferentemente
do exemplo anterior, logicamente o esperado é que o método de regressão linear múltipla não
apresente uma boa aproximação da função.
O modelo obtido com os dados treino foi:
Y = 22.35 + 10.23X1 + 8.40X2 − 11.95X3 + 14.27X4 − 3.34X5 − 34.33X6 − 35.56X7 −
6.24X8 + 2.30X9 − 7.28X10
Neste caso, como esperado, o coeficiente de correlação múltipla obtido foi 0.22, ou seja,
obteve-se um valor mais próximo de zero, indicando a inexistência de uma relação linear entre a
variável dependente Y e o conjunto de variáveis explicativas X.
O resultado encontrado com a regressão múltipla foi comparado com os métodos CART
e MARS, obtidos do trabalho de Ferreira e são exibidos na tabela a seguir.
Como esperado, o desempenho do método de regressão linear não capturou a estrutura
não linear dos dados.
Dados Reais
Nome Descrição
CRIM Taxa criminal
ZN Porcentagem de terrenos divididos em lotes
INDUS Porcentagem de negócios não varejistas
CHAS 1 se a casa é próxima ao Rio Charles, 0 caso contrário
NOX Concentração de oxido nítrico (partes por cada 10 milhões)
RM Número médio de quartos
AGE Porcentagem de casas construídas antes de 1940
DIS Distância ponderada a 5 centros comerciais de Boston
RAD Índice de acessibilidade a estradas nacionais
TAX Taxa de impostos
PTRATIO Proporção professor/aluno
B Proporção de negros
LSTAT Proporção de população de baixa posição social
MV Valor médio das casas em milhares de dolares
Tabela 3 – Variáveis Aleatórias
MSE MAD
Regressão Linear 33.31 4.76
CART 69.354 5.001
MARS 41.515 5.405
Tabela 4 – Comparação entre os métodos - Dados reais
Com os resultados obtidos, verifica-se que a regressão linear teve um bom desempenho
comparada aos outros métodos de regressão. Ressalta-se que este modelo é o modelo linear mais
simples a ser estudado, fácil de interpretar e barato computacionalmente.
65
Referências
3 BJöRCK, A. Numerical Methods for Least Squares Problems. S.I.A.M.: Society for
Industrial and Applied Mathematics, 1996. Citado 6 vezes nas páginas 2, 27, 33, 35, 38 e 65.
4 ELDEN, L. Matrix Methods in Data Mining and Pattern Recognition. Philadelphia: S.I.A.M.,
2007. Citado 4 vezes nas páginas 2, 25, 27 e 35.
5 MALAJOVICH, G. Algebra Linear. UFRJ: UFRJ, 2010. Citado 5 vezes nas páginas 2, 5,
25, 35 e 38.
7 DATTA, B. N. Numerical Linear Algebra and Applications. SIAM: Brooks/Cole Pub., 1995.
Citado 3 vezes nas páginas 2, 23 e 27.
10 LIMA, E. L. Álgebra Linear. IMPA: SMB, 2009. Citado 4 vezes nas páginas 2, 5, 7 e 12.
11 LIMA, E. L. Analise Real - Vol. 1. Rio de Janeiro - IMPA: SMB, 2010. Citado na página 2.
12 LIMA, E. L. Analise Real - Vol. 2. Rio de Janeiro - IMPA: SMB, 2013. Citado 2 vezes nas
páginas 2 e 5.
13 STRANG, G. Linear Algebra and Its Applications. United States of America: Thomson
Brooks/Cole„ 2006. Citado 4 vezes nas páginas 2, 6, 25 e 38.