Você está na página 1de 90

Universidade Federal Fluminense

Instituto de Ciências Exatas

Curso de Matemática

Problemas de Mínimos Quadrados: Resolução e


Aplicações

Ana Beatriz Rodrigues de Andrade Graça

Volta Redonda

Julho de 2016
Universidade Federal Fluminense

Instituto de Ciências Exatas


Curso de Matemática

Problemas de Mínimos Quadrados: Resolução e


Aplicações

Trabalho de Conclusão de Curso na área


de conhecimento Matemática Aplicada,
apresentado ao Curso de Matemática, ICEx, da
Universidade Federal Fluminense, como parte
dos requisitos necessários à obtenção do título
de Bacharel em Matemática.

Ana Beatriz Rodrigues de Andrade Graça

Orientador: Profa . Dra . Marina Sequeiros Dias de


Freitas

Volta Redonda
Julho de 2016
Aos diversos professores da UFF
e os que participaram da banca da minha monografia,
principalmente a minha professora e orientadora: Marina Sequeiros
que fez a grande diferença para a realização deste trabalho.
A eles, a minha homenagem.
Agradecimentos

Os agradecimentos principais são direcionados a Deus, que iluminou o meu trajeto,


com farol alto, durante esse percurso. Deu-me força e coragem para seguir em frente e pisar
fundo nas subidas mais ingrimes. Propôs um novo mundo de possibilidades. Ele permitiu
que tudo isso acontecesse, não somente nesses anos, como universitária, mas em todos os
momentos de minha vida. À minha família, por sua capacidade de acreditar e investir em mim.
À minha mãe, Simone, obrigada pelos seus cuidados, sua imensa dedicação e incentivo. Nas
horas de desânimo e cansaço, agradeço pelos conselhos que me deram um gás para continuar
trilhando por este caminho sinuoso. Ao meu pai, Ernani, apesar de todas as dificuldades e
bloqueios diferenciais, sua presença significou segurança e certeza de que não estou sozinha
nessa jornada. Aos dois, obrigada pelo carinho, paciência e capacidade de me trazerem paz
na correria acelerada de cada semestre. Em especial, agradeço aos membros da banca: minha
orientadora e vice-chefe do departamento, professora e doutora Marina Sequeiros que dedicou
horas do seu tempo emprestando-me seus ouvidos com paciência e deu-me suporte o tempo
todo. Agradeço suas correções, incentivos e amizade; Ao chefe de departamento, professor e
doutor Ivan Aguilar, agradeço pela revisão e correção ortográfica, convívio, amizade, conselhos
e suporte; Ao professor e doutor Honório Joaquim por contagiar a todos com sua alegria, bom
humor, orientações, apoio e amizade. Agradeço aos meus amigos: Aline e Lucas, pelas horas
que passamos estudando Análise. O espaço aqui é pouco para agradecer a cada um em particular.
Por isso, no geral, agradeço a todos os professores que me proporcionaram o conhecimento e,
além disso, manifestaram caráter e afetividade. A todos aqueles que, de alguma forma, estiveram
e estão próximos de mim, fazendo esta vida valer cada vez mais a pena. Até mesmo os que estão
longe, abasteceram e ainda abastecem meu coração de sentimentos bons com certos aditivos.
Agradeço ao Instituto de Ciências Exatas (ICEx) da Universidade Federal Fluminense
(UFF) e a todos que fazem parte corpo docente e discente que, direta ou indiretamente, contribuí-
ram para o meu desempenho.
“Celebre as vitórias.
Compartilhe o sucesso, mesmo pequenas conquistas, com pessoas queridas.
Grite, chore, encha-se de energia para os desafios seguintes.”
(Buscando meu ‘Eu’ através das mensagens, Maria Elena, 68)
Resumo
O problema de mínimos quadrados é um problema computacional de primordial importância. O
originalmente surgiu da necessidade de se ajustar um modelo matemático linear para observações
dadas com o propósito de reduzir a influência de erros nas observações. Trata-se de uma técnica
de otimização matemática que procura encontrar o melhor ajuste para um conjunto de dados
através da minimização da soma dos quadrados da diferença entre os dados observados e
os valores estimados (tais diferenças são chamadas resíduos). Este tipo de problema é muito
frequente em ciências experimentais; em problemas geodésicos, como o formulado por Gauss
para resolver um problema de demarcação de fronteiras para o governo alemão; problemas
estatísticos; processamentos de sinais; fotogrametria; entre outros. Na linguagem da Álgebra
Linear, o problema de mínimos quadrados pode ser definido como a solução de um sistema de
equações Ax = b sobredeterminado, isto é, com mais equações do que incógnitas. Para resolver
esse problema, requer-se conhecimento de diferentes áreas, como por exemplo: alguns conceitos
de Álgebra Linear; probabilidade; estatística para analisar os dados; ciência da computação
para implementação eficiente de algoritmos e programação matemática para formular e resolver
problemas de otimização. Entre as soluções apresentadas para resolver o sistema de equações,
foram estudados: o método de equações normais; decomposição em valores singulares e fatoração
QR. Para exemplificar, foram feitas aplicações no ajuste de curvas e na área de Estatística, em
exemplos de regressão linear simples e múltipla, além de discutir brevemente sobre os problemas
de condicionamento e estabilidade.

Palavras-chave: Mínimos Quadrados. Ajuste polinomial. Regressão Linear. Métodos de Fatora-


ção Matricial.
Lista de ilustrações

Figura 1 – Uma projeção oblíqua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19


Figura 2 – Uma projeção ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Figura 3 – Perpendicular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Figura 4 – Formulação do problema de mínimos quadrados em termos da projeção
ortogonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Figura 5 – Interpretação Geométrica do SVD aplicada em uma esfera de raio igual a 1. 28
Figura 6 – SVD Reduzido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Figura 7 – SVD Completo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Figura 8 – QR Reduzido (m > n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Figura 9 – QR Completo (m > n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Figura 10 – Restrições para atualizar um banco de dados geodésicos. . . . . . . . . . . 43
Figura 11 – f (x) = x sen xπ
5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Figura 12 – Dados sem perturbação - Grau 1 . . . . . . . . . . . . . . . . . . . . . . . 45
Figura 13 – Dados sem perturbação - Grau 2 . . . . . . . . . . . . . . . . . . . . . . . 45
Figura 14 – Dados sem perturbação - Grau 4 . . . . . . . . . . . . . . . . . . . . . . . 45
Figura 15 – Dados sem perturbação - Grau 7 . . . . . . . . . . . . . . . . . . . . . . . 45
Figura 16 – Dados sem perturbação - Grau 8 . . . . . . . . . . . . . . . . . . . . . . . 46
Figura 17 – Dados sem perturbação - Grau 11 . . . . . . . . . . . . . . . . . . . . . . . 46
Figura 18 – Dados sem perturbação - Grau 12 . . . . . . . . . . . . . . . . . . . . . . . 46
Figura 19 – Dados sem perturbação - Grau 15 . . . . . . . . . . . . . . . . . . . . . . . 46
Figura 20 – Dados sem perturbação - Grau 17 . . . . . . . . . . . . . . . . . . . . . . . 46
Figura 21 – Dados sem perturbação - Grau 18 . . . . . . . . . . . . . . . . . . . . . . . 46
Figura 22 – Dados sem perturbação - Grau 20 . . . . . . . . . . . . . . . . . . . . . . . 47
Figura 23 – Dados sem perturbação - Grau 22 . . . . . . . . . . . . . . . . . . . . . . . 47
Figura 24 – Dados com perturbação gaussiana - Grau 1 . . . . . . . . . . . . . . . . . . 47
Figura 25 – Dados com perturbação gaussiana - Grau 2 . . . . . . . . . . . . . . . . . . 47
Figura 26 – Dados com perturbação gaussiana - Grau 4 . . . . . . . . . . . . . . . . . . 48
Figura 27 – Dados com perturbação gaussiana - Grau 7 . . . . . . . . . . . . . . . . . . 48
Figura 28 – Dados com perturbação gaussiana - Grau 8 . . . . . . . . . . . . . . . . . . 48
Figura 29 – Dados com perturbação gaussiana - Grau 11 . . . . . . . . . . . . . . . . . 48
Figura 30 – Dados com perturbação gaussiana - Grau 12 . . . . . . . . . . . . . . . . . 48
Figura 31 – Dados com perturbação gaussiana - Grau 15 . . . . . . . . . . . . . . . . . 48
Figura 32 – Dados com perturbação gaussiana - Grau 17 . . . . . . . . . . . . . . . . . 49
Figura 33 – Dados com perturbação gaussiana - Grau 18 . . . . . . . . . . . . . . . . . 49
Figura 34 – Dados com perturbação gaussiana - Grau 20 . . . . . . . . . . . . . . . . . 49
Figura 35 – Dados com perturbação gaussiana - Grau 22 . . . . . . . . . . . . . . . . . 49
Figura 36 – Reta que melhor se ajusta a esse conjunto de pontos . . . . . . . . . . . . . 55
Figura 37 – Plano que melhor se ajusta a esse conjunto de pontos . . . . . . . . . . . . 57
Lista de tabelas

Tabela 1 – Dados simulados - função linear . . . . . . . . . . . . . . . . . . . . . . . 61


Tabela 2 – Dados simulados - função não linear . . . . . . . . . . . . . . . . . . . . . 62
Tabela 3 – Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Tabela 4 – Comparação entre os métodos - Dados reais . . . . . . . . . . . . . . . . . 63
Lista de abreviaturas e siglas

FRP Função de Regressão Populacional

L.D. Linearmente Dependente

L.I. Linearmente Independente

MQO Mínimos Quadrados Ordinários (ou Método dos Mínimos Quadrados )

MAD Mean Absolute Deviation (Desvio Absoluto Médio)

MSD Mean Squared Deviation (Desvio Quadrático Médio)

MSE Mean Squared Error (Erro Quadrático Médio)

ON Ortonormal

SQR Soma dos Quadrados dos Resíduos

SVD Decomposição em Valores Singulares

VA Variável Aleatória
Lista de símbolos

Im(A) Imagem da matriz A

N(A) Espaço Nulo da matriz A

In Matriz Identidade de dimensão n × n

AT Matriz A transposta

A−1 Matriz A inversa

v Vetor Coluna n-dimensional


Sumário

1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3 Revisão de Álgebra Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.1 Vetores e Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.2 Normas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4 Métodos de Fatoração Matricial . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.1 Equações Normais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2 Decomposição em Valores Singulares (SVD) . . . . . . . . . . . . . . . . . . 27
4.3 Fatoração QR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5 Métodos de Mínimos Quadrados e Aplicações . . . . . . . . . . . . . . . . . 39
5.1 O Método de Mínimos Quadrados . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.3 Condicionamento e Estabilidade . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.4 Regressão Linear Simples e Múltipla . . . . . . . . . . . . . . . . . . . . . . . 52
6 Conclusões e Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . 65

Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
1

1 Introdução

Em 1809, Carl Friedrich Gauss (1777-1855) publicou um artigo no Werke, 4, 1-93 1 ,


demonstrando que a melhor maneira de determinar um parâmetro desconhecido de uma equação
de condições é minimizando a soma dos quadrados dos resíduos (SQR). Mais tarde, este método
foi chamado de Mínimos Quadrados.
Em termos matriciais, seja A uma matriz de dimensão m × n e um vetor b ∈ Rm . O
objetivo é encontrar um vetor x ∈ Rn tal que Ax é a melhor aproximação para b, ou seja, obter
um x que minimize ||Ax − b||2 , onde || · ||2 é norma vetorial euclidiana. Se m = n e A é uma
matriz não singular, a resposta é simples: x = A−1 b. Mas, se m > n então há mais equações do
que variáveis, o problema é conhecido como sobredeterminado e geralmente nenhum x satisfaz
Ax = b exatamente. Ocasionalmente, encontram-se problemas indeterminados, onde m < n.
Neste trabalho serão estudados apenas os problemas mais comuns: os casos sobredeterminados.
Para resolver os sistemas lineares Ax = b, são utilizados os seguintes métodos de fatoração
matricial: Equações Normais; Decomposição em Valores Singulares (SVD) e QR.
As equações normais são as mais utilizadas (especialmente em Estatística) para calcular
a solução de mínimos quadrados. O sistema é não singular se A tem posto completo e, nesse
caso, existe a solução de mínimos quadrados e é uma solução única. O método padrão de resolver
tal sistema é a fatoração de Cholesky, que decompõe uma matriz A em duas outras matrizes L e
LT , onde L é uma matriz inferior com elementos positivos na diagonal principal. A solução desse
sistema de equações normais dá o resultado desejado para o problema de mínimos quadrados.
A SVD é uma fatoração matricial de grande importância teórica e prática para tratar
o problema de mínimos quadrados. Essa decomposição, atualmente, também é a principal
ferramenta em inúmeras áreas de aplicação, tais como processamento de sinal e processamento
de imagem, teoria de controle, reconhecimento de padrões, análise de séries temporais, entre
outras.
A Fatoração QR é uma fatoração de uma matriz A em um produto de uma matriz
ortogonal Q e uma matriz triangular R. Essa é uma das fatorações mais importantes da álgebra
linear numérica. Esses três métodos de fatoração de matrizes serão utilizados na resolução dos
problemas de mínimos quadrados que serão vistos nas aplicações apresentadas.
Neste trabalho, também será abordado um pouco sobre o condicionamento de problemas
de mínimos quadrados e a estabilidade dos algoritmos. Dentre as aplicações, será exibido o
problema formulado por Gauss, o ajuste polinomial de curvas e a aplicação do método em
estatística, conhecido como regressão linear simples e múltipla.

1
https://archive.org/stream/werkecarlf04gausrich# page/n1/mode/2up ou https://archive.org/details/werkecarlf04gausrich
2 Capítulo 1. Introdução

As definições e resultados discutidos no decorrer do trabalho são válidos para o conjunto


dos números reais e complexos. Quando se considera o caso complexo, há algumas alterações
que não serão mencionadas ao longo dos textos. Neste trabalho, o foco é aplicar o problema
de mínimos quadrados para casos no conjunto dos reais. Por isso, não serão feitas observações
sobre números complexos.
Os capítulos são organizados da seguinte maneira: os dois primeiros capítulos foram
reservados para introduzir o tema do trabalho e comentar sobre os objetivos. No capítulo 3 é
feita uma revisão de alguns conceitos de álgebra linear, apresentação das principais definições
e resultados envolvendo matrizes e vetores ortogonais, normas de vetores e de matrizes que
serão usados nos capítulos seguintes. No capítulo 4 são apresentados, em detalhes, três métodos
de fatoração matricial. São eles: equações normais; SVD e a Fatoração QR. Já no capítulo 5,
é introduzida a ideia do método de mínimos quadrados, mostrando como resolvê-los usando
as fatorações aprendidas e, também é dado o passo a passo dessas fatorações. Nesta etapa,
discute-se brevemente o condicionamento de problemas de mínimos quadrados e a estabilidade
dos algoritmos. Além disso, discutem-se algumas aplicações. Por fim, o capítulo 6 é feita uma
análise do comportamento dos métodos descritos nas seções anteriores. Assim, conclui-se o
trabalho expondo os resultados obtidos e encerra-se mostrando os trabalhos futuros.
Uma das principais referências usadas neste texto é [1], utilizado para introduzir conceitos
necessários, juntamente com exemplos e algumas aplicações. Podem-se encontrar definições
semelhantes em [2], [3], [4], [5], [6], [7], [8], [9].
Alguns conceitos de básicos Álgebra Linear e outras definições podem ser vistos em
[10], [11], [12], [13], [14] e [15], [16].
Para regressão linear, pode-se tomar como referência [17], [18], [19] e [20].
Sobre inferência estatística e definições de probabilidade e estatística básica pode-se
consultar [21] e [22].
3

2 Objetivos

O objetivo principal deste trabalho é resolver um sistema de equações Ax = b sobre-


determinado (isto é, com mais equações do que incógnitas) usando mínimos quadrados. Para
resolver esse sistema, estudam-se os métodos de equações normais, a SVD e a Fatoração QR.
Como aplicações do método, pretende-se estudar o ajuste polinomial de curvas e a regressão
linear simples e múltipla, além de discutir brevemente sobre condicionamento do problema e
estabilidade dos algoritmos.
5

3 Revisão de Álgebra Linear

Neste capítulo é feita uma breve revisão de alguns conceitos de Álgebra Linear que serão
indispensáveis no decorrer do trabalho.
Algumas definições e resultados importantes da teoria são introduzidas. Para mais
detalhes, veja [1], [2], [5], juntamente com os livros de Álgebra Linear: [14], [10] e Análise Real:
[12].

3.1 Vetores e Matrizes

Produto Interno
As definições a seguir se encontram no livro de Álgebra Linear [10] e do livro Análise
Real [12].
Um produto interno é uma função que associa a cada par de vetores x, y do espaço
vetorial um número real denotado por hx, yi, chamado produto interno de x por y.
Neste trabalho, o produto interno é definido do seguinte modo: considere x, y dois vetores
colunas de Rm , então,
Xm
x y=
T
xi yi
i=1

Para quaisquer x, y, z pertencentes ao espaço vetorial e α ∈ R um escalar, tem-se as


propriedades a seguir:
Bilinearidade:

hx, y + zi = hx, yi + hx, zi


hαx, yi = αhx, yi

Segue-se que hx + y, zi = hx, zi + hy, zi e hx, αyi = αhx, yi.


Positividade: hx, xi > 0 se x , 0.
Como h0, xi = h0 + 0, xi = h0, xi + h0, xi, segue-se que h0, xi = hx, 0i = 0 para todo x
pertencente ao espaço vetorial.
Resulta da positividade que se hx, yi = 0 para todo y pertencente ao espaço vetorial,
então x = 0. Com efeito, se fosse x , 0 teríamos hx, yi , 0 pelo menos quando x = y.
Comutatividade (simetria): hx, yi = hy, xi.
6 Capítulo 3. Revisão de Álgebra Linear

Note que se x, y pertencentes ao espaço vetorial são vetores tais que hx, zi = hy, zi para
todo z pertencente ao espaço vetorial então x = y. Com efeito, isto implica que hx − y, zi = 0
para todo z pertencente ao espaço vetorial, logo x − y = 0 e x = y.
O comprimento euclidiano de x, denotado por ||x||, é definido como
X 2 1/2
 n 

||x|| = xT x =  |xi |  .
i=1

O cosseno do ângulo α entre x e y também pode ser expresso em termos do produto


interno:
xT y
cos(α) = , x, y , 0
||x||||y||

Vetores Ortogonais

Definição 1. Um par de vetores x e y são ortogonais se xT y = 0. Isto significa que eles formam
um ângulo reto entre si, em Rm . Dois conjuntos de vetores X e Y são ortogonais (ou X é ortogonal
a Y) se todo x ∈ X é ortogonal a todo y ∈ Y.

Um conjunto S de vetores diferentes de zero é ortogonal se os seus elementos são


ortogonais aos pares, isto é, se para x, y ∈ S , x , y ⇒ xT y = 0. Um conjunto de vetores é
ortonormal (ON) se é ortogonal e, além disso, todo x ∈ S possui ||x|| = 1.
A demonstração do Teorema 1 a seguir pode ser encontrada de duas maneiras diferentes
em [13] e [1].

Teorema 1. Os vetores de um conjunto ortogonal S são linearmente independentes.

Demonstração. Se os vetores em S não são independentes, então algum vk ∈ S pode ser expresso
como uma combinação linear de outros membros v1 , ..., vn ∈ S ,
Xn
vk = ci vi ,
i=1
i,k

desde que vk , 0, vk .vk = ||vk ||2 > 0. Usando a bilinearidade de produto interno e a
ortogonalidade de S , calculamos
Xn
vk .vk =
T
ci vTk vi = 0,
i=1
i,k

o que contradiz a suposição de que os vetores em S são diferentes de zero.




Como corolário do Teorema 1 acima, conclui-se que, se um conjunto ortogonal S ⊆ Rm


contém m vetores, então é uma base para Rm .
3.1. Vetores e Matrizes 7

Componentes de um vetor
Produtos internos podem ser usados para decompor vetores arbitrários em componentes
ortogonais. Por exemplo, sejam {q1 , q2 , . . . , qn } um conjunto ON e v um vetor arbitrário. A
quantidade qTj v é um escalar.
Pode-se utilizar esses escalares como coordenadas em uma expansão, obtendo o vetor

r = v − (qT1 v)q1 − (qT2 v)q2 − · · · − (qTn v)qn (3.1)

Note que este vetor é ortogonal a {q1 , q2 , . . . , qn }, pois

qTi r = qTi v − (qT1 v)(qTi q1 ) − (qT2 v)(qTi q2 ) − · · · − (qTn v)(qTi qn ),

onde qTi q j = 0, para i , j.


Assim,
qTi r = qTi v − (qTi v)(qTi qi ) = 0.

Portanto, v pode ser decomposto em n + 1 componentes ortogonais:


m
X m
X
v=r+ (qTi v)qi =r+ (qi qTi )v.
i=1 i=1

Nesta decomposição, r é a parte de v ortogonal ao conjunto de vetores {q1 , q2 , . . . , qn },


ou, de modo equivalente, ao subespaço gerado por este conjunto de vetores, e (qTi v)qi é a parte
de v na direção de qi .
Se {qi } é uma base para Rm , então n deve ser igual a m e r deve ser o vetor nulo, assim, v
é completamente decomposto em m componentes ortogonais nas direções de qi :
m
X m
X
v= (qTi v)qi = (qi qTi )v.
i=1 i=1

Posto de uma Matriz


As definições a seguir podem ser encontradas nos livros [10] e [1].
O posto coluna de uma matriz é a dimensão do seu espaço coluna. E, analogamente,
pode-se definir o posto linha de uma matriz como sendo a dimensão do espaço gerado por suas
linhas.
O posto linha é sempre igual ao posto coluna1 . Assim, esse número será mencionado
simplesmente como o posto de uma matriz.
Pode-se, então, definir o posto de uma matriz como o número máximo de linhas, ou de
colunas L.I (Linearmente Independentes) dessa matriz, mesmo quando a matriz é quadrada.
1
Esse é um corolário da decomposição em valores singulares, que será discutido na seção 4.2.
8 Capítulo 3. Revisão de Álgebra Linear

Uma matriz m × n de posto completo é uma matriz que tem o máximo possível do posto,
ou seja: o mínimo de m ou n. Isto significa que uma matriz de posto completo com m ≥ n tem
que ter n colunas L.I.

Teorema 2. Uma matriz A ∈ Rm×n com m ≥ n tem posto completo se, e somente se, ela não
mapeia dois vetores distintos para um mesmo vetor.

A demonstração do teorema 2 pode ser encontrada em [1].

Multiplicação de Matrizes
As definições e os exemplos a seguir podem ser encontrados em [1].
Seja x = (x j ) um vetor coluna de dimensão n e seja A = (ai j ) uma matriz de tamanho
m × n. O produto de A por x resulta no vetor coluna b = (bi ) = Ax, donde b ∈ Rn . Note que
n
X
bi = ai j x j , i = 1, . . . , m. (3.2)
j=1

• bi é a i-ésima entrada de b,

• ai j corresponde à entrada i, j de A (i-ésima linha, j-ésima coluna),

• x j é a j-ésima entrada de x.

Uma matriz multiplicada por um vetor

Seja A j , j ∈ {1, . . . , n}, a j-ésima coluna de A, um vetor de dimensão m, ou seja, com m


entradas. Dessa forma, a equação (3.2) pode ser rescrita como a combinação linear das colunas
de A, isto é:
Xn
b = Ax = x j A j. (3.3)
j=1

A equação (3.3) pode ser apresentada esquematicamente como:


         
 b1           
     x1       
 b2           
..  =  A1 A2 . . . An   x2
          
 = x  A1  + x  A2  + · · · + x  An 
.   ..

1 2 n
    .
  
 
 
 
 
 
         
           
    xn      
bm

Observe que da equação (3.2) para equação (3.3) não aconteceu nada além de uma ligeira
alteração na notação.
3.1. Vetores e Matrizes 9

Exemplo 1 (Matriz de Vandermonde). Considere uma sequência de números {x1 , x2 , . . . , xm }.


Se p e q são polinômios de grau < n e α é um escalar, então p + q e αq também são polinômios
de grau < n. Além disso, os valores destes polinômios nos pontos xi satisfazem as propriedades
lineares a seguir:

(p + q)(xi ) = p(xi ) + q(xi )


(αp)(xi ) = α(p(xi )).

Portanto, o mapeamento dos vetores de coeficientes dos polinômios p de grau < n


para vetores (p(x1 ), p(x2 ), . . . , p(xm )) de valores polinomiais amostrados é linear. Qualquer
mapeamento linear pode ser expresso como a multiplicação por uma matriz.
Na verdade, é expresso por uma matriz de Vandermonde de dimensão m × n:

. . . x1n−1
 
 1 x1 x12 x13 
 
 1 x2 x22 x23 . . . x2n−1 
A =  .. .. .. .. .. ..
 .
. . . . . .
 
 
. . . xm

1 xm xm xm3
2 n−1

Se c é o vetor coluna dos coeficientes de p,


 
 c0 
 
 c1 
 
c =  c2  , p(x) = c0 + c1 x + c2 x2 + · · · + cn−1 xn−1 ,
 . 
 .. 


cn−1

então o produto Ac dá os valores polinomiais amostrados. Ou seja, para cada i de 1 até


m, tem-se:
(Ac)i = c0 + c1 xi + c2 xi2 + · · · + cn−1 xin−1 = p(xi ) (3.4)

Nesse exemplo, está claro que o produto matriz-vetor Ac não precisa ser pensado como
m somatórios escalares distintos, cada um dando uma combinação linear diferente das entradas
de c, como (3.2) pode sugerir. Ao invés disso, A pode ser vista como uma matriz de colunas,
cada uma com valores amostrados de um monômio ,
 
 
A =  1 X X 2 . . . X n−1  ,
 
(3.5)
 

e o produto Ac deve ser entendido como a soma de um único vetor na forma (3.3), que
fornece uma combinação linear destes monômios, Ac = c0 + c1 x + c2 x2 + · · · + cn−1 xn−1 = p(x).
10 Capítulo 3. Revisão de Álgebra Linear

Uma matriz multiplicada por uma matriz

Para o produto de uma matriz A por uma matriz C, B = AC, cada coluna de B é uma
combinação linear das colunas de A. Para deduzir este fato, considere inicialmente a fórmula
usual para produto de matrizes. Considere a matriz A de dimensão l × m e a matriz C de dimensão
m × n. Assim, B necessariamente deve possuir dimensão l × n. Suas entradas são definidas por
m
X
bi j = aik ck j . (3.6)
k=1

Em termos de colunas, tem-se:


   
     
    
 


     C 1 C 2 . . . C n 
 B B2 . . . Bn  =  A1 A2 . . . An    ,
 1 
 

     
     
    

onde aik , bi j e ck j são as entradas das matrizes A, B e C, respectivamente.


A equação (3.6) é denotada da seguinte forma:

m
X
B = Ac j =
j
ck j Ak . (3.7)
k=1

Portanto, B j é uma combinação linear das colunas Ak com coeficientes ck j .

Exemplo 2 (Produto Exterior). Este é um produto de um vetor-coluna u, de dimensão m, com


um vetor-linha v cuja dimensão é n. O resultado é uma matriz m × n de posto 1.

  v1 u1 . . . vn u1
     
   
i    . ..
 =  ..
  h 
 u  v1 v2 . . . vn =  v1 u v2 u . . . vn u .  .
     
v1 um . . . vn un

As colunas são sempre multiplicadas pelo mesmo vetor, chamado de u, e igualmente, as


linhas são multiplicadas pelo mesmo vetor, denotado por v.

Exemplo 3. Considere B = AU, onde U é uma matriz triangular superior cuja dimensão é n × n
com entradas ui j = 1 se i ≤ j e ui j = 0 se i > j. Pode-se escrever esse produto da seguinte forma:
   
   
  1 . . . 1 
     
  
. . . ..  .
    
 B1 B2 . . . Bn  =  A1 A2 . . . An   . 
    

1
    
   
   
3.1. Vetores e Matrizes 11

Agora, a equação (3.7) é dada por:


j
X
B j = Au j = Ak . (3.8)
k=1

Isto significa que a j−ésima coluna de B é a soma das primeiras j colunas de A.

Núcleo e Imagem de uma matriz


Imagem

Seja A uma matriz m × n, correspondendo a uma aplicação linear de Rn em Rm .

Definição 2. A imagem de A é o espaço

Im(A) = {Au : u ∈ Rn }.

Note que Im(A) ⊂ Rm . Pode-se, também, ver a Im(A) como o espaço das colunas da
matriz A, conforme mostra o teorema 3.

Teorema 3. Im(A) é o espaço gerado pelas colunas de A.

Demonstração. Por (3.3) qualquer Ax é uma combinação linear das colunas de A. Por outro lado,
qualquer vetor y no espaço gerado pelas colunas de A pode ser escrito como uma combinação
linear das colunas, y = nj=1 x j A j . Formando um vetor x com os coeficientes de x j , obtém-se
P

y = Ax, e, assim, y está na imagem de A. 

A imagem de uma matriz A também pode ser chamada de espaço-coluna de A.

Núcleo

O núcleo de uma matriz A é denotado por N(A).


Para uma transformação linear dada como uma matriz A, o núcleo é simplesmente o
conjunto de soluções da equação Ax = 0, onde x e 0 são interpretados como vetores coluna. A
dimensão do espaço nulo de A é denominada nulidade de A.

Definição 3. O núcleo de A é o espaço

N(A) = {u : Au = 0}

Note que N(A) ⊂ Rn . Se o produto interno canônico é assumido, pode-se mostrar que o
núcleo de A é o espaço dos vetores ortogonais a todas as linhas de A.
12 Capítulo 3. Revisão de Álgebra Linear

Matriz Inversa
Considere In a matriz identidade n × n. Tem-se In = [δi j ], onde δi j é o símbolo de
Kronecker: δi j = 0 se i , j e δii = 1. Quando não houver ambiguidade, será simplesmente escrito
I em vez de In .

Definição 4. Uma matriz A chama-se invertível ou não-singular quando é quadrada de posto


completo. Qualquer matriz A quadrada não-singular possui uma única matriz A−1 , chamada a
inversa de A, tal que A−1 A = AA−1 = I.

O teorema a seguir fornece uma série de condições equivalentes quando a matriz é


quadrada não-singular.

Teorema 4. Para A ∈ Rm×m

(a) A possui uma inversa A−1 ,

(b) Im(A) = m,

(c) Im(A) = Rm ,

(d) N(A) = {0},

(e) 0 não é um autovalor de A,

(f) 0 não é um valor singular de A,

(g) det(A) , 0.

A demonstração do teorema 4 acima pode ser encontrada facilmente nos livros de Álgebra
Linear, como por exemplo [10], [14] e [16].
A seguir, enuncia-se o Teorema de Binet, que será utilizado em uma demonstração na
seção 4.2 sobre SVD.

Teorema 5 (de Binet). O determinante do produto de duas matrizes quadradas de mesma ordem
é igual ao produto dos determinantes destas matrizes, ou seja, det(AB) = det(A) det(B), onde
A, B são matrizes de ordem n.

Para mais detalhes sobre a demonstração do teorema 5, veja a página 219 do livro [14].

Matriz Simétrica

Definição 5. Uma matriz A ∈ Rn×n é chamada de simétrica se A = AT . E se A = −AT , a matriz é


antisimétrica.
3.1. Vetores e Matrizes 13

Matriz Transposta
Seja A = (ai j ) ∈ Rm×n . A matriz transposta de A é a matriz AT = (a ji ), onde AT ∈ Rn×m .
Ou seja:
 a1,1 a1,2 . . . a1,n  a1,1 a2,1 . . .
   
am,1 
   
 a2,1 a2,2 . . . a2,n  a1,2 a2,2 . . . am,2 
A =  . .. .. ..  ⇔ AT
=  . .. . . .. 
 ..  ..

. . .  . . . 

   
am,1 am,2 . . . am,n a1,n a2,n . . . am,n

Algumas propriedades sobre matrizes simétricas e suas respectivas demonstrações são


dadas. Considere A, B ∈ Rm×n e c ∈ R uma constante qualquer.

 T
1. AT = A,

2. (A + B)T = AT + BT ,

3. (cA)T = cAT ,

4. (AB)T = BT AT ,

5. (AT )−1 = (A−1 )T , se A é uma matriz não singular,

Para facilitar o entendimento das demonstrações a seguir, uma matriz A será denotada da
seguinte maneira: A = [ai, j ]m,n
i, j=1 .

Demonstração.

1. Seja A = [ai, j ]m,n


i, j=1 . Então,

 T
AT = [ai, j ]n,m
j,i=1 e, portanto, AT = [ai, j ]m,n
i, j=1 = A.

2. Sejam A = [ai, j ]m,n


i, j=1 e B = [bi, j ]i, j=1 . Então,
m,n

 T
(A + B)T = [ai, j + bi, j ]m,n
i, j=1 = [ai, j + bi, j ]n,m
j,i=1 = A + B .
T T

i, j=1 . Então,
3. Seja A = [ai, j ]m,n

 T  m,n T

(cA)T = c[ai, j ]m,n
i, j=1 = [cai, j ]i, j=1 = [cai, j ]n,m
j,i=1 = c[ai, j ] j,i=1 = cA .
n,m T
14 Capítulo 3. Revisão de Álgebra Linear

4. Sejam A = [ai, j ]i,m,n


j=1 e B = [bi, j ]i, j=1 . Então,
n,p

n,p T
 
(AB)T = [ai, j ]m,n i, j=1 [b i, j ] i, j=1
 m,p
T
n
X  
=  ai,k bk, j  


k=1 i, j=1
 n  p,m
X
=  ai,k bk, j 
 

k=1 j,i=1
.
 n  p,m
X
=  bk, j ai,k 


k=1 j,i=1

= [bi, j ] p,n n,m


j,i=1 [ai, j ] j,i

= BT AT

5. Se A é uma matriz não singular, então AA−1 = A−1 A = I. Daí, segue que:
 T  T
I = I T = AA−1 = AT A−1

e
 T  T
I = I T = A−1 A = A−1 AT

ou seja, a inversa de AT é a transposta de A−1 .

Matriz Definida Positiva

Definição 6. Chama-se matriz definida positiva a uma matriz A tal que xT Ax > 0 para todo
x , 0.

Teorema 6. Se A ∈ Rn×n é uma matriz definida positiva então A é invertível.

Demonstração. Supondo que A seja não-invertível, então existe um vetor não-nulo x ∈ Rn tal
que Ax = 0 e, portanto, xT Ax = 0, o que é uma contradição. 

Matrizes Ortogonais
Para mais detalhes sobre as definições a seguir, veja [1].

Definição 7. Uma matriz quadrada Q ∈ Rm×m é ortogonal se QT = Q−1 , isto é, se QT Q = Im .


3.1. Vetores e Matrizes 15

Em termos das colunas de Q, o produto pode ser escrito como:


 T    
 Q1     1 
 T     
 Q2   Q1 Q2 . . . Qm   1 
 =   .
.. ..
  
. .
     
     
  
QmT
 
1
 

T
Em outras palavras, Qi Q j = δi j .
Veja algumas propriedades sobre matrizes ortogonais e suas respectivas demonstrações.
Considere A ∈ Rm×m uma matriz quadrada e c ∈ R uma constante qualquer.

1. Se A é uma matriz ortogonal, então det(A) = ±1.

2. A matriz A é ortogonal se, e somente se, suas colunas formam um conjunto ortonormal.

3. A matriz A é ortogonal se, e somente se, suas linhas formam um conjunto ortonormal.

4. A matriz A é ortogonal se, e somente se, sua transposta AT também é.

5. Se A é uma matriz ortogonal, então cA é ortogonal se, e somente se, c = ±1.

Demonstração.

1. Por hipótese, AT = A−1 ⇒ det(AT ) = det(A−1 ) ⇒ det(A) = 1


det(A)
. Então:
[det(A)]2 = 1 ⇒ det(A) = ±1.
 
 
 
 
2. Seja A =  A A . . . A  uma matriz ortogonal, onde Ai indica a i-ésima coluna de
 1 2 n

 
 
 

A.

 1 , i= j

Por hipótese, AT A = In , donde: ai · a j = 

 0 , i, j

isto é, o conjunto formado pelos vetores coluna {A1 , A2 , . . . , An } é um conjunto ON. Reci-
procamente, se as colunas de A formam um conjunto ON de vetores, então por cálculo
direto AT A = In .

3. O raciocínio é análogo ao item 2.

4. Imediatamente tem-se:
AT = A−1 ⇔ (AT )T = (A−1 )T ⇔ A = (AT )−1 .
16 Capítulo 3. Revisão de Álgebra Linear

5. Por hipótese, AT = A−1 .

Com isso, tem-se: (cA)T = cAT = cA−1 .

Porém cA−1 = (cA)−1 se, e somente se, c = ±1.

Multiplicação por uma matriz ortogonal

O processo de multiplicação por uma matriz ortogonal preserva estrutura geométrica no


sentido euclidiano, porque produtos internos são preservados. Isto é, para matrizes ortogonais,

(Qx)T (Qy) = xT y, (3.9)

A invariância de produtos internos significa que ângulos entre vetores são preservados,
assim como seus comprimentos:
||Qx|| = ||x|| (3.10)

No caso real, que é o que está sendo tratado neste trabalho, a multiplicação por uma
matriz ortogonal Q corresponde a uma rotação rígida (se det Q = 1) ou reflexão (se det Q = −1)
do espaço vetorial.

3.2 Normas
As noções essenciais de tamanho e distância em um espaço vetorial são obtidas por
normas.

Norma Vetorial
A norma é uma função || · || : Rm → R que atribui um comprimento de valor real para
cada vetor. Uma norma deve satisfazer as 3 condições a seguir. Para todos vetores x e y e todos
escalares α ∈ R,

1. ||x|| ≥ 0, e ||x|| = 0 se, e somente se, x = 0,

2. ||αx|| = |α|||x||,

3. ||x + y|| ≤ ||x|| + ||y||.

Note que o terceiro item é a desigualdade triangular.


3.2. Normas 17

p-normas

A classe mais importante de normais vetorias, a p-norma, é definida abaixo.


m
X
||x||1 = |xi |
i=1

X 2 1/2 √
 m 
||x||2 =  |xi |  = xT x
i=1
||x||∞ = max |xi |
1≤i≤m

X p 1/p
 m 
||x|| p =  |xi |  , (1 ≤ p < ∞)
i=1

Norma Matricial Induzida pela Norma Vetorial


Pode-se visualizar uma matriz de dimensão m × n como um vetor no espaço de dimensão
correspondente, basta considerar cada uma das mn entradas da matriz como uma coordenada
independente. Portanto, qualquer norma neste espaço pode ser utilizada para medir o “tamanho”
da matriz. Mas, ao lidar com um espaço de matrizes, algumas normas especiais são mais úteis
do que as normas vetoriais definidas anteriormente. Essas normas serão chamadas de normas
matriciais induzidas.
Sejam || · ||(n) e || · ||(m) as normas vetoriais no domínio e na imagem de A ∈ Rm×n , respecti-
vamente. A norma matricial induzida ||A||(m,n) é o menor número c que satisfaz a desigualdade
abaixo para todo x ∈ Rn .
||Ax||(m) ≤ c||x||(n)
||Ax||
Isto é, ||A||(m,n) é o supremo da razão ||x||(n)(m) para todos os vetores x ∈ Rn . Informalmente,
pode-se dizer que é o fator máximo pelo qual A pode “esticar” um vetor x.
Também denota-se || · ||(m,n) como a norma matricial induzida por || · ||(m) e || · ||(n) .
Equivalentemente, define-se a norma matricial como:
||Ax||(m)
||A||(m,n) = sup = sup ||Ax||(m) . (3.11)
x∈Rn ||x||(n) x∈Rn
x,0 ||x||(n) =1

Limitando ||AB|| numa Norma Matricial Induzida


Sejam || · ||(l) , || · ||(m) e || · ||(n) normas de Rl , Rm e Rn , respectivamente, e seja A uma matriz
l × m e B uma matriz m × n. Para todo x ∈ Rn :

||ABx||(l) ≤ ||A||(l,m) ||Bx||(m) ≤ ||A||(l,m) ||B||(m,n) ||x||n .

Portanto, a norma induzida de AB deve satisfazer:

||AB||(l,n) ≤ ||A||(l,m) ||B||(m,n) .


18 Capítulo 3. Revisão de Álgebra Linear

Em geral, essa desigualdade não é uma igualdade, isto é: estritamente menor.

Normas Matriciais Gerais


Como se pode notar, as normas matriciais não precisam ser induzidas pelas normas
vetoriais. Em geral, uma norma matricial deve satisfazer as condições de norma vetorial aplicadas
no espaço vetorial de dimensão mn de matrizes:

1. ||A|| ≥ 0, e ||A|| = 0 se, e somente se, A = 0,

2. ||αA|| = |α|||A||,

3. ||A + B|| ≤ ||A|| + ||B||.

Uma norma importante é a norma de Hilbert-Schmidt ou norma de Frobenius, definida


por:
 m n  12
XX 
||A||F =  |ai j |2  (3.12)
i=1 j=1

Esta norma não é induzida pela norma de um vetor.


Note que esta norma é a mesma norma-2 da matriz quando considerada como um vetor
mn−dimensional. A fórmula da norma de Frobenius pode ser escrita em termos de linhas ou
colunas individuais. Por exemplo, se A j é a j−ésima coluna de A, tem-se:
 n 1/2
X 2

||A||F =  ||A j ||2  = ||A||2
j=1

Esta identidade, bem como sua análoga baseada em linhas ao invés de colunas, pode ser
expressa compactamente pela equação:
p p
||A||F = tr(AT A) = tr(AAT ), (3.13)

onde tr(A) denota o traço de A, a soma dos seus elementos na diagonal com A sendo uma
matriz quadrada.

Invariância sobre Multiplicação por Matriz Ortogonal

Teorema 7. Para qualquer matriz A ∈ Rm×n e matriz ortogonal Q ∈ Rm×m , vale:

||QA||2 = ||A||2 , ||QA||F = ||A||F .

Demonstração. Desde que ||Qx||2 = ||x||2 para todo x, pelo item 3.10, a invariância na norma 2,
segue de 3.11. Para a norma de Frobenius pode-se usar 3.13. 
19

4 Métodos de Fatoração Matricial

Neste capítulo estudam-se três tipos de decomposição de matrizes. Na sequência, estes


métodos serão utilizados para resolver problemas de mínimos quadrados. Antes, será apresentado
um conceito introdutório sobre projetores e suas particularidades.

Projetores
A definição a seguir pode ser vista com mais detalhes em [1].
Um projetor é uma matriz quadrada P que satisfaz

P2 = P (4.1)

Uma matriz deste tipo também é definida como matriz idempotente. Esta definição inclui
projetores ortogonais e não-ortogonais. Será utilizado o termo “Projetor Oblíquo” para o caso
em que o projetor é não-ortogonal.
Note que se v ∈ Im(P), tem-se v = Px para algum x e

Pv = P2 x = Px = v.

Figura 1 – Uma projeção oblíqua

Se v < Im(P) então v , Pv e aplicando o projetor ao vetor Pv − v obtém-se:

P(Pv − v) = P2 v − Pv = 0,

ou seja, Pv − v ∈ N(P).
20 Capítulo 4. Métodos de Fatoração Matricial

Projetores Complementares

Se P é um projetor, I − P também é um projetor:

(I − P)2 = I − 2P + P2 = I − P.

A matriz I − P é chamada de Projetor Complementar a P.


Mostra-se que o projetor I − P projeta no N(P).
De fato, Im(I − P) ⊇ N(P), pois se Pv = 0, temos (I − P)v = v. Também vale que
Im(I − P) ⊆ N(P), porque para qualquer v, (I − P)v = v − Pv ∈ N(P). Portanto, para qualquer
projeto P, vale a igualdade
Im(I − P) = N(P).
Como vale para qualquer P, escreve-se P = I − (I − P). Dessa forma, obtém-se:

N(I − P) = Im(P).

Além disso, observe que N(I − P) ∩ N(P) = {0}, pois qualquer vetor v em ambos
conjuntos satisfazem v = v − Pv = (I − P)v = 0. Equivalentemente segue que,

Im(P) ∩ N(P) = {0}.

Sejam S 1 e S 2 dois subespaços de Rm tais que S 1 ∩ S 2 = {0} e S 1 + S 2 = Rm , onde


S 1 + S 2 indica a extensão de S 1 e S 2 , isto é, o conjunto de vetores s1 + s2 com s1 ∈ S 1 e
s2 ∈ S 2 . (Tal par é chamado de subespaços complementares.) Então existe um projetor P tal que
Im(P) = S 1 e N(P) = S 2 . Diz-se que P é um projetor sobre S 1 na direção de S 2 . Esse projetor e
seu complementar podem ser vistos como uma única solução para o seguinte problema:
Dado v, encontre os vetores v1 ∈ S 1 e v2 ∈ S 2 tais que v1 + v2 = v.
O projetor Pv dá v1 , e a projeção complementar (I − P)v dá v2 . Esses vetores são únicos
porque todas as soluções precisam ser da forma

(Pv + v3 ) + ((I − P)v − v3 ) = v,

onde está claro que v3 pertence a ambos subespaços S 1 e S 2 , isto é, v3 = 0.

Projetores Ortogonais

Um Projetor Ortogonal (Figura 2) é um projetor que projeta sobre um subespaço S 1 na


direção de S 2 , onde S 1 e S 2 são ortogonais.

Observação 1. É importante dizer que projetores ortogonais não são matrizes ortogonais.
Existe também uma definição algébrica: Um projetor ortogonal é qualquer projetor que é
simétrico, satisfazendo PT = P e (4.1). É claro que esta definição é equivalente à primeira.
21

Figura 2 – Uma projeção ortogonal

Teorema 8. Um projetor P é ortogonal se e somente se P = PT .

Demonstração. (⇐) Seja P um projetor ortogonal. Aqui, será usada a SVD (Veremos este
método com mais detalhes na seção 4.2). Suponha que P projeta sobre S 1 na direção de S 2 ,
onde S 1 ⊥ S 2 e S 1 tem dimensão n. Então um SVD de P pode ser construído da seguinte
maneira: seja {q1 , q2 , . . . , qm } uma base ON para Rm , onde {q1 , q2 , . . . , qn } é uma base para S 1
e {qn+1 , qn+2 , . . . , qm } é uma base para S 2 . Para j ≤ n, tem-se PQ j = Q j e para j > n tem-se
PQ j = 0. Agora, seja Q uma matriz ortogonal na qual as j-ésimas colunas são preenchidas por
Q j . Logo, tem-se:
 
 
 
 
PQ =  Q . . . Qn 0 . . .  ,
 1 
 
 
 

e dessa forma,
 
 1 
..
 

 . 

Q PQ = 
T
1  = Σ,
 
 
 0 
..
 
.

onde Σ é uma matriz diagonal com uns nas primeiras n entradas e zeros nas demais.
Assim, construi-se uma decomposição em valores singulares de P :

P = QΣQT .
22 Capítulo 4. Métodos de Fatoração Matricial

Note que P é simétrico, desde que PT = (QΣQT )T = QΣT QT = QΣQT = P.


(⇒) Suponha que P = PT . Então o produto interno entre um vetor Px ∈ S 1 e um vetor
(I − P)y ∈ S 2 é zero, ou seja, xT PT (I − P)y = 0.
Mas,

xT PT (I − P)y = xT (PT − PT P)y = xT (P − PP)y = xT (P − P2 )y.

Logo, xT (P − P2 )y = 0.
Portanto, o projetor é ortogonal, como queríamos mostrar. 

Projetor com uma Base Arbitrária

Pode-se construir um projetor ortogonal sobre um espaço Rm começando com uma base
arbitrária, não necessariamente ortogonal. Suponha que o subespaço é gerado pelos vetores L.I.
{a1 , . . . , an } e seja A um matriz m × n tal que a j-ésima coluna é A j .
Ao passar de v para sua projeção ortogonal y ∈ Im(A), a diferença y − v tem que
ser ortogonal com relação a Im(A). Equivalentemente, pode-se dizer que y tem que satisfazer
T
A j (y − v) = 0 para todo j. Desde que y ∈ Im(A), pode-se definir y = Ax e escrever esta condição
T
da seguinte maneira: A j (Ax − v) = 0 para cada j, ou equivalentemente, AT (Ax − v) = 0 ou
AT Ax = AT v. É fácil mostrar que, como A tem posto máximo então AT A é não-singular. Portanto,

x = (AT A)−1 AT v.

Finalmente, a projeção de v, y = Ax, é y = A(AT A)−1 AT v. Assim, o projetor ortogonal na


Im(A) pode ser expresso pela fórmula a seguir:

P = A(AT A)−1 AT .

No caso particular de uma base ON A = Q, obtém-se QQT = I, daí segue que P = QQT .
4.1. Equações Normais 23

4.1 Equações Normais


Os conceitos e definições a seguir podem ser encontrados em [7].
Uma das abordagens mais utilizadas (especialmente em Estatística) para calcular a
solução de mínimos quadrados é o método de Equações Normais.

Interpretação Geométrica do problema de mínimos quadrados


Seja A uma matriz m × n com m > n. Então A é um mapeamento linear de Rn → Rm .
Im(A) é um subespaço de Rm . Todo vetor u ∈ Im(A) pode ser escrito como u = Ax para algum
x ∈ Rn . Seja b ∈ Rm . Devido a || · ||2 ser a norma Euclidiana, ||b − Ax||2 é distância entre os
pontos de b e Ax. Está claro que esta distância é a distância minimal se, e somente se, b − Ax for
perpendicular a Im(A) (Figura 3). Neste caso, ||b − Ax||2 é a distância do ponto final de b até o
“plano” Im(A).

Figura 3 – Perpendicular

Por essa interpretação, é fácil entender que uma solução de problema de mínimos
quadrados para o sistema linear Ax = b sempre vai existir. Essa solução existe porque pode-se
projetar b no “plano” Im(A) para obter o vetor u ∈ Im(A), e existe x ∈ Rn tal que u = Ax. Esse x
é a solução. Porque b − Ax é perpendicular a Im(A) e todo vetor em Im(A) é uma combinação
linear dos vetores colunas de A, então b − Ax é ortogonal a todas colunas de A, ou seja,

AT (b − Ax) = 0

ou
AT Ax = AT b. (4.2)

O sistema de equações (4.2) é chamado de Equações Normais.


24 Capítulo 4. Métodos de Fatoração Matricial

Projeção Ortogonal e Equações Normais


A ideia é ilustrar a Figura 4. Nosso objetivo é encontrar o ponto Ax ∈ Im(A) mais
próximo de b, de modo que a norma do resíduo r = b − Ax seja minimizada. Geometricamente,
fica evidente que Ax = Pb onde P ∈ Rm×m é o projetor ortogonal (como visto anteriormente) que
mapeia Rm para Im(A). Em outras palavras, o resíduo r = b − Ax tem que ser, necessariamente
ortogonal a Im(A).

Figura 4 – Formulação do problema de mínimos quadrados em termos da projeção ortogonal.

Teorema 9. Seja uma matriz A ∈ Rm×n (m ≥ n) e b ∈ Rm o vetor dado. Um vetor x minimiza a


norma residual ||r||2 = ||b − Ax||2 , resolvendo assim, o problema de mínimos quadrados, se e
somente se r é ortogonal a Im(A), isto é,

AT r = 0,

ou equivalentemente,
AT Ax = AT b,

ou novamente equivalente,
Pb = Ax

onde Pm×m é o projetor ortogonal sobre A.

Então, a solução x para o problema de mínimos quadrados é única e dada por x =


(A A) AT b. A matriz (AT A)−1 AT é conhecida como a pseudoinversa de A.
T −1

O método padrão de resolver tal sistema é a fatoração de Cholesky.


4.1. Equações Normais 25

Fatoração Cholesky
As definições e exemplos discutidos aqui podem ser encontrados em [9].
Antes de definir a fatoração Cholesky, será vista a fatoração LU para melhor entendi-
mento.

Fatoração LU

Definição 8. Se A é uma matriz quadrada que pode ser fatorada na forma A = LU, onde L é
triangular inferior e U triangular superior, então dizemos que A = LU é uma fatoração LU de A.

Pode-se chamar a fatoração LU de decomposição LU de A ou de decomposição triangu-


lar de A, onde as letras L e U são abreviações das palavras inglesas “lower” (inferior) e “upper”
(superior).
A definição da decomposição LU acima, considera A como uma matriz quadrada. Mas,
também existe essa decomposição para matrizes retangulares pertencentes a Rm×n . Detalhes e
passo a passo sobre a fatoração LU de uma matriz retangular podem ser encontrados em [9].
São exemplos de fatoração LU as decomposições abaixo:
     
 1 2   1 0   1 2 
A =   =   .   = L1 U1
3 8 3 1 0 2
     
 3 −1 2   3 0 0   1 − 31 23 
B =  4 3 7  =  4 133  .  0 1 1  = L2 U2
     
0
     
−2 1 5 −2 13 6 0 0 1
     
 2 6 4   1 0 0   2 6 4 
C =  4 4 −1  =  2 1 0  .  0 −8 −9  = L3 U3
     
     
−2 2 5 −1 −1 1 0 0 0

Observação 2. Uma matriz quadrada só admitirá a decomposição LU se no seu escalonamento


não for necessária a troca de linhas. Para mais detalhes e passo a passo da decomposição, veja
[9]. Outras referências para tal decomposição podem ser encontradas em: [5], [4] e [13].

Depois de observar como é feita a decomposição LU, será discutida a decomposição de


interesse, que é a fatoração de Cholesky.

Definição 9. Chama-se fatoração de Cholesky de uma matriz quadrada A à fatoração A = LLT ,


onde L é uma matriz triangular inferior com elementos positivos na diagonal principal.

Claramente, pode-se notar que a diferença entre a fatoração LU e fatoração Cholesky


está na matriz U. Basta considerar U = LT para obter a decomposição desejada e com menos
26 Capítulo 4. Métodos de Fatoração Matricial

custo computacional. O que é óbvio, porque bastou encontrar apenas a matriz L e sua transposta.
Ou seja, o cálculo da matriz U, neste caso, se reduz ao cálculo de LT .
Veja a seguir dois exemplos de fatoração de Cholesky:
  √2 0 0
  √
  2 − √1

0

 2 −1 0   q   q 2 q


A =  −1 2 −1  =  − √2 0  .  0  = L1 L1
   1 3  T
3
− 23
 
2   2
   q 
0 −1 2  0 − 2 √2   0 0 √2
3 3 3
     
 4 −2 4 10   2 0 0 0   2 −1 2 5 
     
 −2 10 1 −2   −1 3 0 0   0 3 1 1 
B =   =   . 
  0 0 1 2  = L2 L2
 T
 4 1 6 13   2 1 1 0
     
10 −2 13 31 5 1 2 1 0 0 0 1
Observação 3. Observe que as matrizes A e B acima, são matrizes simétricas. E possuir essa
propriedade é uma das condições necessárias para aplicar a fatoração de Cholesky.

Teorema 10. Uma matriz simétrica A é definida positiva se, e somente se, pode ser fatorada
como LLT , onde L é uma matriz triangular inferior com elementos positivos na diagonal.

Para obter mais detalhes e passo a passo sobre a fatoração de Cholesky, a referência
indicada é [9].
Para resolver o problema de mínimos quadrados utilizando o método de equações
normais, será aplicada a fatoração Cholesky em AT A.
Dessa forma, AT A = LLT tal que
 
a11 a12 · · · a1n 
 
a21 a22 · · · a2n 
 . .. . . . 
 .. . . .. 
A A = 
T 
ak1 ak2 · · · akn 
 . .. . . . 
 .. . . .. 
 
an1 an2 · · · ann
é uma matriz simétrica e positiva e
   
l11 0 0 0 ··· 0  l11 l21 · · · lk1 · · · ln1 
   
l21 l22 0 0 ··· 0   0 l22 · · · lk2 · · · ln2 
 . .. .. .. . .. .. .. .. 
 .. 0   0 ..
 
. . 0 . . . . . 
LL = 
T 
  .  
lk1 lk2 · · · lkk · · · 0   0 0 · · · lkk · · · lnk 
 . .. .. .. .. . .. .. .. .. 
 .. . 0   0 ..
 
 . . . . . . . 
  
ln1 ln2 · · · lnk · · · lnn 0 0 ··· 0 ··· lnn

Depois da decomposição de Cholesky, basta resolver os seguintes sistemas, com os


métodos de soluções para sistemas triangular inferior e triangular superior:
4.2. Decomposição em Valores Singulares (SVD) 27

1. Lz = AT b e, em seguida

2. LT xT = z, onde z é um vetor que se obtém resolvendo o primeiro sistema.

Assim, têm-se os valores de x.

A seguir, serão discutidas a decomposição SVD e a fatoração QR.

4.2 Decomposição em Valores Singulares (SVD)


Podemos encontrar mais detalhes sobre SVD em [4], [2], [6], [3], [7] e [23].
Nesta seção será apresentada uma decomposição geral para matrizes m × n, que será
chamada de decomposição em valores singulares (SVD). Essa decomposição lida com as
linhas e colunas de uma forma simétrica e, portanto fornece mais informações sobre a matriz.
O SVD de uma matriz A ∈ Rm×n é uma fatoração matricial de grande importância
teórica e prática para tratar o problema de mínimos quadrados, tendo aplicações em muitas áreas
diferentes, onde sua fatoração é um passo em muitos algoritmos.
Observe que o SVD se aplica a matrizes pertencentes ao conjunto dos números reais e ao
conjunto dos números complexos. No entanto, será tratado apenas os casos em que as matrizes
são pertencentes ao conjunto dos números reais.

Ideia Geométrica
Mais detalhes sobre o método podem ser encontrados em [1].
A ideia do método baseia-se no fato geométrico de que a imagem da esfera unitária sob
qualquer matriz m × n é uma hiperelipse.
Sejam S a esfera Euclidiana usual em Rn , isto é, a esfera unitária na norma-2 e AS a
imagem de S sob o mapeamento de A: uma hiperelipse.
Considere o termo “hiperelipse” como sendo uma generalização m-dimensional de uma
elipse. Pode-se definir uma hiperelipse em Rm como a superfície obtida quando se “estica” a
esfera unitária em Rm por alguns fatores σ1 , . . . , σm (podendo ser zero) em algumas direções
ortogonais u1 , . . . , um ∈ Rm .
Considere os vetores ui unitários, ou seja, ||ui ||2 = 1. Os vetores {σi ui } são os semi-
eixos principais da hiperelipse, com comprimentos σ1 , . . . , σm . Se A tem posto r, então teremos
exatamente r dos comprimentos de σi diferentes de zero, e, em particular, se m ≥ n, no máximo
n deles serão diferentes de zero.
Suponha, por enquanto, que A ∈ Rm×n (m ≥ n) possui posto completo n. Então a imagem
AS é uma hiperelipse em Rm .
28 Capítulo 4. Métodos de Fatoração Matricial

Primeiro, serão definidos os n valores singulares de A. Denotados como σ1 , σ2 , . . . , σn ,


estes são os comprimentos dos n semi-eixos principais de AS . É convencional assumir que os
valores singulares são numerados em ordem decrescente, σ1 ≥ σ2 ≥ · · · ≥ σn > 0.
Em seguida, definem-se os n vetores singulares a esquerda de A. São vetores unitários
denotados por {u1 , u2 , . . . , un } e numerados para corresponder com os valores singulares. Estes
são orientados nas direções dos semi-eixos principais de AS .
Finalmente, definem-se os n vetores singulares a direita de A. Também são vetores
unitários {v1 , v2 , . . . , vn } ∈ S que são as pré-imagens dos semi-eixos principais de AS . São
numerados de modo que Av j = σ j u j .

Figura 5 – Interpretação Geométrica do SVD aplicada em uma esfera de raio igual a 1.

A imagem da esfera unitária em Rn sob um mapeamento A = UΣV T deve ser uma


hiperelipse em Rm .
Na Figura 5, observe que o mapeamento V T preserva a esfera. Apenas faz uma rotação.
Em seguida, a matriz diagonal Σ “estica” a esfera
 transformando-a
 em uma hiperelipse alinhada
 2 0 
com a base canônica, onde Σ = diag(2; 1/2) =   ; e, por fim, o mapeamento U rotaciona
0 12
ou reflete a hiperelipse.

Definição Formal
Seja A ∈ Rm×n uma matriz arbitrária. Uma decomposição em valores singulares de A é
uma fatoração tal que A = UΣV T , onde:

U ∈ Rm×m é ortogonal,
V ∈ Rn×n é ortogonal,
4.2. Decomposição em Valores Singulares (SVD) 29

Σ ∈ Rm×n é diagonal.

Note que U e V são matrizes ortogonais quadradas e Σ possui a mesma forma de A mesmo
quando A não é quadrada. As entradas diagonais da matriz Σ são os valores singulares defi-
nidos anteriormente. Ou seja, Σ = diag(σ1 , σ2 , . . . , σn ). As colunas de U são compostas por
u1 , u2 , . . . , un e as colunas de V são compostas por v1 , v2 , . . . , vn , ambos definidos anteriormente.
A seguir mostra-se que toda matriz possui uma fatoração SVD. Portanto, mostra-se que
a imagem de uma esfera unitária sob qualquer mapa linear é uma hiperelipse.

Teorema 11 (Existência e Unicidade do SVD). Toda matriz A ∈ Rm×n possui uma decomposição
em valores singulares. Além disso, os valores singulares {σ j } são unicamente determinados, e,
se A é quadrada e os σ j são distintos então os vetores singulares a esquerda e a direita {u j } e
{v j } são unicamente determinados.

Antes da demonstração, veja uma reapresentação geométrica desse teorema. Dada uma
matriz A, qualquer, de dimensão m × n, ela pode ser vista como um mapeamento de um vetor
x ∈ Rn para um vetor y = Ax ∈ Rm . Desse modo, pode-se escolher um sistema de coordenadas
ortogonal para Rn (onde os eixos unitários são as colunas de V) e outro sistema de coordenadas
ortogonal para Rm (onde os eixos unitários são as colunas de U) tal que A é uma matriz diagonal
n n
(Σ), isto é, mapeia um vetor x = βi vi ∈ Rn para um vetor y = Ax = σi βi ui ∈ Rm . Em outras
P P
i=1 i=1
palavras, qualquer matriz é diagonal desde que se escolha o sistema de coordenadas ortogonal
apropriado para seu domínio e imagem.
Para demonstrar esse teorema, será feita indução sobre m e, em seguida, indução sobre n.

Demonstração. Assuma que a decomposição em valores singulares existe para matrizes A(m−1)×(n−1) .
Será provado que essa decomposição existe para matrizes de dimensão m × n. Suponha que
A , 0, pois se A fosse igual a 0, poderia-se tomar Σ = 0 e U e V poderiam ser matrizes ortogonais
quaisquer.
O passo básico ocorre quando n = 1 (desde que m > n). Assim, Am×1 = Um×1 Σ1×1 V1×1 ,
com U = ||A||
A
2
, Σ = ||A||2 , e V = 1.
Para a indução sobre n, suponha que vale para n−1. E, assim, será provado que vale para n.
Tome v tal que ||v||2 = 1 e ||A||2 = ||Av||2 > 0. Tal v existe pela definição de ||A||2 = max||v||2 =1 ||Av||2 .
h i
Seja u = ||Av||
Av
2
, tal que u é um vetor unitário. Escolha Ŭ e V̆ de modo que U = um×1 Ŭ m×(n−1)
h i
é uma matriz ortogonal e possui dimensão m × n, e V = vn×1 V̆n×(n−1) é também uma matriz
30 Capítulo 4. Métodos de Fatoração Matricial

ortogonal e possui dimensão n × n. Escreva


 
uT1×m h i
U T AV = 
 
T
 · Am×n · vn×1 V̆n×(n−1)
Ŭ(n−1)×m n×n
n×m
 
uT1×m h i
= 
 
T
 · (Av)m×1 (AV̆)m×(n−1)
Ŭ(n−1)×m n×m
 
T
(u Av)1×1 (uT AV̆)1×(n−1) 
= 


(Ŭ T Av)(n−1)×1 (Ŭ T AV̆)(n−1)×(n−1) n×n
σ1×1   σ 0
   
01×(n−1)
=   =   .
 
0(n−1)×1 (Ŭ T AV̆)(n−1)×(n−1) 0 Ă

As igualdades seguem, pois:

(Av)T (Av) ||Av||22


uT Av = = = ||Av||2 = ||A||2 ≡ σ;
||Av||2 ||Av||2
Ŭ T Av = Ŭ T u||A||2 = 0;
uT AV̆ = 0.

Note que o último item também é zero, porque caso contrário σ = ||A||2 = ||U T AV||2 ≥
||[1, 0, . . . , 0]U T AV||2 = ||[σ|uT AV̆]||2 > σ, que é uma contradição. Agora pode-se aplicar a
hipótese de indução em Ă para conseguir Ă = U1 Σ1 V1T , onde U1 , Σ1 e V1 possuem dimensões
(m − 1) × (n − 1), (n − 1) × (n − 1) e (n − 1) × (n − 1), respectivamente. Logo,
T
 σ 0   σ   σ 0
        
0   1 0   1 0
U AV =   =   =   .   . 
T


0 Ă. 0 U1 Σ1 V1T . 0 U1 . 0 Σ1 . 0 V1 .

ou seja,
T
  σ 0
     
  1 0   1 0
A = U   .   .   ,

0 U1 . 0 Σ1 . 0 V1 .

que é a decomposição que se queria encontrar.




SVD Reduzido
Foi visto que as equações referentes aos vetores singulares à esquerda e aos vetores
singulares à direita podem ser escritas como:

Av j = σ j u j , 1 ≤ j ≤ n.
4.2. Decomposição em Valores Singulares (SVD) 31

Pode-se expressar esse conjunto de equações vetoriais como uma equação matricial, isto
é: AV = U bbΣ. Ou então, mais precisamente, tem-se
   
  σ1
       
     
  
σ
    
   v1 v2 . . . vn     2

A  =  u1 u2 . . . un   .
 
.
 
 
 
 
 
 
.
   
       
 
σn
     
   

onde bΣ é uma matriz diagonal n × n com entradas reais positivas (Lembre-se de que
b é uma matriz m × n com colunas ortonormais; V
assumimos que A possui posto completo n); U
é uma matriz n × n com colunas ortonormais.
Assim, V é ortogonal e, portanto, pode-se multiplicar por sua transposta para obter:

A=U
bbΣV T . (4.3)

Esta fatoração é chamada de decomposição em valores singulares reduzido ou SVD


reduzido, de A. Essa decomposição está representada esquematicamente na Figura 6.

Figura 6 – SVD Reduzido

SVD Completo
Na maioria das aplicações, o SVD é usado exatamente da forma descrita acima. No
entanto, esta não é a maneira mais comum de se formular um SVD. Com isso, serão introduzidos
os termos “reduzido” (com os chapéus nas matriz U e Σ) e “completo” com o objetivo de
diferenciar a fatoração (4.3), que vista anteriormente, da fatoração (4.4), que será vista a seguir.
Veja a ideia do SVD completo: As colunas de U b são n vetores ortonormais no espaço
m-dimensional Rm . Mas, se m = n, eles não formam uma base de Rm , e nem U b é uma matriz
ortogonal. No entanto, adicionando m − n colunas ortonormais, U b pode ser estendida para uma
matriz ortogonal. Isso será feito de modo arbitrário e o resultado obtido será denotado de U (sem
chapéu).
32 Capítulo 4. Métodos de Fatoração Matricial

Para substituir U Σ precisa mudar também. Para que o produto permaneça


b por U em (4.3), b
inalterado, as últimas m − n colunas de U devem ser multiplicadas por zero. Logo, a matriz Σ de
dimensão m × n será obtida tomando-se a matriz b Σ na parte na superior (bloco n × n) junto com
m − n linhas de zeros abaixo. Assim, obtém-se uma nova fatoração, chamada de SVD completo
de A:
A = UΣV T . (4.4)

onde U e V são matrizes ortogonais e possuem dimensão m×m e m×n, respectivamente. E


Σ é uma matriz diagonal com entradas reais positivas e possui dimensão m×n. Essa decomposição
também está representada esquematicamente na Figura 7.

Figura 7 – SVD Completo

As linhas tracejadas indicam as colunas “silenciosas” de U e as linhas de Σ que são


descartadas na passagem de (4.4) para (4.3).
Uma vez descrito o SVD completo, pode-se descartar a suposição de que A tem posto
completo. Se A não possui posto completo, a fatoração (4.4) continua sendo apropriada, pois
o que vai mudar é a quantidade de vetores singulares a esquerda de A. Em vezes de n vetores,
haverá apenas r. Para isso, basta construir uma matriz ortogonal U acrescentando m − r colunas
ortonormais arbitrárias em vez de m − n. Como consequência, a matriz V também vai precisar de
n − r colunas ortonormais arbitrárias para estender as r colunas determinadas pela geometria. A
matriz Σ precisa ter r entradas diagonais positivas, com as restantes n − r iguais a zero.
Note que, da mesma forma, pode-se usar o SVD reduzido para matrizes que não possuem
b com dimensão m × n, b
posto completo. Basta tomar U Σ com n × n e alguns zeros na diagonal, ou
comprimir ainda mais a representação de modo que U b tenha dimensão m × r e bΣ de dimensão
r × r com entradas estritamente positivas na diagonal.

Mudança de Base
O método SVD permite dizer que toda matriz é diagonal, desde que se faça uma escolha
adequada para as bases dos espaços domínio e imagem. Veja como funciona esta escolha.
4.2. Decomposição em Valores Singulares (SVD) 33

Seja b ∈ Rm arbitrário. Pode-se expandir b na base de vetores singulares à esquerda


de A, que são as colunas da matriz U. Do mesmo modo, também pode-se expandir x ∈ Rm na
base de vetores singulares à direita de A (colunas de V). As coordenadas dos vetores para essas
expansões são:
b0 = U T b, x0 = V T x

A relação b = Ax pode ser expressa em termos de b0 e x0 . Para isso, basta utilizar a


equação (4.4) e as expansões acima. Logo,

b = Ax ⇔ b0 = U T b = U T Ax = U T UΣV T x = ΣV T x = Σx0 .

Desa forma, b0 = Σx0 .


Assim, conclui-se que A se reduz à matriz diagonal Σ quando se expressa a imagem nas
bases das colunas de U e o domínio nas colunas de V. E, portanto, o SVD permite afirmar que
toda matriz é diagonal quando se usam as bases apropriadas para o domínio e para imagem.

SVD e Decomposição em Autovalores


Os conceitos a seguir podem ser encontrados em [1]. Para estudos complementares veja
[3].
Existem três principais diferenças entre o SVD e a decomposição em autovalores. A
primeira é que o SVD usa bases diferentes: os vetores singulares à esquerda e os vetores
singulares à direita. Enquanto que a decomposição em autovalores usa somente uma: a base dos
autovetores.
A segunda diferença, ainda sobre as bases, é que o SVD utiliza bases ortonormais. Já a
decomposição em autovalores geralmente usa uma base que não é ortogonal.
Por fim, a terceira diferença decorre do Teorema 11 sobre existência e unicidade do SVD.
Todas a matrizes, até mesmo as matrizes retangulares, possuem uma decomposição em valores
singulares. Mas, nem todas as matrizes possuem uma decomposição em autovalores, incluindo
as matrizes quadradas.
Além disso, em aplicações, autovalores tendem a ser relevantes para problemas en-
volvendo o comportamento de formas iteradas de A, tais como potências de matrizes Ak ou
exponenciais etA , enquanto que vetores singulares tendem a ser relevantes para problemas
envolvendo o comportamento de A em si, ou de sua inversa.
A diagonalização de uma matriz expressando-a em termos de uma nova base também
pode ser feita com estudo de autovalores. Seja A uma matriz quadrada diagonalizável então A
pode ser expressa como uma matriz diagonal de autovalores Λ, com a condição de que a imagem
e o domínio estão representados em uma base de autovetores.
34 Capítulo 4. Métodos de Fatoração Matricial

Se as colunas de uma matriz C ∈ Rm×m contêm autovetores L.I. de A ∈ Rm×m , a decom-


posição em autovalores de A é dada por:

A = CΛC −1 , (4.5)

onde Λ é uma matriz diagonal m × m cujas entradas são o autovalores de A.


Com isso, para b, x ∈ Rm satisfazendo b = Ax, ao definir b0 = C −1 b e x0 = C −1 x, então
os novos vetores b0 e x0 necessariamente, satisfazem b0 = Λx0 .

Propriedades matriciais via SVD


Suponha que a matriz A possui dimensão m × n. Tome p = min{m, n} e seja r ≤ p a
quantidade de valores singulares não nulos da matriz A. Por fim, seja hx, y, . . . , zi o espaço gerado
pelos vetores x, y, . . . , z.

Teorema 12. O posto da matriz A é igual a r, justamente o número de valores singulares não
nulos.

Demonstração. Sabe-se que o posto de uma matriz diagonal é dado pelo número de entradas não
nulas. Observe que na decomposição A = UΣV T , as matrizes U e V possuem posto completo.
Logo, posto(A) = posto(Σ) = r. 

Teorema 13. O vetores singulares u1 , u2 , . . . , ur são uma base ortonormal em Im(A), isto é,
Im(A) = hu1 , u2 , . . . , ur i.

Demonstração. De fato, esta é uma consequência de que a Im(Σ) = he1 , e2 , . . . , er i ⊆ Rm eN(Σ) =


her+1 , er+2 . . . , en i ⊆ Rn . 

Teorema 14. O vetores singulares vr+1 , vr+2 . . . , vn são uma base ortonormal em N(A), isto é,
N(A) = hvr+1 , vr+2 , . . . , vn i.

Demonstração. A demonstração a seguir é análoga ao teorema anterior. Isto significa que


N(Σ) = her+1 , er+2 . . . , en i ⊆ Rn . 

Teorema 15. ||A||2 = σ1 e ||A||F = (σ1 )2 + (σ2 )2 + · · · + (σr )2 .


p

Demonstração. Observe que a primeira parte dessa demonstração já foi estabelecida no Teorema
11 sobre existência e unicidade da decomposição em valores singulares. Como A = UΣV T ,
onde U e V são matrizes ortogonais, ||A||2 = ||Σ||2 = max{|σ j |} = σ1 , pelo teorema 7. Portanto,
||A||2 = σ1 , Para norma de Frobenius, use o teorema 7 novamente e a equação (3.12) para concluir
que ||A||F = ||Σ||F .

4.3. Fatoração QR 35

m
Y
Teorema 16. Seja uma matriz A ∈ R m×m
. Vale que |det(A)| = σi , ∀A
i=1

Demonstração. Usando o Teorema 5 (de Binet) visto na seção anterior, tem-se:

| det(A)| = | det(UΣV T )| = | det(U)|.| det(Σ)|.| det(V T )|.

Como U e V T são matrizes ortogonais,


m
Y
| det(U)|.| det(Σ)|.| det(V )| = | det(Σ)| =
T
σi .
i=1

m
Y
Portanto, | det(A)| = σi .
i=1


4.3 Fatoração QR
Os resultados a seguir podem ser vistos em [1], [3] e [4]. Para estudos complementares
sobre a fatoração QR, veja [5], [2], [6] e [23].
Em várias aplicações, a fatoração SVD é muito custosa computacionalmente, e com isso,
deve-se buscar fatorações mais simples. Dentre elas, a mais importante é a que será descrita a
seguir e suas decomposições. A decomposição QR é uma fatoração de uma matriz A em um
produto de uma matriz ortogonal Q e uma matriz triangular R.
Essa fatoração pode ser construída tanto usando transformações adequadas de matrizes
(dados conhecidos ou matrizes de Householder) quanto usando o algoritmo de ortogonalização
Gram-Schmidt discutido no final deste capítulo.
Também é possível gerar uma versão reduzida do fatoração QR, como será vista a seguir.

Fatoração QR Reduzida
Na maioria das vezes, se está interessado nos espaços coluna de uma matriz A. Considere
os sucessivos espaços gerados pelas colunas a1 , a2 , . . . de A:

ha1 i ⊆ ha1 , a2 i ⊆ ha1 , a2 , a3 i ⊆ · · ·

O símbolo h· · · i indica o subespaço gerado pelos vetores que estiverem dentro dos
parênteses. Logo, ha1 i é o espaço unidimensional gerado por a1 , ha1 , a2 i é o espaço bidimensional
gerado por a1 e a2 e assim por diante.
36 Capítulo 4. Métodos de Fatoração Matricial

A ideia da fatoração QR é construir uma sequência de vetores ON q1 , q2 , . . . que geram


os espaços sucessivos das colunas de uma matriz Am×n (m > n) de posto completo, ou seja, a
sequência q1 , q2 , . . . deve satisfazer a seguinte propriedade:

hq1 , q2 , . . . , q j i = ha1 , a2 , . . . , a j i, j = 1, . . . , n. (4.6)

Note que, a partir das observações feitas na seção 3.1, o item (4.6) pode ser reescrito,
esquematicamente, como a seguir:

   
  r11 r12 . . . r1n
     
   
..
     
r22 .
    
 A1 A2 . . . An  =  Q1 Q2 . . . Qn    ,

     ... 
     
    
    rnn

onde as entradas diagonais rkk são diferentes de zero. Desse modo, pode-se escrever
a1 , . . . , ak como uma combinação linear de q1 , . . . , qk . Observe que o bloco superior esquerdo
k×k da matriz triangular é invertível. Desse modo, pode-se expressar q1 , . . . , qk como combinação
linear de a1 , . . . , ak . Assim, as equações assumem as seguintes formas, fora do esquema matricial:

a1 = r11 q1 ,
a2 = r12 q1 + r22 q2 ,
a3 = r13 q1 + r23 q2 + r33 q3 , (4.7)
..
.
an = r1n q1 + r2n q2 + · · · + rnn qn .

E, por fim, a fórmula matricial é dada por A = Q b onde Q


bR, b possui dimensão m × n
b possui dimensão n × n e é uma matriz triangular superior. Logo,
com colunas ortonormais e R
obtem-se o seguinte esquema na Figura 8:

Figura 8 – QR Reduzido (m > n)

Essa fatoração chama-se fatoração QR reduzida de A.


4.3. Fatoração QR 37

Fatoração QR Completa
Na fatoração QR completa de A ∈ Rm×n (m ≥ n) acrescentam-se m − n colunas
b Portanto, obtém-se uma matriz Q ortogonal de dimensão m × m. Nesse
ortonormais na matriz Q.
processo, acrescentam-se também, linhas nulas em Rb para se obter a matriz R de dimensão m × n,
e que continua sendo triangular superior. A representação esquemática pode ser vista na Figura
9.

Figura 9 – QR Completo (m > n)

Todas as matrizes possuem uma fatoração QR, e além disso, essa fatoração é única,
conforme mostram os teoremas a seguir.

Teorema 17. Toda matriz A ∈ Rm×n (m ≥ n) possui uma fatoração QR completa e portanto
também possui fatoração QR reduzida.

Teorema 18. Cada matriz A ∈ Rm×n (m ≥ n) de posto completo possui uma única fatoração QR
tal que A = QR com r j j > 0.

Essa duas demonstrações podem ser encontradas em [1].

Ortogonalização de Gram-Schmidt
Dados a1 , a2 , . . . , podem-se construir vetores q1 , q2 , . . . e entradas ri j por um processo
de ortogonalização sucessiva. E essa ideia é chamada de Ortogonalização de Gram-Schmidt.
O processo funciona da seguinte maneira: no j-ésimo passo, o objetivo é encontrar um
vetor unitário q j ∈ ha1 , a2 , . . . , a j i tal que q j é ortogonal a q1 , . . . , q j−1 . De fato, isso acontece.
Por isso vamos considerar a técnica de ortogonalização vista em (3.1). Dessa equação, tem-se
que:
v j = a j − (qT1 a j )q1 − (qT2 a j )q2 − · · · − (qTj−1 a j )q j−1 (4.8)

é um vetor que satisfaz o que é exigido, exceto que ele ainda não está normalizado. Ao
dividir o vetor por ||v j ||2 , o resultado é o vetor q j desejado.
38 Capítulo 4. Métodos de Fatoração Matricial

Tendo essa ideia em mente, pode-se reescrever as equações (4.7) do seguinte modo:

a1
q1 =
r11
a2 − r12 q1
q2 =
r22
a3 − r13 q1 − r23 q2
q3 = (4.9)
r33
..
.
an − n−1
P
i=1 rin qi
qn =
rnn
Da equação (4.8) é evidente que uma definição apropriada para os coeficientes ri j nos
numeradores de (4.9) é:
ri j = qTi a j (i , j). (4.10)

Já os coeficientes r j j nos denominadores são escolhidos para normalização:


j−1
X
|r j j | = ||a j − ri j qi ||2 . (4.11)
i=1

Observe que o sinal de r j j não é determinado. Arbitrariamente, pode-se escolher r j j > 0,


e nesse caso deve-se terminar com uma fatoração A = Q b onde R
bR, b possui entradas positivas ao
longo da diagonal.
Esse processo é facilmente encontrado nos livros de Álgebra Linear e Métodos Numéri-
cos, tais como: [16], [5], [6], [13], [15] e [3]. Para mais detalhes sobre o passo a passo do método
de Gram-Schmidt consulte [9] e [23]. O algoritmo do processo de Gram-Schmidt também pode
ser encontrado em [1].
O método Gram-Schmidt foi apresentado na sua forma clássica, mas existe também a
versão modificada do método, que não será estudada neste trabalho. Para fatoração QR, existe
outro método além da ortogonalização de Gram-Schmidt, que é o método da triangulação de
Householder, que não será tratada neste material. Resumidamente, pode-se dizer que o método de
Gram-Schmidt fornece uma ortogonalização triangular enquanto que o método de Householder
fornece uma triangulação ortogonal. Para mais detalhes sobre esses assuntos consulte [8], [1] e
[2].
39

5 Métodos de Mínimos Quadrados e Apli-


cações

Neste capítulo é descrito o método dos mínimos quadrados e como as fatorações matrici-
ais são usadas para resolver o problema.

5.1 O Método de Mínimos Quadrados


O método de mínimos quadrados ou Mínimos Quadrados Ordinários (MQO) foi desen-
volvido por Legendre e Gauss em torno de 1800. Suponha que se tem um problema com m
equações e n incógnitas, onde m > n. Isto é, A ∈ Rm×n e b ∈ Rm . Assim, o problema consiste em
encontrar um vetor x ∈ Rn que é a melhor aproximação para b. Em geral, esse problema não tem
solução. Vai existir um vetor x adequado somente se b pertence a Im(A).
O vetor residual é definido de forma que

r = b − Ax ∈ Rm

Em geral, o vetor r é diferente de zero. Entretanto, ele pode ser minimizado. E medir
o quão pequeno é o tamanho de r envolve escolher uma norma. Se a norma-2 é escolhida, o
problema vai ter a seguinte forma:

Dado A ∈ Rm×n , m ≥ n, b ∈ Rm , encontre x ∈ Rn tal que ||b − Ax||2 é minimizado. (5.1)

Esta é a formulação geral para problemas de mínimos quadrados.


A norma-2 corresponde a distância Euclidiana, logo tem uma interpretação geométrica
simples. A escolha dessa norma pode ser justificada por argumentos geométricos e estatísticos, e,
como será visto, leva a algoritmos simples. A norma-2 é também escolhida porque a derivada de
uma função quadrática, a qual deve ser ajustada para zero para minimização, é linear. Portanto,
busca-se um vetor x ∈ Rn tal que o vetor Ax ∈ Rm é o ponto mais próximo na Im(A) do vetor b.
Para resolver o sistema, será exibido o passo a passo de cada método que estudado na
seção anterior.

Equações Normais
O modo clássico de resolver os problemas de mínimos quadrados é usando o método de
equações normais.
Se A possui posto completo, é quadrada, simétrica e positiva definida, o método padrão
de se resolver um sistema de equações de dimensão n é a Fatoração Cholesky. Esse método
40 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

constrói uma fatoração AT A = RT R, onde R é uma matriz triangular superior. Note que se pode
reduzir a equação tal que
RT Rx = AT b.

Basta multiplicar x pela direita em ambos os lados.


A seguir, o algoritmo Mínimos Quadrados via Equações Normais:

1. Forme a matriz AT A e o vetor AT b.

2. Calcule a fatoração Cholesky AT A = RT R.

3. Resolva o sistema triangular inferior RT w = AT b para w.

4. Resolva o sistema triangular superior Rx = w para x.

SVD
Pode-se calcular o SVD da matriz A do seguinte modo:

1. Forme a matriz AT A.

2. Calcule a decomposição em autovalores AT A = VΛV T .

3. Defina Σ uma matriz diagonal não-negativa de dimensão m×n tal que Σ seja a raiz quadrada
de Λ.

4. Resolva o sistema UΣ = AV para a matriz ortogonal U.

O algoritmo acima mostra como calcular a decomposição em valores singulares reduzido


A=U
bbΣV T . Pode-se escrever o projetor ortogonal P na forma P = U
bUbT , então

y = Pb = U
bUbT b

Com a condição de y ∈ Im(A), o sistema Ax = y possui uma solução exata. Basta


combinar com a fatoração SVD para obter:

U
bbΣV T x = U
bUbT b ⇒ ΣV T x = U
b bT b. (5.2)

bT pela esquerda em ambos os lados.


A implicação acima resulta da multiplicação por U
O algoritmo Mínimos Quadrados via SVD é este:

1. Calcule o SVD reduzido A = U


bbΣV T .
5.1. O Método de Mínimos Quadrados 41

bT b.
2. Calcule o vetor U

Σw = U
3. Revolva o sitema diagonal b bT b para w.

4. Defina x = Vw.

Nota-se que, enquanto a fatoração QR reduz o problema dos mínimos quadrados para
um sistema de equações triangular, o SVD reduz a um sistema de equações diagonal, o que é
trivialmente resolvido. Se A tem posto completo, o sistema diagonal é não singular.
A equação (5.2) pode ser derivada de equações normais. Se AT Ax = AT b, então
ΣT U
Vb bT U
bbΣV T x = Vb
ΣT U ΣV T x = U
bT b, que implica que b bT b.

Fatoração QR
Aqui está outro método clássico, porém mais moderno, para resolver problemas de
mínimos quadrados. Se tornou popular em meados de 1960. Este método é baseado na fatoração
QR reduzida, vista na seção 4.3. Pelo método de ortogonalização de Gram-Schimidt ou pela
triangulação de Householder (que é mais comum), consegue-se construir a fatoração A = QbR.
b
Seja P = Q bT , dessa forma obtém-se:
bQ

y = Pb = Q
bQbT b.

Com a condição y ∈ Im(A), e o sistema Ax = y possuir uma solução exata. Basta


combinar com a fatoração QR para obter:

Q b =Q
bRx bQbT b ⇒ b =Q
Rx bT b. (5.3)

bT pela esquerda em ambos lados.


A implicação acima resulta da multiplicação por Q
Aqui está o algoritmo Mínimos Quadrados via Fatoração QR:

1. Calcule a fatoração QR reduzida A = Q


bR.
b

bT b.
2. Calcule o vetor Q

b =Q
3. Resolva o sistema triangular superior Rx bT b para x.

Observe que a equação (5.3) também pode ser derivada de equações normais.
De fato, se AT Ax = AT b, então R
bT Q
bT Q b =R
bRx bT Q b =Q
bT b ⇒ Rx bT b.
42 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

5.2 Aplicações
As aplicações do problema de mínimos quadrados são de grande importância e ocorrem
em muitas áreas de pesquisa aplicada e engenharia, tais como estatística, fotogrametria, proces-
samento de sinal e controle. Devido ao grande aumento na capacidade de captura automática
de dados, os problemas de mínimos quadrados de grande porte são atualmente rotineiramente
resolvidos.

Problema de demarcação de fronteiras

O problema de mínimos quadrados foi primeiro apresentado e formulado por Gauss para
resolver um problema prático de demarcação de fronteiras para o governo alemão. Existiam im-
portantes razões econômicas e jurídicas para saber exatamente onde as fronteiras se encontravam
entre lotes de terra de propriedade de donos diferentes. Topógrafos tentaram estabelecer esses
limites, medindo certos ângulos e distâncias e, em seguida, a triangulação de pontos de referência
conhecidos. Conforme a população aumentava, se tornava necessário melhorar a precisão da
localização desses pontos de referência conhecidos, tanto por razões econômicas quanto legais.
Assim, pesquisadores mediram muitos ângulos e distâncias entre os pontos de referência e coube
a Gauss compreender como tornar essas medições mais precisas e atualizar a base de dados
desses locais para o governo. Para isso, ele desenvolveu o método de mínimos quadrados.
O problema que Gauss resolveu deve ser periodicamente revisitado. Em 1974, o “The
National Geodetic Survey (NGS)” dos EUA comprometeu-se a atualizar a base de dados ge-
odésico dos EUA, que consistia de cerca de 700.000 pontos. As motivações tinham crescido
para incluir o fornecimento de dados precisos o suficiente para engenheiros civis e planejadores
regionais planejarem projetos de construção e para os geofísicos estudarem o movimento das
placas tectônicas na crosta terrestre (as quais podem se mover até 5 cm por ano). O correspon-
dente problema dos mínimos quadrados foi o maior já resolvido na época: cerca de 2,5 milhões
equações em 400.000 incógnitas. Foi também muito esparso, o que tornou o problema tratável
nos computadores disponíveis em 1978, quando o cálculo foi feito.
Será feita uma breve discussão sobre a formulação do problema. Na verdade, trata-se
de um problema não linear que é resolvido através de uma aproximação por uma sequência
de problemas lineares, na qual cada um deles é um problema de mínimos quadrados linear.
O banco de dados consiste de uma lista de pontos (pontos de referência), cada um marcado
por localização: latitude, longitude, e possivelmente elevação. Por simplicidade, assuma que
a terra é plana e suponha que cada ponto i é rotulado por coordenadas lineares zi = (xi , yi )T .
Para cada ponto é desejável calcular uma correção δzi = (δxi , δyi )T de modo que a localização
correta z0i = (xi0 , y0i )T = zi + δzi coincida com as novas medidas, mais precisas. Estas medidas
incluem as distâncias entre pares selecionados de pontos e ângulos entre o segmento de linha do
ponto i até j e de i até k (Veja a figura 10). Para ver como transformar essas novas medições em
5.2. Aplicações 43

restrições, considere o triângulo na figura 10. Os cantos são identificados pelas suas localizações
(corrigidas), e os ângulos θ e o comprimento L das arestas também são mostrados. A partir desses
dados, é fácil escrever a seguir as restrições com base em identidades trigonométricas simples.
Por exemplo, uma medição precisa de θi leva à restrição

[(z0j − z0i )T (z0k − z0i )]2


cos θi =
2
,
(z0j − z0i )T (z0j − z0i ) · (z0k − z0i )T (z0k − z0i )

onde cos2 θi é expresso em termos de produtos internos de certos lados do triângulo. Se for
assumido que δzi é pequeno comparado com zi , então será possível linearizar esta limitação da
seguinte forma: multiplicar através do denominador da fração, multiplicar todas as condições
para obter um polinômio de grau 4 em todas as “δ-variáveis” (por exemplo δxi ), e desprezar
todos os termos que contenham mais de uma δ-variável como fator. Isso gera uma equação
em que todas as δ-variáveis aparecem linearmente. Se todas estas restrições lineares de todas
as novas medidas de ângulo e distância juntas forem coletados, será obtido um sistema linear
sobredeterminado de equações para todas as δ-variáveis. O objetivo é encontrar as menores
correções, ou seja, os menores valores de δxi , etc., que estão mais próximos de satisfazer essas
restrições. Este é um problema de mínimos quadrados.

Figura 10 – Restrições para atualizar um banco de dados geodésicos.

Ajuste Polinomial por Mínimos Quadrados

Considere a função f (x) = x sen xπ


5
. O gráfico dessa função é dado na Figura 11.
Suponha que se tem m pontos distintos x1 , x2 , . . . , xm ∈ R. A partir da função f e
desses pontos, podem-se gerar os dados y1 , y2 , . . . , ym ∈ R. A relação dos dados {xi }, {yi } com os
coeficientes {ci } pode ser expressa por um sistema quadrado de Vandermonde 1.
44 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

Figura 11 – f (x) = x sen xπ


5

   
  c0 y1
. . . x1m−1
   
 1 x1 x12 x13     
   c1   y2 
 1 x2 x22 x23 . . . x2m−1    
 = 

.. .. .. .. ..   c2 y3
..
 
. . . . . .   . ..
   
   ..   .

. . . xm
 
1 xm xm xm3
2 m−1     
cm−1 ym
  

Para determinar os coeficientes {ci } para um certo conjunto de dados, pode-se resolver
este sistema de equações, na qual está garantido ser não singular, desde que os pontos {xi } sejam
distintos.
Agora, considere um polinômio de grau n − 1: p(x) = c0 + c1 x + · · · + cn−1 xn−1 para
algum n < m. Esse polinômio será um ajuste de mínimos quadrados aos dados se ele minimizar
a soma dos quadrados dos “afastamentos” (ou desvios) a partir dos dados, isto é, se o polinômio
escolhido de grau n − 1 minimizar:
m
X
|p(xi ) − yi |2
i=1

Pode-se dizer que esta soma dos quadrados acima é equivalente ao quadrado da norma
do resíduo, que é denotada por ||r||22 , para o sistema retangular de Vandermonde a seguir:

 
y1
. . . x1n−1
    
 1 x1 x12 x13   c0   
     y2 
 1 x2 x22 x23 . . . x2n−1   c1   
 .

.. .. .. .. .. ..   .  ≈  y3

. . . . . .   ..  
.. 
.
     
. . . xm

1 xm xm xm3
2 n−1
cn−1
   
ym
 

Como se pode perceber, os resultados são válidos para m ∈ R. Em particular, foram


feitos testes para m = 23.
5.2. Aplicações 45

Foram gerados 23 pontos do seguinte modo: 23 valores igualmente espaçados para


x, variando de -13 a 13 e, para cada um desses valores, foi calculado o valor de y usando a
função dada. Em seguida, com estes pontos, foram ajustados polinômios de graus 1 até 22.
Para esta aplicação utilizou-se a linguagem Python e o pacote numpy e o método polyfit. Neste
método, é feito um ajuste para lidar com problemas de condicionamento. Estes problemas serão
mencionados brevemente a seguir.
As figuras (12 à 23) mostram os resultados obtidos quando foram ajustados os 23 pontos
de dados, com os polinômios de grau 1, até grau 22.

Figura 12 – Dados sem perturbação - Grau 1


Figura 13 – Dados sem perturbação - Grau 2

Figura 14 – Dados sem perturbação - Grau 4 Figura 15 – Dados sem perturbação - Grau 7

Conforme o grau do polinômio aumenta, ocorre um melhor ajuste aos dados e diminuição
dos resíduos. Pode-se observar que o polinômio de grau 8 apresenta um bom ajuste aos dados
capturando melhor o comportamento sinuoso da função do que os graus anteriores. Já com o
grau 10 verifica-se que o polinômio não acompanha o comportamento da curva original para
os valores extremos. No entanto, o polinômio de grau 12 pode ser considerado como o menor
grau do polinômio encontrado que melhor se ajusta aos dados. Embora os polinômios de graus
maiores, como 17 e 20 pareçam capturar bem o comportamento da função, também precisam
de um maior número de parâmetros a serem estimados pelo método e isso pode acarretar um
super-ajuste aos dados.
46 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

Figura 16 – Dados sem perturbação - Grau 8 Figura 17 – Dados sem perturbação - Grau 11

Figura 18 – Dados sem perturbação - Grau 12 Figura 19 – Dados sem perturbação - Grau 15

Figura 20 – Dados sem perturbação - Grau 17 Figura 21 – Dados sem perturbação - Grau 18
5.2. Aplicações 47

Figura 23 – Dados sem perturbação - Grau 22


Figura 22 – Dados sem perturbação - Grau 20

Figura 24 – Dados com perturbação gaussiana -


Figura 25 – Dados com perturbação gaussiana -
Grau 1
Grau 2

Em geral em problemas deste tipo, busca-se ajustar polinômios de grau baixo para evitar
problemas de mal condicionamento, isto é, quando o problema se mostra sensível a perturbações
nos dados.
Agora, será incluída uma perturbação nos dados para avaliar como o problema lida com
essa situação. Ou seja, dados os mesmos xi , foram calculados yi + δi , onde δi > 0 é um número
real bem pequeno que foi gerado como um dado vindo de uma distribuição normal padrão. Veja
os novos gráficos nas figuras (de 24 à 35):
Para estes casos, verifica-se que o polinômio de grau 12 apresenta um bom ajuste aos
dados e os polinômios de graus maiores apresentam aproximações muito ruins, principalmente
nos extremos dos intervalos, evidenciando um mal condicionamento do problema apresentado.
É importante comentar que existe uma alternativa para o ajuste polinomial. Não é
necessário ajustar apenas polinômios. Pode-se repetir este mesmo procedimento do exemplo
anterior para outros tipos de funções. A ideia é simples:
Sejam f1 (y), . . . , fn (y) um conjunto de funções independentes, onde o domínio de f é Rk
e a imagem é R. E considere, também, um conjunto de pontos (y1 , b1 ), . . . , (ym , bm ) com yi ∈ Rk e
bi ∈ R. Deseja-se encontrar um melhor ajuste a esses pontos de modo que b = nj=1 x j f j (y). Em
P
48 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

Figura 26 – Dados com perturbação gaussiana - Figura 27 – Dados com perturbação gaussiana -
Grau 4 Grau 7

Figura 28 – Dados com perturbação gaussiana - Figura 29 – Dados com perturbação gaussiana -
Grau 8 Grau 11

Figura 30 – Dados com perturbação gaussiana - Figura 31 – Dados com perturbação gaussiana -
Grau 12 Grau 15
5.3. Condicionamento e Estabilidade 49

Figura 32 – Dados com perturbação gaussiana - Figura 33 – Dados com perturbação gaussiana -
Grau 17 Grau 18

Figura 35 – Dados com perturbação gaussiana -


Figura 34 – Dados com perturbação gaussiana -
Grau 22
Grau 20

outras palavras, deve-se escolher x = [x1 , . . . , xn ]T que minimize os resíduos ri ≡ nj=1 x j f j (y)−bi
P

para 1 ≤ i ≤ m. Colocando ai j = f j (yi ), a equação é escrita como r = Ax − b, onde A é uma


matriz de dimensão m × n, x possui dimensão n × 1, enquanto que b e r tem tamanho m × 1.
Uma boa escolha de funções básicas fi (y) pode levar a melhores ajustes e sistemas menos
mal-condicionados do que quando se usam polinômios.

5.3 Condicionamento e Estabilidade


Nesta seção se discute brevemente sobre condicionamento e estabilidade. Para mais
detalhes, consulte [1]. Em resumo, condicionamento refere-se ao comportamento de um problema
matemático diante de uma perturbação nos dados, já estabilidade refere-se ao comportamento de
um algoritmo utilizado para resolver este problema diante de uma perturbação.

Condicionamento de um problema
Um problema pode ser visto como uma função f : X → Y onde X é um espaço vetorial
normado de dados e Y é também um espaço vetorial normado, só que de soluções. Normalmente
50 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

f é uma função não linear, mas na maioria das vezes é, pelo menos, contínua. Geralmente, o
interesse do pesquisador está no comportamento de um problema f num determinado ponto
x ∈ X.
Um problema é bem-condicionado quando o problema possui a propriedade de que todas
as pequenas pertubações em x causam apenas pequenas mudanças em f (x). Enquanto que um
problema mal-condicionado é aquele que tem a propriedade de que alguma pequena pertubação
em x causa grandes mudanças em f (x). Observe que o significado das palavras “pequenas” e
“grandes” na discussão acima varia de acordo com a aplicação. As vezes é mais apropriado medir
as pertubações em uma escala absoluta, outras vezes é melhor medi-las em relação à norma do
objeto a ser perturbado. A seguir são definidos número condição absoluto e número condição
relativo.

Número Condição Absoluto

Seja δx uma notação para uma pequena perturbação de x, e considere δ f = f (x + δx) −


f (x). O Número Condição Absoluto bκ =b
κ(x) de uma problema f em x é definido como:
||δ f ||
κ = lim sup
b . (5.4)
δ→0 ||δx||≤δ ||δx||

Para a maioria dos problemas, o limite do supremo na equação 5.4 acima pode ser
interpretado como um supremo sobre todas as pertubações infinitesimais δx, e para facilitar a
leitura, a fórmula é escrita de maneira mais simples:

||δ f ||
κ = sup
b , (5.5)
δx ||δx||
onde δx e δ f são entendidos como infinitesimais.
Se f é diferenciável, pode-se avaliar o número de condição por meio da derivada de f.
∂ fi
Seja J(x) uma matriz cujas entradas i, j são as derivadas parciais ∂x j
avaliadas em x, conhecida
como matriz Jacobiana de f em x. A definição da derivada de primeira ordem, fornece δ f ≈
J(x)δx, com igualdade quando ||δx|| → 0. O número condição absoluto se torna:

κ = ||J(x)||,
b (5.6)

onde ||J(x)|| representa a norma de J(x) induzida pelas normas em X e em Y.

Número Condição Relativo

O Número Condição Relativo κ = κ(x) é definido por


 ||δ f || 
 
 || f (x)|| 
κ = lim sup   . (5.7)
δ→0 ||δx||≤δ  ||δx|| 

 
||x||
5.3. Condicionamento e Estabilidade 51

ou, novamente assumindo que δx e δ f são infinitesimais,


 ||δ f || 
 
 || f (x)|| 
κ = sup   , (5.8)
δx   ||δx|| 

||x||

Se f é diferenciável, pode-se expressar esta equação em termos da matriz Jacobiana:


||J(x)||
κ= || f (x)||
. (5.9)
||x||

Tanto o número de condição absoluto quanto o número de condição relativo têm suas
utilidades, mas o último é mais importante na análise numérica.
Para problemas de mínimos quadrados lineares, os dados são A uma matriz m × n e b
um vetor de dimensão m. A solução é tanto o vetor de coeficientes x ou o ponto correspondente
y = Ax. Isto define quatro casos de condicionamento a serem estudados: sensibilidade de y a
perturbações em b; sensibilidade de x a perturbações em b; sensibilidade de y a perturbações
em A e sensibilidade de x a perturbações em A. Uma discussão detalhada sobre esses problemas
pode ser encontrada em [1].

Estabilidade de um problema
Seria muito bom se algoritmos numéricos pudessem fornecer as soluções exatas dos
problemas numéricos. Mas, lembre-se que os problemas são contínuos enquanto que os compu-
tadores digitais são discretos, ou seja, isto geralmente não é possível. A noção de estabilidade é
a maneira padrão de caracterizar o que é possível. E ser “possível”, em análise numérica, é ter
ideia do que significa obter a “resposta certa”, mesmo que não seja exata.
Se o problema for mal-condicionado, o objetivo de precisão é excessivamente ambicioso.
Arredondamento dos dados de entrada é inevitável em um computador digital, e mesmo se todos
os cálculos posteriores pudessem ser efetuados perfeitamente, esta perturbação por si só poderia
levar a uma mudança significativa no resultado. Em vez de olhar para a precisão em todos os
casos, a maioria da vezes é mais adequado apontar para a estabilidade.
Um algoritmo pode ser definido como um mapeamento f˜ : X → Y entre os espaços
vetoriais X de dados e Y das soluções. Denote a solução calculada para um sistema de equações
Ax = b por x̃.

Estabilidade

Diz-se que um algoritmo f˜ para um problema f é estável se para cada x ∈ X,

|| f˜(x) − f ( x̃)||
= O( máquina ) (5.10)
|| f ( x̃)||
52 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

para algum x̃ com


|| x̃ − x||
= O( máquina ), (5.11)
||x||

onde O( máquina ) significa a ordem do “epsilon da máquina”.

Estabilidade “Para trás”

Diz-se que um algoritmo f˜ para um problema f é estável para trás se para cada x ∈ X,

f˜(x) = f ( x̃) (5.12)

para algum x̃ com


|| x̃ − x||
= O( máquina ).
||x||

Com relação a estabilidade dos algoritmos para resolver problemas de mínimos quadrados
pode-se verificar os resultados dados pelos teoremas a seguir.

Teorema 19. A solução do problema de mínimos quadrados de posto máximo (5.1) pela Orto-
gonalização de Gram-Schmidt é estável “para trás”.

Teorema 20. A solução do problema de mínimos quadrados de posto máximo (5.1) através do
método de Equações Normais é instável. A estabilidade pode ser alcançada, no entanto, pela
restrição a uma classe de problemas em que κ(A) é uniformemente limitado superiormente ou
(tan θ)
é uniformemente limitado inferiormente, onde κ(A) = σ1 /σn , θ = cos−1 ||b||
||y||
e η = ||A||||x|| .1
η ||Ax||

Teorema 21. A solução do problema de mínimos quadrados de posto máximo (5.1) por SVD é
estável “para trás”.

Detalhes sobre a teoria e os teoremas podem ser obtidos em [1], [8] e [2].

5.4 Regressão Linear Simples e Múltipla


Uma aplicação de MQO em Estatística é em regressão linear. Para explicar o modelo
de regressão linear, é preciso apresentar algumas definições. Mais detalhes sobre a teoria de
regressão, estatística básica e inferência estatística podem ser obtidos em [8], [21] e [22].

Definição 10. Pode-se associar um conjunto de números reais com os resultados de experimentos
aleatórios, definindo, assim, uma VA (Variável Aleatória), que transforma os pontos do espaço
amostral em pontos da reta real (isto é, números).
1
Esses números se referem ao número condição do problema de mínimos quadrados, descrevendo a sensibilidade
de y e x a perturbações em A e b.
5.4. Regressão Linear Simples e Múltipla 53

Definição 11. A média amostral é a média aritmética dos valores em uma amostra aleatória
n
x1 , x2 , . . . , xn 1 X
x= = xi .
n n i=1

Teorema 22. Sejam x1 , x2 , . . . , xn números quaisquer e considere a média amostral. Então


n
X n
X
min (xi − a) =
2
(xi − x)2
a
i=1 i=1

Demonstração.
n
X n
X
(xi − a)2 = (xi − a + x − x)2
i=1 i=1
n
X
= ((xi − x) − (a − x))2
i=1
n
X
= [(xi − x)2 − 2(xi − x)(a − x) + (a − x)2 ]
i=1
n
X
= [(xi − x)2 − 2(xi a − xi x − xa − x2 ) + (a − x)2 ]
i=1
n
X n
X n
X
= (xi − x)2 − 2 (xi a − xi x − xa − x2 ) + (a − x)2
i=1 i=1 i=1
n
X n
X n
X n
X n
X n
X
= 2
(xi − x) − 2[ xi a − xi x − xa − x ]+
2
(a − x)2
i=1 i=1 i=1 i=1 i=1 i=1

 :0

n
X  Xn
=  − n(xa) + n(x )] +
2
 2
x)2

(xi − x) − 2[(nx)a 
−(nx)x
  (a −
i=1  i=1

n
X n
X
= (xi − x) +
2
(a − x)2
i=1 i=1

É fácil verificar que o valor de a que minimiza essa soma é a = x. 

Regressão Linear Simples


Um dos principais propósitos de regressão2 é explorar a dependência de uma variável em
outras. É a ferramenta estatística mais popular.
Dadas duas variáveis aleatórias y e x, que representam uma população, o objetivo é
“explicar y em termos de x”, ou em “estudar como y varia com variações em x”. Para isso, não se
2
a palavra regressão é usada em estatística para significar uma relação entre variáveis.
54 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

pode deixar de considerar outros fatores que também afetam y; qual a relação funcional entre y e
x e como se pode estar certo de que se está capturando uma relação entre y e x.
Uma equação simples é:
y = β0 + β1 x + ,

onde y é a variável dependente ou variável explicada ou variável resposta ou regressando e


x é a variável independente ou variável explicativa ou variável de controle ou regressor. As
quantidades β0 e β1 são chamadas, respectivamente, o intercepto e a inclinação da regressão e
são os parâmetros desconhecidos; já  é uma VA chamada de termo de erro ou perturbação da
relação, representa outros fatores, além de x, que afetam y.
Uma análise de regressão simples trata, efetivamente, todos os fatores, além de x, que
afetam y como não observados. Você pode pensar em  como representando o “não observado”.
É comum supor que E() = 0 (caso contrário basta colocar o excesso em β0 ). Assim,

EY = β0 + β1 x. (5.13)

Em geral, a função que dá EY como função de x é chamada a função de regressão


populacional (FRP). O principal objetivo da regressão é prever Y a partir do conhecimento de x
usando a relação (5.13).
As inferências se baseiam na relação entre Y e x assumido o conhecimento de x. Assim,
pode-se reescrever (5.13) como:
E(Y|x) = β0 + β1 x.

Quando se refere a uma regressão que é linear, significa que a esperança condicional de
Y dado que X = x é uma função linear de x.
Ao escrever E(Y|x) = β0 + β1 x implicitamente se assume a hipótese de que a regressão
de Y em X é linear.

E(Y|x) ≈ β0 + β1 x

é uma aproximação razoável.

Observação 4. Pode ser extremamente improvável que a função verdadeira f (X) seja de fato
linear em X. Em problemas de regressão, f (X) = E(Y|X) tipicamente será não linear e não aditivo
em X mas, representar f (X) por um modelo linear é usualmente conveniente e algumas vezes
uma aproximação necessária. Conveniente porque um modelo linear é fácil de interpretar e é a
aproximação de Taylor de 1a ordem para f (X). Algumas vezes necessário porque se o número
de amostras é pequeno, um modelo linear pode ser tudo que se é capaz de ajustar aos dados sem
“overfitting”.
5.4. Regressão Linear Simples e Múltipla 55

Figura 36 – Reta que melhor se ajusta a esse conjunto de pontos

Solução matemática: mínimos quadrados ordinários

O objetivo é estimar os parâmetros β0 e β1 .


Dados: (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ).
Pode-se escrever:
yi = β0 + β1 xi + i ,

para cada i. Assim, i é o termo de erro para a observação i, uma vez que ele contém todos os
fatores além de xi , que afetam yi .
Baseado nos dados, definem-se as quantidades a seguir.
Médias amostrais:
n n
1X 1X
x= xi e y= yi
n i=1 n i=1

Somas de quadrados:
n
X n
X
S xx = (xi − x) 2
e S yy = (yi − y)2
i=1 i=1

Soma dos produtos cruzados:


n
X
S xy = (xi − x)(yi − y)
i=1

Considere o gráfico da figura 36 com 24 pontos de dados. O objetivo é desenhar a partir


dessa nuvem de pontos uma reta que se ajusta a todos os pontos.
56 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

Para qualquer reta y = c + dx, a soma dos quadrados dos resíduos (SQR) é definida
como:
n
X
S QR = (yi − (c + dxi ))2 .
i=1

SQR mede a distância vertical de cada ponto de dado para a linha c + dx e então soma os
quadrados dessas distâncias. As estimativas de β0 e β1 são definidas como os valores a e b tal
que a reta a + bx minimiza SQR. Isto é, as estimativas de mínimos quadrados, a e b satisfazem:
n
X n
X
min (yi − (c + dxi )) = 2
(yi − (a + bxi ))2 .
c,d
i=1 i=1

Para qualquer valor d fixo, o valor de c que dá o valor mínimo pode ser encontrado
escrevendo:
Xn Xn
(yi − (c + dxi )) =
2
((yi − dxi ) − c)2
i=1 i=1

Pelo teorema 22, demonstrado no início desta seção, o valor de c que minimiza essa
soma é:
n
1X
c= (yi − dxi ) = y − dx.
n i=1

Portanto, para um dado valor de d, o valor mínimo de SQR é:


n
X n
X
((yi − dxi ) − (y − dx)) =
2
((yi − y) − d(xi − x))2
i=1 i=1
n
X
= ((yi − y)2 − 2d(yi − y)(xi − x) + d2 (xi − x)2 )
i=1
n
X n
X n
X
= 2
(yi − y) − 2d (yi − y)(xi − x) + d 2
(xi − x)2
i=1 i=1 i=1

= S yy − 2dS xy + d S xx . 2

Para obter o valor de d que minimiza SQR, basta derivar a função quadrática em d e
igualar a derivada a 0, obtendo assim, o mínimo global:

−2S xy + 2dS xx = 0 ⇒ 2dS xx = 2S xy


S xy
⇒d= .
S xx

Este valor é de fato um mínimo desde que o coeficiente de d2 é positivo. Portanto, dados
S
os valores c e d obtidos, a = y − cx e b = S xxxy são os valores de c e d que minimizam a SQR.
5.4. Regressão Linear Simples e Múltipla 57

Figura 37 – Plano que melhor se ajusta a esse conjunto de pontos

Regressão Linear Múltipla


Este é o modelo de regressão com duas ou mais variáveis independentes.
Primeiramente, considere o estudo com duas variáveis independentes e então generalize
para k variáveis independentes.
Assume-se uma relação linear entre a variável dependente y e as duas variáveis indepen-
dentes x1 e x2 , então o valor esperado ou a média populacional de y associada com a i−ésima
observação pode ser expressa como:

E(yi ) = β0 + β1 x1i + β2 x2i

Ao considerar o valor de uma única observação yi (ao invés de sua esperança), quando x1
é fixado em x1i e x2 está fixado em x2i , então é preciso adicionar o componente de erro, i , pois
uma observação particular yi pode desviar da média de todas as observações em x1i e x2i . Assim,
o modelo para yi é:
yi = β0 + β1 x1i + β2 x2i + i

Geometricamente, no caso de duas variáveis independentes a equação para o valor


esperado de y descreve um plano no espaço euclidiano tridimensional com x1 , x2 e y como os
eixos coordenados. No caso de n variáveis independentes a equação para o valor esperado de y
descreve um hiperplano no espaço euclidiano de n + 1 dimensões.
Suponha que se tem uma amostra com n observações em y para n valores de x1 e x2 ,
58 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

então a amostra de observações pode ser expressa como:


y1 = β0 + β1 x11 + β2 x21 + 1
y2 = β0 + β1 x12 + β2 x22 + 2
.........................
.........................
yn = β0 + β1 x1n + β2 x2n + n

Usando álgebra matricial, obtem-se:


1 
     
y1  1 x11 x21   
    β0   
 β  + 2 
y2  1 x12 x22     
  = 
 ..   .. .. ..   1   .. 
 .   . . .   
 β2  . 
n
    
yn 1 x1n x2n

A expressão usando matrizes podem ser expressa de modo mais compacto como:

y = Xβ + 

Pode ser visto que a variável y pode ser decomposta em um componente determinístico
Xβ e um componente aleatório .
O objetivo da análise de regressão é estimar os parâmetros β0 , β1 , β2 e a variância de i
com base nos dados da amostra. Para isso, é preciso fazer hipóteses sobre o modelo. Assuma que
os valores de xi1 , xi2 estão fixos em amostragens repetidas e que o único componente aleatório no
modelo é . Isto é, a matriz X é fixa, mas o vetor  é aleatório, o qual fornecerá valores diferentes
em amostragens repetidas.
Considere também que cada i é normalmente distribuído com média zero e a variância
comum σ2 , e os i são não correlacionados.
A última hipótese é que o posto da matriz X deve ser igual ao número de parâmetros
a serem estimados (três no caso de duas variáveis independentes) e o número de parâmetros
a serem estimados deve ser menor do que o número de observações na amostra. Desde que o
número de parâmetros a serem estimados deve ser igual ao número de colunas de X, a condição
do posto será satisfeita se os vetores colunas formam um conjunto linearmente independente.

Solução por mínimos quadrados para os parâmetros da regressão

Considere o modelo y = Xβ + , o objetivo é estimar β a partir da matriz fixa conhecida


X e do vetor associado das observações aleatórias, y. O vetor y é aleatório porque ele é a soma
do vetor aleatório  e o vetor fixo Xβ.
A estimativa de β, denotada por b
β é obtida pela minimização da soma dos quadra-
dos dos erros e . Por álgebra matricial, pode-se representar e2i como E(eT e) onde eT =
P 2 P

[e1 , e2 , . . . , en ] .
5.4. Regressão Linear Simples e Múltipla 59

Note que o modelo da população é:

y = Xβ + ,

enquanto que o modelo baseado na estimação por mínimos quadrados é:

y = Xb
β + e,

onde bβ é o estimador de mínimos quadrados de β e e é o vetor dos resíduos estimados do


plano de regressão por mínimos quadrados.
Como b β tem probabilidade zero de ser exatamente igual a β, o vetor dos resíduos
determinados empiricamente e diferirão do vetor da população atual .
Dada a equação y = Xb
β + e, obtemos e = y − Xb
β.
Logo,
eT e = (y − Xb
β)T (y − Xb
β)

β é considerado
Como X e y são conhecidos, eles são considerados constantes, e o vetor b
como uma variável. Busca-se obter um valor particular do vetor b β que minimize eT e. Assim,
β tal que:
deseja-se encontrar o valor de b

∂eT e
= 0,
∂b
β

isto é,
∂eT e
= 0 = −2X T y + 2X T Xb
β,
∂b
β

β deve satisfazer a equação matricial X T Xb


assim, b β = X T y.
Essa expressão matricial obtida é conhecida como o conjunto de equações normais.
Considere o problema de regressão múltipla com duas variáveis independentes. Suas
equações normais são:

   
 1 x11 x21      y1 
1 . . . 1    βˆ   1 1 . . . 1   

 1
 1 x12 x22   0    y 
 βˆ1  =  x11 x12 . . . x1n   .2 

 x11 x12 . . . x1n   . . .
   .. .. ..       .. 
x21 x22 . . . x2n   βˆ
2 x21 x 22 . . . x2n
 
1 x1n x2n yn
  

Para resolver essas equações, considere a forma matricial

β = X T y.
X T Xb
60 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

Como X T X é uma matriz quadrada k × k, ela é assumida ser não singular e portanto
inversível, assim, pode-se multiplicar ambos os lados das equações normais por (X T X)−1 para
obter:
β = (X T X)−1 X T y.
(X T X)−1 (X T X)b

ou seja,
β = (X T X)−1 X T y.
b

O método de mínimos quadrados pode ser usado para qualquer número de variáveis
independentes contínuas.
A seguir, serão exibidas algumas aplicações envolvendo regressão linear múltipla usando
dados simulados e dados reais.

Dados simulados: Aproximação de uma função linear

Primeiramente, gera-se um conjunto de dados artificiais da seguinte maneira:

1. São geradas 10 variáveis aleatórias independentes e uniformemente distribuídas no inter-


valo [0, 1]. Denotam-se essas VAs, trivialmente, como: X1 , X2 , . . . , X9 e X10 .

2. Obtém-se a variável resposta Y associada ao vetor X = (X1 , . . . , X10 ), usando a seguinte


equação:
Y = 2X1 − 4X2 + 20(X3 − 0.5) + 10X4 + 5X5 + ,

onde  representa uma pertubação gaussiana.

Em seguida, o conjunto de dados gerados será dividido em dois conjuntos: conjunto de


treino e conjunto de teste, sendo que o primeiro conjunto possui 100 elementos e o segundo
10000. O primeiro conjunto de dados será usado para ajustar o modelo e o segundo para verificar
o ajuste do modelo para novos dados, já que estes não foram usados na construção do modelo.
Como a função utilizada aqui possui uma estrutura fortemente linear, o esperado é que o
método de regressão linear múltipla apresente uma boa aproximação da função.
Para essa aplicação usamos o pacote scikit-learn ([18]) da linguagem Python.
O modelo obtido com os dados treino foi:
Y = −9.84 + 1.86X1 − 4.43X2 + 19, 96X3 + 10.45X4 + 4.43X5 + 0.34X6 + 0.045X7 +
0.49X8 − 0.20X9 − 0.03X10
Para medir a qualidade do ajuste feito pela regressão pode-se calcular o coeficiente de
correlação múltipla. Este valor mede o grau de associação linear entre Y e o conjunto de variáveis
no modelo. Seu valor varia de 0 a 1 e quanto mais próximo de 1, melhor o ajuste. Para o exemplo,
obtemos o valor de 0.98, mostrando que o modelo se ajustou muito bem aos dados.
5.4. Regressão Linear Simples e Múltipla 61

MSE MAD
Regressão Linear 1.11 0.84
CART 9.871 2.523
MARS 0.996 0.799
Tabela 1 – Dados simulados - função linear

Pode-se comparar o resultado obtido com a regressão múltipla com outras técnicas de
regressão, como o método que trabalha com arvores binárias de regressão, conhecido como
CART e o método MARS, que é uma generalização do método CART. Os resultados desses
métodos foram obtidos do trabalho de [17]. A tabela a seguir mostra os erros MSE (Mean
Squared Error) e MAD (Mean Absolute Deviation) para os modelos estudados. O MSE e o MAD
são calculados como:

n
1X
MSE = (yi − f˜(xi ))2 (5.14)
n i=1

n
1X
MAD = |yi − f˜(xi )| (5.15)
n i=1

onde yi é o valor da resposta no conjunto teste e f˜(xi ) é o valor obtido pelo cálculo da
função ajustada pelo modelo no xi do conjunto teste.
Verifica-se que o modelo capturou bem a associação linear existente entre a variável
resposta e as variáveis explicativas.

Dados simulados: Aproximação de uma função com estrutura não linear

Analogamente, será feito o mesmo procedimento anterior para uma função com estrutura
não linear.
Neste exemplo também será gerado um conjunto de dados, porém com uma função não
linear.

1. São geradas 10 variáveis X1 , X2 , . . . , X9 e X10 correlacionadas. Essas variáveis foram


geradas como no trabalho de [17].

2. Obtém-se a variável resposta Y associada ao vetor X = (X1 , . . . , X10 ), usando a seguinte


equação:
Y = 10 sen(πX1 X2 ) + 20(X3 − 0.5)2 + 10X4 + 5X5 + ,
onde  representa a mesma pertubação gaussiana.

Análogo ao exemplo anterior, o conjunto de dados é dividido em dois conjuntos: um


conjunto de treino com 100 elementos e um conjunto de teste com 10000 elementos.
62 Capítulo 5. Métodos de Mínimos Quadrados e Aplicações

MSE MAD
Regressão Linear 796.72 17.73
CART 273.972 11.820
MARS 51.454 5.359
Tabela 2 – Dados simulados - função não linear

Como a função utilizada agora possui uma estrutura fortemente não linear, diferentemente
do exemplo anterior, logicamente o esperado é que o método de regressão linear múltipla não
apresente uma boa aproximação da função.
O modelo obtido com os dados treino foi:
Y = 22.35 + 10.23X1 + 8.40X2 − 11.95X3 + 14.27X4 − 3.34X5 − 34.33X6 − 35.56X7 −
6.24X8 + 2.30X9 − 7.28X10
Neste caso, como esperado, o coeficiente de correlação múltipla obtido foi 0.22, ou seja,
obteve-se um valor mais próximo de zero, indicando a inexistência de uma relação linear entre a
variável dependente Y e o conjunto de variáveis explicativas X.
O resultado encontrado com a regressão múltipla foi comparado com os métodos CART
e MARS, obtidos do trabalho de Ferreira e são exibidos na tabela a seguir.
Como esperado, o desempenho do método de regressão linear não capturou a estrutura
não linear dos dados.

Dados Reais

Previsão dos preços médios das casas em Boston


Os dados estudados a seguir, podem ser encontrados em [24], e são dados para prever o
preço médio das casas numa determinada área de Boston. Para obter os dados, efetuaram-se 506
censos na área de Boston, registando os valores de 14 variáveis contínuas (entre elas a variável
de previsão MV).
Na tabela a seguir, estão as variáveis utilizadas para regressão linear.
Aplica-se a regressão linear, o CART e o MARS a este domínio. Com a regressão liner,
o modelo obtidos com os dados foi:
Y = 30.18−1.95e−01 X1 +4.41e−02 X2 +5.21e−02 X3 +1.89e+00 X4 −1.50e+01 X5 +4.76e+00 X6 +
2.62e−03 X7 − 1.30e+00 X8 + 4.60e−01 X9 − 1.56e−02 X10 8.11e−01 X11 − 2.18e−03 X12 − 5.32e−01 X13
O ajuste do modelo aos dados, medido pelo coeficiente de correlação múltipla foi de 0.72,
indicando que existe uma relação linear entre a variável dependente e suas variáveis explicativas.
Assim como foi feito com dados simulados, pode-se comparar a regressão linear com os métodos
CART e MARS obtidos do trabalho de [17].
5.4. Regressão Linear Simples e Múltipla 63

Nome Descrição
CRIM Taxa criminal
ZN Porcentagem de terrenos divididos em lotes
INDUS Porcentagem de negócios não varejistas
CHAS 1 se a casa é próxima ao Rio Charles, 0 caso contrário
NOX Concentração de oxido nítrico (partes por cada 10 milhões)
RM Número médio de quartos
AGE Porcentagem de casas construídas antes de 1940
DIS Distância ponderada a 5 centros comerciais de Boston
RAD Índice de acessibilidade a estradas nacionais
TAX Taxa de impostos
PTRATIO Proporção professor/aluno
B Proporção de negros
LSTAT Proporção de população de baixa posição social
MV Valor médio das casas em milhares de dolares
Tabela 3 – Variáveis Aleatórias

MSE MAD
Regressão Linear 33.31 4.76
CART 69.354 5.001
MARS 41.515 5.405
Tabela 4 – Comparação entre os métodos - Dados reais

Com os resultados obtidos, verifica-se que a regressão linear teve um bom desempenho
comparada aos outros métodos de regressão. Ressalta-se que este modelo é o modelo linear mais
simples a ser estudado, fácil de interpretar e barato computacionalmente.
65

6 Conclusões e Trabalhos Futuros

O método de mínimos quadrados tem inúmeras aplicações, é de fácil implementação e


interpretação. Para resolver problemas com esta técnica, existem três métodos: equações normais,
SVD e QR. O método de equações normais é mais simples de ser implementado do que o SVD e
o QR, visto que, quando se usa a fatoração Cholesky em vez da LU, o tempo gasto é menor. O
SVD é voltado para problemas de mal condicionamento, geralmente quando a matriz de dados
não possui posto completo. E quando se quer dados mais precisos pode-se usar a fatoração QR.
Utilizando qualquer uma das fatorações aprendidas, podem-se alcançar resultados eficientes.
Uma das aplicações mais utilizadas com o método é no ajuste de curvas. Neste trabalho,
foi estudado o ajuste polinomial de curvas, onde se busca um melhor ajuste aos dados pela
minimização dos resíduos. Verifica-se que os resíduos diminuem conforme o grau o polinômio
aumenta. Mas, embora esses polinômios de grau maior pareçam capturar bem o comportamento
da curva, eles precisam de um número maior de parâmetros a ser estimados pelo método, e pode
acontecer de ocorrer um super-ajuste aos dados. Então busca-se ajustar polinômios de grau baixo
para evitar problemas de mal condicionamento e estabilidade. Este ajuste polinomial pode ser
generalizado para os casos em que os polinômios podem ser quaisquer funções independentes,
não necessariamente polinômios. E assim, pode-se obter um melhor ajuste.
Como exemplo de uma aplicação em outra área, foi feito o exemplo de regressão linear
simples e múltipla. Neste problema de estatística, busca-se encontrar o melhor ajuste linear a um
conjunto de dados. Esse problema é resolvido por MQO. Neste trabalho, foram gerados dados
simulados e dados reais e, o método conseguiu capturar uma estrutura linear nos dados, quando
existente.
Como trabalhos futuros, pode-se estudar sobre MQO mais elaborados tais como MQO
Modificados, Generalizados, Métodos diretos para problemas dispersos, Métodos iterativos para
MQO, MQO com bases especiais e MQO não linear. Basta ver [3] para obter mais detalhes.
Podem-se estudar outras aplicações, como por exemplo, no ajuste polinomial de curvas utilizando
outras funções além de polinômios.
67

Referências

1 TREFETHEN, L. N.; Bau, III, D. Numerical Linear Algebra. pub-SIAM:adr: pub-SIAM,


1997. Citado 15 vezes nas páginas 2, 5, 6, 7, 8, 14, 19, 27, 33, 35, 37, 38, 49, 51 e 52.

2 DEMMEL, J. W. Applied Numerical Linear Algebra. Philadelphia (Pa.): Society for


Industrial and Applied Mathematics, 1997. Citado 6 vezes nas páginas 2, 5, 27, 35, 38 e 52.

3 BJöRCK, A. Numerical Methods for Least Squares Problems. S.I.A.M.: Society for
Industrial and Applied Mathematics, 1996. Citado 6 vezes nas páginas 2, 27, 33, 35, 38 e 65.

4 ELDEN, L. Matrix Methods in Data Mining and Pattern Recognition. Philadelphia: S.I.A.M.,
2007. Citado 4 vezes nas páginas 2, 25, 27 e 35.

5 MALAJOVICH, G. Algebra Linear. UFRJ: UFRJ, 2010. Citado 5 vezes nas páginas 2, 5,
25, 35 e 38.

6 QUARTERONI, A.; SACCO, R.; SALERI, F. Numerical Mathematics. Second edition:


Springer, 2000. Citado 4 vezes nas páginas 2, 27, 35 e 38.

7 DATTA, B. N. Numerical Linear Algebra and Applications. SIAM: Brooks/Cole Pub., 1995.
Citado 3 vezes nas páginas 2, 23 e 27.

8 GOLUB, G. H.; ORTEGA, J. M. Scientific Computing and Differential Equations. An


Introduction to Numerical Methods. San Diego New York Boston and London Sydney Tokyo
Toronto: Academic Press, 1992. Citado 3 vezes nas páginas 2, 38 e 52.

9 CAMPOS, L. E. da S. Um estudo sobre fatorações de matrizes e a resolução de sistemas


lineares. Dissertação (Dissertatação de Mestrado) — Universidade Estadual de Campinas,
Campinas - SP - BR, 2008. Citado 4 vezes nas páginas 2, 25, 26 e 38.

10 LIMA, E. L. Álgebra Linear. IMPA: SMB, 2009. Citado 4 vezes nas páginas 2, 5, 7 e 12.

11 LIMA, E. L. Analise Real - Vol. 1. Rio de Janeiro - IMPA: SMB, 2010. Citado na página 2.

12 LIMA, E. L. Analise Real - Vol. 2. Rio de Janeiro - IMPA: SMB, 2013. Citado 2 vezes nas
páginas 2 e 5.

13 STRANG, G. Linear Algebra and Its Applications. United States of America: Thomson
Brooks/Cole„ 2006. Citado 4 vezes nas páginas 2, 6, 25 e 38.

14 CALLIOLI, C. A.; COSTA, R. C. F.; DOMINGUES, H. H. Álgebra linear e aplicações.


procurar endereco bibtex: procurar tbm, 1990. Citado 3 vezes nas páginas 2, 5 e 12.

15 HEFFERON, J. Linear Algebra. Mathematics, Saint Michael’s College: Colchester,


Vermont USA, 2001. Citado 2 vezes nas páginas 2 e 38.

16 HOFFMAN, K.; KUNZE, R. Linear Algebra. PRENTICE-HALL, INC., Englewood Cliffs,


New Jersey: United States of America, 1971. Citado 3 vezes nas páginas 2, 12 e 38.
68 Referências

17 FERREIRA, M. de F. M. Arvores de Regressão e generalizações - Aplicações. Dissertação


(Dissertatação de Mestrado) — Faculdade de Ciências da Universidade do Porto, 1999. Citado
3 vezes nas páginas 2, 61 e 62.

18 PEDREGOSA, F. et al. Scikit-learn: Machine learning in Python. Journal of Machine


Learning Research, v. 12, p. 2825–2830, 2011. Citado 2 vezes nas páginas 2 e 60.

19 BREIMAN, L. Bagging Predictors. Berkeley, California: Department of Statistics,


University of California, 1992. Citado na página 2.

20 HAMILTON, A. G. A first course in linear algebra. Department of Computing Science,


University of Stirling: Cambridge University Press, New York, 1987. Citado na página 2.

21 CASELLA, G.; BERGER, R. L. Statistical Inference. United States of America: Duxbury -


Thomson Learning, 2002. Citado 2 vezes nas páginas 2 e 52.

22 DEGROOT, M. H.; SCHERVISH, M. J. Probability and Statistics. Carnegie-Mellon


University: Pearson Publications„ 2011. Citado 2 vezes nas páginas 2 e 52.

23 MARINELLI, M. F. Método de Quadrados Mínimos. Universidade Federal de Santa


Catarina - Florianópolis: Departamento de Matemática Centro de Ciências Físicas e Matemáticas,
2002. Citado 3 vezes nas páginas 27, 35 e 38.

24 LICHMAN, M. UCI Machine Learning Repository. 2013. Disponível em: <http:


//archive.ics.uci.edu/ml>. Citado na página 62.

Você também pode gostar