AICe BIC

FUNDAMENTOS E APLICAES DOS CRITRIOS
DE INFORMAO: AKAIKE E BAYESIANO
PAULO CSAR EMILIANO
2009
PAULO CSAR EMILIANO
FUNDAMENTOS E APLICAES DOS CRITRIOS DE

INFORMAO: AKAIKE E BAYESIANO
Dissertao apresentada Universidade Federal de

Lavras como parte das exigncias do Programa
de Ps-graduao em Estatstica e Experimentao
Agropecuria, para obteno do ttulo de Mestre.
Orientador
Prof. Dr. Mrio Javier Ferrua Vivanco
Co-orientador
Prof. Dr. Fortunato Silva de Menezes
LAVRAS
MINAS GERAIS-BRASIL
2009
Ficha Catalogrfica Preparada pela Diviso de Processos Tcnicos da

Biblioteca Central da UFLA
Emiliano, Paulo Csar.

Fundamentos e aplicaes dos critrios de informao: Akaike e
Bayesiano / Paulo Csar Emiliano. Lavras : UFLA, 2009.
92 p. : il.
Dissertao (Mestrado) Universidade Federal de Lavras, 2009.
Orientador: Mrio Javier Ferrua Vivanco.
Bibliografia.
1. Critrio de Informao de Akaike. 2. Entropia . 3. Critrio de
Informao de Schwarz. 4. Informao de Kullback-Leibler 5.
Seleo de Modelos. I. Universidade Federal de Lavras. II. Ttulo.
CDD 536.73
PAULO CSAR EMILIANO
FUNDAMENTOS E APLICAES DOS CRITRIOS DE

INFORMAO: AKAIKE E BAYESIANO
Dissertao apresentada Universidade Federal de

Lavras, como parte das exigncias do Programa
de Ps-graduao em Estatstica e Experimentao
Agropecuria, para obteno do ttulo de Mestre.
APROVADA em 19 de fevereiro de 2009.

Prof. Dr. Fortunato Silva de Menezes
UFLA
Prof. Dr. Marcelo Angelo Cirillo
UFLA
Prof. Dr. Telde Natel Custdio
UFSJ
Prof. Dr. Mrio Javier Ferrua Vivanco

UFLA
(Orientador)
LAVRAS
MINAS GERAIS - BRASIL
Aos meus pais, Francisco e Alzira ,

que souberam conduzir com
muita sabedoria a minha
formao.
" If you have an apple and I have an apple and we exchange apples
then you and I still have one apple.
But if you have an idea and I have an idea and we exchange these ideas,
then each of us will have two ideas."
George Bernard Shaw
AGRADECIMENTOS
Primeiramente a Deus, que deu-me foras em todos os momentos de minha

vida, e a Nossa Senhora Aparecida, que sempre intercede por mim e da qual sou
devoto.
Meus sinceros agradecimentos ao professor Mrio Javier Ferrua Vivanco, pela
pacincia com que me orientou, disponibilidade em auxiliar-me a qualquer momento, pelas crticas e sugestes.
Aos meus pais, Francisco e Alzira, pela conana, compreenso, carinho,
apoio e tudo que sou devo a eles.
Aos meus irmos Rosemeire e Washington, pelo carinho, compreenso e torcida em todos os momentos.
A todos os colegas de mestrado e doutorado em Estatstica, em especial ao
Ed Carlos, Altemir, Ricardo, Augusto, Tnia, Patrcia, Denise, Ana Paula, Isabel,
Hiron, Stephnia e Richardson.
Aos meus professores Hlia, grande amiga e companheira, que ensinou-me a
entender o que aquelas letrinhas signicavam quando eu tinha seis anos, e at hoje
eu no esqueci; ao professor William por introduzir-me ao mundo maravilhoso da
matemtica, de uma forma que apaixonei-me por ela; professora Cssia, pelos
freqentes incentivos que dava nossa turma acreditando em ns e incentivandonos.
A todos da Escola Estadual Santa Tereza, professores, tias da cantina, amigos, que foram fundamentais em minha formao.
A todos da Universidade Federal de Viosa, que de uma forma ou de outra
contriburam para a realizao deste trabalho. Em especial aos professores Olmpio, Margareth e Paulo Tadeu, a quem muito admiro e que foi muito importante na
consolidao do meu conhecimento em matemtica.

Aos funcionrios do Departamento de Cincias Exatas: Edila, Josi, Joyce,
Maria, Selminha e Vnia, pela simpatia e boa vontade no atendimento.
Aos professores do Departamento de Cincias Exatas, pelos ensinamentos
prestados.
Universidade Federal de Lavras e ao Departamento de Cincias Exatas, pela
oportunidade da realizao deste curso.
FAPEMIG, pela bolsa de estudos, essencial para a realizao deste trabalho.
Aos demais que, direta ou indiretamente, contriburam para a elaborao deste
trabalho.
Paulo Csar Emiliano
SUMRIO
LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . .
LISTA DE FIGURAS . . . . . . . . . . . . . . . . . . . .
ii
RESUMO . . . . . . . . . . . . . . . . . . . . . . . .
iii
ABSTRACT . . . . . . . . . . . . . . . . . . . . . . .
iv
INTRODUO . . . . . . . . . . . . . . . . . . .
REFERENCIAL TERICO . . . . . . . . . . . . . .
2.1
Modelos . . . . . . . . . . . . . . . . . . . . . .
2.2
Informao . . . . . . . . . . . . . . . . . . . . .
2.2.1
A informao de Kullback-Leibler . . . . . . . . . . . . .
15
2.2.2
Entropia . . . . . . . . . . . . . . . . . . . . . .
18
2.2.2.1 Viso fsica da entropia . . . . . . . . . . . . . . . . . . . . . . . .
18
2.2.2.2 Viso estatstica da entropia . . . . . . . . . . . . . . . . . . . . .
21
2.2.3
A funo de verossimilhana . . . . . . . . . . . . . . .
32
2.2.4
O estimador da funo suporte . . . . . . . . . . . . . .
35
OS CRITRIOS DE INFORMAO AIC E BIC . . . . . .
39
3.1
Critrio de informao de Akaike . . . . . . . . . . . . .
40
3.2
Critrio de informao bayesiano . . . . . . . . . . . . .
42
3.3
Algumas consideraes acerca do AIC e do BIC . . . . . . . .
49
APLICAES DO AIC E BIC . . . . . . . . . . . . .
51
4.1
Os dados . . . . . . . . . . . . . . . . . . . . . .
51
4.2
Igualdade de mdias e / ou de varincias de distribuies normais. .
51
4.3
Seleo de variveis em modelos de regresso . . . . . . . . .
60
4.4
Seleo de modelos para os dados M&M e produo de biomassa
62
4.4.1
Anlise dos dados dos pesos de M&M . . . . . . . . . . .
62
4.4.2
Anlise dos dados da produo de biomassa na grama de pntano. .
64
CONCLUSES . . . . . . . . . . . . . . . . . . .
66
ESTUDOS FUTUROS . . . . . . . . . . . . . . . . .
67
REFERNCIAS BIBLIOGRFICAS
ANEXOS
. . . . . . . . . . . . .
68
. . . . . . . . . . . . . . . . . . . . . . . .
70
LISTA DE TABELAS
Resultados do estudo da produo area de biomassa na grama de

pntano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dados utilizados no estudo de pesos (em gramas) de uma amostra

de confeitos M&M. . . . . . . . . . . . . . . . . . . . . . . . . .
65
72
Dados utilizados no estudo das caractersticas que inuenciam a

produo area de biomassa na grama de pntano. . . . . . . . . .
73
LISTA DE FIGURAS
Modelo esquemtico de um sistema geral de comunicao. . . . .
Representao grca das distribuies Gama(4,4) - linha contnua - e Weibull(2,20) - linha pontilhada . . . . . . . . . . . . . .
29
Representao grca das distribuies Gama(4,4) - linha contnua - e Inversa Gaussiana(16,64) - linha pontilhada . . . . . . . .
29
Representao das distribuies Gama(4,4) - linha contnua - e

Lognormal(2,2) - linha pontilhada . . . . . . . . . . . . . . . . .
29
Representao grca da distribuio Gama(4,4) - linha contnua

- e da distribuio F(4,10) - linha pontilhada . . . . . . . . . . . .
29
Decomposio dos termos do vis. . . . . . . . . . . . . . . . . .
76
ii
RESUMO
Emiliano, Paulo Csar. Fundamentos e Aplicaes dos Critrios de Informao: Akaike e Bayesiano. 2009. 92p. Dissertao (Mestrado em Estatstica e
Experimentao Agropecuria) - Universidade Federal de Lavras, Lavras. *
Objetivou-se com este estudo apresentar os fundamentos do critrio de informao
de Akaike (AIC) e do critrio de informao Bayesiano (BIC), amplamente utilizados na seleo de modelos, e geralmente pouco entendidos. A seleo de modelos
de vital importncia em estudos cientcos, devendo portanto estar embasada em
princpios cientcos concretos, como a parcimnia. O AIC e o BIC so critrios
que penalizam a verossimilhana, para que um modelo mais parcimonioso seja
selecionado. Estes critrios baseiam-se nos conceitos de informao e entropia,
que so fundamentais para o completo entendimento dos mesmos. Procurou-se
explicar tais conceitos para que o entendimento desses critrios fosse completo.
Tambm foram dadas duas aplicaes do AIC e BIC, em regresso e na seleo
de modelos normais. Os resultados obtidos ao utilizar-se os dois critrios foram
os mesmos para as duas aplicaes feitas, e embora os mesmos modelos tenham
sido selecionados, o AIC e o BIC no necessariamente proporcionam os mesmos
resultados.
Palavras-chave: Critrio de Informao de Akaike, Entropia, Critrio de Informao de Schwarz, Informao de Kullback-Leibler, Seleo de Modelos.
Comit Orientador: Mrio Javier Ferrua Vivanco - UFLA (Orientador), Fortunato Silva de
Menezes (Co-orientador)
iii
ABSTRACT
Emiliano, Paulo Csar. Fundamentals and Applications Criteria for Information: Akaike and Bayesian. 2009. 92p. Dissertation (Master in Statistics and
Agricultural Experimentation ) Federal University of Lavras, Lavras.*
This study presented the foundations of the Akaike Information Criterion (AIC)
and the Bayesian Information Criterion. (BIC), largely used in the selection of
models, and usually little understood. The selection of models is essential in scientic studies, consequently, it should be based on solid scientic foundations, as
the parsimony. The AIC and BIC are criteria that punish the likelihood, so that
a more parsimonious model is selected. These criteria are based on concepts of
information and entropy, that are fundamental for their complete understanding. It
was tried to explain such concepts in order to make the understanding of these criteria complete and clear. Two applications of AIC and BIC were Also given, both
in regression and in the selection of normal models. The results obtained when
using the two methods were the same for the two done applications. But although
the same models have been selected -AIC and BIC- they do not necessarily provide
the same results.
Key-words: Akaike Information Criterion, Bayesian Information Criterion, Entropy, Kullback-Leibler Information, Model Selection.
Guindance Committee: Mrio Javier Ferrua Vivanco - UFLA. (Adviser), Fortunato Silva de
Menezes - UFLA. (Co-Adviser)
iv
INTRODUO
Muitas pessoas tm o dom da cincia, so cientistas e tentam entender os fenmenos que h muito intrigam os homens. Porm, a maioria da populao no estuda estes fenmenos, seja porque os acha complicados demais ou porque no tm
acesso informao para entend-los. Cabe, pois, aos cientistas levar a informao
e explicar os fenmenos a estas pessoas da forma mais simples possvel.
Em geral um fenmeno em estudo pode ser explicado atravs de um modelo.
Os modelos so os principais instrumentos utilizados na estatstica. Eles so uma
verso simplicada de algum problema ou situao da vida real e destinam-se a
ilustrar certos aspectos do problema, sem contudo, se ater a todos os detalhes.
Geralmente os fenmenos observados so muito complexos e impraticvel
descrever tudo aquilo que observado com total exatido. Dicilmente conseguese traduzir em simbologias e frmulas matemticas aquilo que visto com perfeita
exatido. Se isto for possvel, deve-se ao fato do fenmeno ser perfeitamente
conhecido e um modelo determinstico o explica. Um modelo determinstico
estabelecido quando tudo relacionado ao fenmeno em estudo conhecido, e por
isso ele , exatamente o mecanismo de gerao dos dados obtidos no estudo.
Mas em situaes prticas o total conhecimento do fenmeno no acontece,
o que torna impossvel descrever o mesmo atravs de um modelo determinstico.
Faz-se uso ento dos modelos estatsticos, aqueles em que h uma parte sistemtica e outra parte aleatria, como por exemplo, os modelos lineares generalizados.
Neste tipo de modelo, no se pode determinar quais dados sero obtidos antecipadamente, mas o conjunto do qual os resultados so obtidos usualmente conhecido. Ao se aproximar um fenmeno por um modelo probabilstico, haver perda
de informao ao fazer-se tal modelagem, sendo que esta perda deve ser mnima
para no comprometer o entendimento do fenmeno em estudo.

No raro, tem-se mais de um modelo para descrever o mesmo fenmeno, haja
vista que no h uma receita a ser seguida, tendo cada pesquisador a liberdade de
modelar o fenmeno seguindo a metodologia que julgar mais adequada. Desse
modo, ao se deparar com dois (ou mais modelos) natural questionar: Dentre
estes modelos qual deles o mais adequado?. O conceito de melhor modelo
controverso, mas um bom modelo deve conseguir equilibrar a qualidade do ajuste
e a complexidade, sendo esta, em geral, medida pelo nmero de parmetros presentes no modelo; quanto mais parmetros, mais complexo o modelo, sendo pois
mais difcil interpretar o modelo. A seleo do melhor modelo torna-se ento
evidente.
Burnham & Anderson (2004), enfatizam a importncia de selecionar modelos
baseados em princpios cientcos. Diversas so as metodologias utilizadas para
selecionar modelos tais como Cp de Mallows, Regresso Stepwise, Critrio de
Informao de Akaike (AIC), Critrio de Informao Bayesiano (BIC), Critrio
de Informao Generalizado (GIC), dentre outros.
As metodologias acima citadas, baseiam-se nos conceitos de Informao e
Entropia. Estes conceitos so de fundamental importncia para que se possa ter
completo entendimento dos critrios AIC e BIC, que sero objetos de estudo neste
trabalho.
Nos critrios AIC e BIC cada modelo d um valor e o modelo que apresentar
o menor valor AIC (ou BIC) considerado como o melhor modelo. Um questionamento natural que se faz : Por que o Critrio com menor AIC (ou BIC)
selecionado?.
Objetivou-se com este trabalho explicar, ilustrar e comparar os critrios AIC e
BIC, amplamente utilizados para a seleo de modelos e por vezes pouco entendi-
dos. Atravs de algumas aplicaes, espera-se que a metodologia destes critrios

seja entendida para que, ao se utilizar tais critrios, tenha-se perfeita conscincia
do resultado obtido e se saiba interpret-lo com total segurana.
REFERENCIAL TERICO
Nesta seo, sero apresentados alguns conceitos que sero teis para atingir
o objetivo proposto neste trabalho.
2.1
Modelos
Em estudos nas mais diversas reas, tais como cincias sociais, epidemiologia,
zootecnia, etc, h vrios aspectos que so no determinsticos. Assim sendo, modelos puramente matemticos no so adequados para modelar esse tipo de estudo.
Um caminho para a modelagem de fenmenos no determinsticos so os modelos
probabilsticos.
De acordo com Stevenson (2001), um modelo uma verso simplicada de
algum problema ou situao da vida real destinado a ilustrar certos aspectos do
mesmo sem levar em conta todos os detalhes. Alm disso, o modelo permite checar
se sua forma funcional est representando bem o fenmeno em estudo, sem porm
deixar de levar em conta o conhecimento do pesquisador acerca do assunto.
Para fenmenos complexos* , bastante raro ter s um modelo plausvel, mas
vrios para escolher um dentre eles. Em tais situaes, a seleo do modelo se
torna um problema fundamental. Porm Ghosh & Samanta (2001), armam que
para muitos cientistas, modelos so sinnimos de paradigmas. Assim, o problema
de escolher um modelo s aparece quando aquela cincia estiver nas encruzilhadas. Por exemplo, quando fsicos tinham que escolher entre a gravitao na Teoria
Clssica de Newton e a gravitao na Teoria da relatividade de Einstein.
Na estatstica clssica, normalmente a seleo de modelos feita na fase de
anlise exploratria dos dados. Uma anlise cuidadosa de dados deve sempre con* Aqueles
em que h muitas variveis interferindo no modelo, sendo estas muitas das vezes
desconhecidas
siderar o problema de determinao do modelo, isto , o problema da avaliao e

escolha do modelo que melhor represente a situao em estudo (Miranda, 2006).
Todo subseqente estatstico depende da anlise do modelo selecionado.
Ocasionalmente, h estudos de sensibilidade da anlise subseqente com respeito ao modelo selecionado. Porm, a estatstica, em geral, no enfatiza a seleo
de modelos, nem d uma devida certeza acerca do modelo que assumido atravs de conveno ou seleo por anlise exploratria. Entretanto, h certas reas
da estatstica clssica em que a seleo do modelo desempenha um papel importante, como por exemplo, regresso linear e sries temporais. Assim, o problema
torna-se de seleo de modelos ( Ghosh & Samanta, 2001).
De acordo com Mazerolle (2004), seleo de modelo a tarefa de escolher
um modelo estatstico de um conjunto de modelos plausveis. Em sua forma mais
bsica, esta uma das tarefas fundamentais das pesquisas cientcas. Dos tantos
modelos plausveis que poderiam ser ajustados aos dados, como pode-se escolher
um bom modelo?. A modelagem estatstica geralmente decide entre um conjunto
de possveis modelos, conjunto este que deve ser selecionado pelo pesquisador.
Freqentemente, modelos simples, como polinmios, so usados como ponto de
partida. Burnham & Anderson (2004) enfatizam a importncia de selecionar modelos com bace em princpios cientcos.
Ao se estudar um fenmeno, o conhecimento prvio que o pesquisador tem
acerca deste de fundamental importncia e deve ser levada em conta. Porm, este
deve embasar-se tambm em outros princpios cientcos para fazer sustentar suas
concluses acerca do fenmeno. De acordo com Mazerolle (2004), trs princpios
regulam nossa capacidade de fazer inferncia nas cincias:
1- Simplicidade e parcimnia
Sugerem que a explicao mais simples passvel de ser a mais provvel.
5
2- Trabalhando Hipteses
A seleo de modelos traduz-se em testar para os dados em mos uma srie de
modelos plausveis.
3- O poder da evidncia
D uma indicao de qual modelo o melhor entre os modelos testados, e o poder
do teste para cada modelo.
Conforme Mazerolle (2004), seria ingnuo esperar que os melhores resultados
incluam todas as variveis no modelo. Isto viola o princpio cientco fundamentado na parcimnia, que requer que dentre todos os modelos que expliquem bem
os dados, deve-se escolher o mais simples. Assim, deve-se conciliar um modelo
mais simples, mas que explique bem o fenmeno em estudo.
Segundo Konishi & Kitagawa (2008), uma vez que o conjunto de possveis
modelos foi selecionado, a anlise matemtica permite determinar o melhor destes
modelos. O signicado de melhor controverso. Uma boa tcnica de seleo
de modelos equilibrar qualidade do ajuste e complexidade. Modelos mais complexos podero melhor adaptar sua forma para ajustar-se aos dados (por exemplo,
um polinmio de quinta-ordem pode ajustar exatamente seis pontos), mas muitos
parmetros podem no representar nada til ou explicvel.
De acordo com Mazerolle (2004), a qualidade do ajuste geralmente determinada usando-se razo de verossimilhanas ou uma aproximao dela, conduzindo
a um teste qui-quadrado. A complexidade geralmente medida contando o nmero de parmetros inclusos no modelo. Entretanto, antes de se construir modelos
(por exemplo, um modelo de regresso linear ou qualquer outro modelo generalizado) deve-se ter em mente que no existem modelos verdadeiros. Tem-se apenas
modelos aproximados da realidade. O que se faz ento minimizar a perda de
informaes. George Box fez uma famosa armativa acerca disso: Todos os modelos so errados, mas alguns so teis1 .
2.2
Informao
A palavra informao vem do latim informare, dar forma, pr em forma
ou aparncia, criar, representar, apresentar, criar uma idia ou noo, algo que
colocado em forma, em ordem. Como se pode ver, informao um termo
altamente polissmico (que tem vrios signicados) (Ribeiro, 2008).
Segundo Ribeiro (2008), a teoria da informao um ramo do conhecimento
humano cujos objetivos envolvem a conceituao matemtica do termo informao
e a construo de modelos capazes de descrever os processos de comunicao. O
artigo A Mathematical Theory of Communications, publicado por Claude Shannon em 1948, lanou as bases para a moderna teoria das comunicaes Shannon
(1948), apud Ribeiro, (2008). Qualquer processo de comunicao envolve transferncia de informao entre dois ou mais pontos. Segundo Fernandes & Azevedo
(2006), o problema fundamental das comunicaes o de reproduzir em um ponto,
exatamente ou aproximadamente, uma mensagem selecionada em um outro ponto.
De acordo com Shannon (1948) apud Ribeiro (2008), um sistema de comunicao consiste de 5 partes:
1- Uma fonte de informao que produz uma mensagem ou seqncia de mensagens a serem comunicadas ao terminal receptor;
2- Um transmissor (codicador) que opera na mensagem de modo que esta
possa ser transmitida sobre o canal;
3- Um canal que o meio pelo qual a informao ser transmitida. Este meio
1
Traduo nossa. All models are wrong but some are useful(Draper & Smith, 1998)
contm rudo (em casos ideais o rudo desconsiderado) e ir alterar de

alguma forma a mensagem original;
4- O receptor (decodicador), que apenas faz a funo inversa do transmissor
de modo a obter a mensagem original;
5- O destino, para quem a mensagem encaminhada.
Esquematicamente, tem-se a Figura 1 abaixo (Ash, 1965):
FIGURA 1: Modelo esquemtico de um sistema geral de comunicao.

Segundo Shannon (1948) apud Ribeiro (2008), uma fonte de informao
um elemento participante do processo de comunicao que produz informao,
enquanto que o destinatrio o elemento que recebe a informao produzida por
essa fonte. Em uma conversao os participantes costumeiramente se revezam
nos papis de fonte e destinatrio, e a informao circula na forma de palavras,
possivelmente selecionadas de um vocabulrio conhecido por todo o grupo.
Se um portugus disser a um polaco Bom dia, provavelmente no haver
transmisso de informao entre os dois. No entanto, se o portugus disser Dzien
dobry, provavelmente o polaco ir retribuir com um sorriso, pois entendeu a saudao. Logo, para que haja transmisso de informao, o cdigo usado na comunicao tem de ser perceptvel por ambas as partes.
Segundo Ash (1965), um conjunto de palavras-cdigo capaz de representar

todas as sadas possveis de uma fonte constitui um cdigo para a fonte de informao. Codicadores so elementos (seres humanos, circuitos, programas, etc),
que representam as mensagens geradas pela fonte empregando um cdigo especco. Um decodicador responsvel por desfazer o mapeamento realizado por
um codicador.
De acordo com Ash (1965), Shannon desenvolveu a teoria da informao e
transmisso de sinais digitais baseados em seqncias de zeros e uns. a que
dene o problema fundamental da comunicao como o de reproduzir num local,
de forma aproximada ou exata, uma mensagem selecionada noutro local. Assim
estabeleceu-se ento o esquema de transmisso de informao, hoje clssico, com
uma mensagem que parte de uma fonte, codicada e emitida por um transmissor,
passa por um canal de comunicao, sofre perturbaes designadas por rudos, e
chega depois ao receptor, passando por um sistema de decodicao. Ao falar
de uma mensagem selecionada, Shannon refere-se a uma seqncia informativa
que pode ser escolhida dentre muitas outras que aparecero com iguais ou diferentes probabilidades. Dene ento a quantidade de informao com base na sua
incerteza ou diculdade de previso.
Supondo, por exemplo, que um emissor transmita a mensagem bom dia, letra
por letra, ao emitir as primeiras letras, h uma expectativa da parte do receptor, que
v surgir as letras b, o, m, um espao, e depois o d e o i. O a nal
quase intil, pois sua probabilidade de ocorrncia to grande, para dar sentido
seqncia anterior, que a quantidade de informao transmitida por essa letra
muito menor que a transmitida pelas primeiras. Assim, quanto menor a incerteza
ou diculdade de previso, menor a quantidade de informao, e vice-versa (Ash,
1965).
Se, por exemplo, houver o evento X=O sol nasce, a resposta pergunta O
sol nascer hoje? no traz nenhuma informao; entretanto, se fez a pergunta O
Cruzeiro ser o campeo mundial de 2009? Como isso pouco provvel, uma
resposta positiva a essa pergunta oferece uma quantidade de informao muito
maior que divulgar uma resposta negativa. Assim, eventos improvveis contm
mais informaes do que os eventos mais provveis (Ribeiro, 2008).
De acordo com Fernandes & Azevedo (2006), a teoria da informao de Shannon apropriada para medir incerteza sobre um espao desordenado, isto , ela
til para analisar variveis qualitativas nominais, tais como sexo, raa, etc., pois
no possvel uma ordenao dos seus resultados. Neste sentido no possvel
denir uma distncia entre os elementos do espao, tais como a distncia entre o
sexo masculino e o sexo feminino.
A noo de distncia, acima referida, pode ser entendida a partir da seguinte
denio (Domingues, 1982):
Denio 2.1 Dado um conjunto M = seja d : M M R+ e indique-se
por d(x, y) a imagem de um par genrico (x, y) M M , atravs da funo d.
Diz-se que d uma distncia sobre M se as seguintes condies se vericam:
d(x, y) = 0 x = y, x, y M
(2.1)
d(x, y) = d(y, x), x, y M
(2.2)
d(x, y) d(x, z) + d(z, y), x, y, z M
(2.3)
Por exemplo, a informao de Shannon usada sobre um espao de letras do

alfabeto, j que letras no tm distncias entre elas, no sendo possvel quanticar o quanto a letra m se distancia da letra e.
De acordo com Bolfarine & Sandoval (2000), uma medida alternativa de in-
10
formao foi criada por Fisher, para medir incerteza sobre um espao ordenado,
isto , a informao de Fisher pode ser usada para variveis qualitativas ordinais
que permitem uma ordenao dos seus resultados (tais como conceitos nais em
uma disciplina, peso de pessoas, etc.). Para informao sobre valores de parmetros contnuos, como as alturas de pessoas, a informao de Fisher usada, j que
tamanhos estimados tm uma distncia bem denida.
Conforme Bolfarine & Sandoval (2000), a informao de Fisher assim denida:
Denio 2.2 A quantidade
IF () = E
log (f (X|))
denominada informao de Fisher de .

Se h uma amostra aleatria X1 , X2 , . . . Xn , da varivel aleatria X com funo de densidade de probabilidade f (x|) e informao de Fisher IF (), a informao total de Fisher de correspondente amostra observada a soma da
informao de Fisher das n observaes da amostra, isto ,
log L (|X)
= nIF () ,
em que log L (X|) a funo de log verossimilhana, que ser denida em 2.21.
Sabendo como a informao gerada, como se pode medir quanta informao produzida? Como quanticar uma determinada mensagem recebida? Com
propsito de responder estas perguntas considere-se a situao abaixo descrita em
Silva (2008):
Exemplo
11
Um sistema deve transmitir o estado do tempo. Suponha que se classica o tempo

da seguinte forma: limpo, nublado, chuvoso e nevoeiro. Dene-se informao
como a quantidade de incerteza que o receptor tem acerca da mensagem que est
recebendo. Por exemplo, suponha que o receptor conhece as seguintes probabilidades para o estado do tempo:
Estado do tempo
Probabilidade
Limpo
0.65
Nublado
0.20
Chuvoso
0.10
Nevoeiro
0.05
Como a probabilidade do tempo estar limpo grande, na maioria das vezes, o

tempo est limpo, e ao se dizer que ele est limpo transmite-se pouca informao.
Por outro lado, ao se dizer que ele est com nevoeiro, trata-se de uma situao
pouco freqente, e portanto, transmite-se muita informao.
De acordo com as probabilidades conhecidas, uma seqencia tpica de transmisso diria poderia ser: limpo limpo limpo limpo limpo nublado nublado chuvoso limpo. Se for usado o seguinte cdigo binrio para codicar as mensagens:
Estado do tempo
Cdigo
Limpo
00
Nublado
01
Chuvoso
10
Nevoeiro
11
a mensagem acima referida codicada da seguinte forma: 00 00 00 00 00

01 01 10 00, ou seja, o nmero de bits necessrios para transmitir 18.
O nmero de bits necessrios para codicar uma determinada informao
segue uma relao inversa probabilidade de ocorrncia do evento. Assim quanto
12
maior for a probabilidade de ocorrncia do evento transmitido, (quanto menor

a informao transmitida), menos bits sero necessrios para codic-la, e
quanto menor a probabilidade de ocorrncia do evento (maior informao), mais
bits sero necessrios para codic-la.
Nesta forma de transmisso haver uma compresso dos dados que acarreta
perda de uma pequena parte da informao que foi originalmente transmitida.
Segundo Kawada (1987) apud Konishi & Kitagawa (2008), para quanticar a
informao perdida ao ajustarmos um modelo, existem diversas medidas propostas
na literatura. Como exemplo tem-se:
1- A Estatstica de 2 , dada por:
k
2
=
i=1
2
gi
1=
fi
(fi gi )2
.
fi
i=1
2- A distncia de Hellinger, dada por:

IK (g; f ) =
f (x)
g (x)
dx.
3- A informao generalizada, dada por:
I (g; f ) =
g (x)
f (x)
1 g (x) dx.
4- O critrio Deviance, dado por:

D () = 2 log L (; x) log L ; x
em que o espao paramtrico e o espao restrito.
13
(2.4)
5- A divergncia, dada por:

D (g; f ) =
sendo que t(x) =
u (t(x))g (x) dx =
g (x)
g (x) dx,
f (x)
(2.5)
g (x)
.
f (x)
6- A L1 norm, dada por:

L1 (g; f ) =
|g (x) f (x)|dx.
7- A L2 norm, dada por:

L2 (g; f ) =
{g (x) f (x)}2 dx.
8- A Informao de Kullback-Leibler, dada por:

+
I (g; f ) = Eg log
g (X)
f (X)
g (x) log
g (x)
f (x)
dx,
(2.6)
sendo f , g fi e gi so funes de distribuio quaisquer, R e u(x) uma

+
funo tal que u : R R .
+
Se em (2.6), g(x) a verdadeira distribuio, ou seja, g(x) o modelo determinstico, do qual verdadeiramente so gerados os dados (raramente conhecido
devido complexidade do fenmeno) e f (x) for o nosso modelo estatstico selecionado para modelar o fenmeno, o valor da informao de Kullback - Leibler
uma quanticao da similaridade entre nosso modelo estatstico e a verdadeira
distribuio.
Conforme Mazerolle (2004), Kullback e Leibler deniram esta medida, posteriormente chamada Informao de Kullback-Leibler (K-L) para representar a
14
informao perdida pela aproximao de nosso modelo da realidade.

De acordo com Konishi & Kitagawa(2008), vale a pena observar que se na
equao (2.4) se zer 0 e sob certas condies de regularidade, ser obtida a
informao de Kullback-Leibler; de fato:
1
0
=
=
L Hospital
lim
1 g (x) dx
g (x)
f (x)
g (x) lim
1 g (x) dx
g (x)
f (x)
g (x) lim
g (x) ln
g (x)
f (x)
g (x)
f (x)
lim I (g; f ) = lim
g (x)
f (x)
ln
dx
g (x)
f (x)
dx
dx = I (g; f ) .
Alm disso, se em (2.5), tomar-se u(x) = log(x) encontrar-e- tambm a informao de Kullback-Leibler, isto , ela um caso especial da divergncia. De fato:
D (g; f ) =
2.2.1
g (x)
g (x) dx =
f (x)
log
g (x)
g (x) dx = I (g; f ) .
f (x)
A informao de Kullback-Leibler
Seja X uma varivel aleatria discreta com distribuio de probabilidades

p(X). De acordo com Ribeiro (2008), Shannon deniu a quantidade de informao associada ocorrncia do evento Xi como:
I(Xi ) = log
1
pi
15
= log (pi ) ,
(2.7)
em que pi a probabilidade de ocorrncia do evento Xi . A funo denida em

(2.7) indica o total de conhecimento sobre o resultado de um certo evento, assim
como intuitivamente esperava-se, um evento menos provvel tem mais informao
que outro mais provvel. Se o logaritmo tiver base 2, o contedo da informao
ser expresso em bits. Se a base do logaritmo e, ento o contedo da informao medido em nuts e nalmente se a base for 10 o contedo da informao
ser medido em hartley. Nesse trabalho, utilizada a base e, pois a informao
com a qual Kullback e Leibler trabalham denida nessa base, porm em alguns
exemplos a base 2, tambm ser utilizada.
A utilizao do log na funo denida por Shannon pode ser explicada facilmente no caso de acontecimentos eqiprovveis. Por exemplo, se o nmero de
smbolos que constituem o alfabeto M , ento o nmero de bits, N , necessrios
para representar todos os M smbolos : M = 2N , sendo N = log2 M. No caso
de smbolos eqiprovveis: p (si ) =
1
M,
logo so necessrios N = log2
1
p(si ) ,
bits
para representar cada smbolo.

Considere-se uma fonte S cujas sadas so seqncias de elementos selecionados de um conjunto A = {a0 , a1 , a2 , . . . , an }. Esse conjunto o alfabeto da
fonte e os seus elementos ai , i = 0, 1, 2, . . . , n, so denominados letras ou smbolos (Ribeiro, 2008). Considerando-se que os smbolos emitidos pela fonte so
estatisticamente independentes entre si, estamos na presena de uma fonte sem
memria. Nesse caso, a fonte ca completamente descrita pelo seu alfabeto A e
pelas probabilidades de ocorrncia dos smbolos do alfabeto fonte:
n
P = {p(a0 ), p(a1 ), p(a2 ), ..., p(an )}, sendo que
p(ai ) = 1.
i=1
1
A ocorrncia do smbolo ai signica a gerao de I(ai ) = log2 p(ai ) bits de
16
informao.
Como exemplo considere o arremesso de uma moeda em que P (cara) =
1
4
3
P (coroa) = 4 . Assim o contedo da informao :
I (cara) = log2
1
4
= 2bits e I (coroa) = log2
3
4
= 0, 41bits.
Sendo X e Y dois eventos, desejvel que a funo de informao tenha

algumas propriedades (Shannon, 1948):
1- Se P (X = x) = 0 ou P (X = x) = 1, ento I(X) = 0;
2- Se 0 < P (X = x) < 1, ento I(X) > 0;
3- Se P (X = x) < P (Y = y), ento I(X) > I(Y );
4- Se X e Y so eventos independentes, ento I(X, Y ) = I(X) + I(Y ).
Em seu artigo publicado em (1948), Shannon demonstrou que s existe uma
funo, satisfazendo as pressuposies acima:
n
I(X) = K
pi log pi
i=1
em que K > 0 e I(X) uma medida de incerteza contida na varivel aleatria.

n
A funo H =
pi log pi (a constante K meramente uma constante

i=1
que s depende da unidade de medida) desempenha um papel central na Teoria

da Informao, sendo uma medida de incerteza contida na varivel aleatria. A
funo I pode ser transformada na funo entropia, denida em certas formulaes
de mecnica-estatstica em que pi a probabilidade do sistema estar na fase i. A
quantidade I , por exemplo, a constante do famoso teorema de Boltzmann (Young
n
& Freedman, 2003). Aqui, a quantidade H =
pi log pi ser chamada de

i=1
entropia do conjunto de probabilidades p1 , p2 , ..., pn .

17
A informao de Kullback-Leibler baseia-se na Entropia de variveis aleatrias.
2.2.2
Entropia
Entropia (do grego entrop) uma medida da quantidade de desordem de um

sistema.
2.2.2.1
Viso fsica da entropia
Fisicamente, o conceito de entropia est intimamente associado a conceitos da

termodinmica. Nas linhas a seguir falar-se- um pouco mais acerca deste assunto.
Segundo Halliday et al. (1996), a energia um dos conceitos da fsica com
aplicao mais visvel no dia-a-dia. Para mover um carro, por exemplo, necessrio obter energia atravs da queima do combustvel. Para os eletrodomsticos
funcionarem, depende-se da energia eltrica. O primeiro princpio da termodinmica ocupa-se do estudo da energia e da sua conservao. Contudo, nem toda a
energia gerada est disponvel para ser transformada em trabalho til. Existem
processos que s acontecem em um sentido. Segundo o Dicionrio Aurlio, que
reete o nosso linguajar coloquial, algo reversvel quando se pode reverter, ou
se pode retornar ao estado inicial. Silva (2005), arma que em Fsica, um processo reversvel quando pode partir do estado nal e alcanar o estado inicial
usando os mesmos micro-estados que utilizou para alcanar o estado nal. Um
livro deslizando sobre uma mesa ter sua energia mecnica convertida em calor;
porm o processo inverso jamais foi visto por algum (um livro que repousasse
sobre uma mesa comeasse a se mover espontneamente e a temperatura do livro
e da mesa diminussem); estes so os processos irreversveis. O Segundo Princpio da Termodinmica trata desta questo, assim como das possveis maneiras de
18
transformar calor em trabalho (Halliday et al., 1996).

O Segundo Princpio da Termodinmica apresentado por Kelvin-Planck o
seguinte: impossvel construir uma mquina trmica que, operando em ciclo,
no produza nenhum efeito alm da absoro de calor de um reservatrio e da realizao de uma quantidade igual de trabalho (Young & Freedman, 2003). Em
sua essncia, diz que impossvel construir uma mquina que trabalhe com rendimento de 100%. Para saber o quanto da energia pode ser considerada disponvel
para consumo, necessrio conhecer um outro conceito: o de entropia.
Segundo Silva (2008a), o conceito fsico de entropia surgiu na poca da mquina a vapor, proposto pelo prussiano Rudolf Emmanuel Clausius (1822-1888),
para explicar o mximo de energia que poderia ser transformada em trabalho til.
Tal conceito denido como (Halliday et al., 1996):
Denio 2.3 Entropia S uma propriedade cuja variao dS, no decurso de
uma transformao elementar, internamente reversvel, de um sistema fechado, se
obtm dividindo a quantidade de calor dQ, que o sistema troca nessa transformao, pela temperatura absoluta T a que o sistema se encontra nesse momento.
Isto :
dS =
dQ
T
.
rev
Tudo o que se disse acerca da entropia no suciente para compreender o

verdadeiro signicado fsico dessa propriedade. Para tal tem-se que recorrer ao
mtodo utilizado na termodinmica estatstica, que faz uso da natureza microscpica da matria para explicar as suas propriedades macroscpicas (Young & Freedman, 2003). A entropia pode ser considerada como uma medida da desordem
molecular ou aleatoriedade molecular.
Tendo como referncia um sistema de partculas, o conceito de entropia ganha
com Boltzmann uma nova conotao. A entropia passa a ser entendida como uma
19
medida da distribuio das partculas em termos de posio espacial e quantidade

de movimento. Aqui, mxima entropia passa a signicar distribuio homognea
ou mnima desordem, quando a probabilidade de uma certa partcula se encontrar
em uma determinada posio, com uma certa quantidade de movimento idntica probabilidade de qualquer outra partcula especca se encontrar na mesma
situao.
De acordo com Nussenzveig (1981), tem-se a seguinte denio de entropia
no sentido estatstico de Boltzmann:
Denio 2.4 A entropia dada pela equao
S = k [logW ]
em que k uma constante (unidade termodinmica da medida da entropia - Constante de Boltzmann) e W o nmero de microestados de entropia S ( o nmero total de estados microscpicos compatvel com o estado macroscpico do sistema).
Assim, a variao da entropia de um estado i para um estado j
HB = Si Sj = k log
Wi
Wj
(2.8)
em que HB a variao da entropia de Boltzmann, Si e Sj so as entropias no

estado i e j, respectivamente e Wi e Wj so nmeros de microestados compatveis
com a ocorrncia dos macroestados i e j, respectivamente.
Sendo p(x) e q(x) as funes densidades dos estados i e j respectivamente,
pode-se reescrever (2.8) como:
HB = k log
p(x)
q(x)
20
(2.9)
Conforme Nussenzveig (1981), como fundador da Mecnica Estatstica (Huang, 1987), Boltzmann props sucessivas explicaes para o fenmeno do calor,
baseadas em uma abordagem probabilstica.
Segundo Halliday et al. (1996), medida que um sistema torna-se mais desorganizado a nvel molecular, as posies das suas molculas tornam-se menos
previsveis e a sua entropia aumenta . Por isso, a entropia da fase slida mais
baixa do que a das outras fases pois, nos slidos, as molculas oscilam em torno
de posies de equilbrio, no podendo mover umas relativamente s outras e, em
qualquer momento, as suas posies so previsveis com uma certa preciso. Na
fase gasosa as molculas movem-se ao acaso, colidindo umas com as outras, mudando de direo, o que torna extremamente difcil prever, com alguma preciso, o
estado microscpico ou congurao molecular de um gs. Associado a este caos
molecular est um elevado valor da entropia.
2.2.2.2
Viso estatstica da entropia
Segundo Chakrabarti & Chakrabarty (2007), um dos desdobramentos mais ricos e polmicos do conceito probabilstico de entropia desenvolvido por Boltzmann foi sua extenso ao campo da Teoria da Informao. Quando a informao
de ordem j transmitida, a informao transportada Ij = log2 Pj bits, conforme a expresso (2.7), mas em geral transmiti-se no somente um smbolo, e sim
um conjunto deles (mensagem). Assim, tem-se a informao mdia associada aos
n smbolos transportados.
Para medir a quantidade de informao, Shannon criou o conceito estatstico
de entropia, que diferente do conceito homnimo encontrado em termodinmica.
Porque esta denominao foi escolhida? Segundo Vicki (2007) ao que parece,
foi o matemtico norte-americano de origem hngara, John Von Neumann, quem
21
sugeriu este termo. Teria dito, ironicamente, deve cham-la de entropia por
duas razes: primeiro, porque essa mesma funo matemtica j utilizada em
termodinmica, com esse nome; segundo, e mais importante, porque pouca gente
sabe realmente o que entropia e, se usar esse termo numa discusso, sair sempre
ganhando.
De acordo Mackay (2005) a entropia denida como :
Denio 2.5 A mdia ponderada das auto-informaes por sua probabilidade
de ocorrncia o que chamamos de entropia, isto :
n
pi Ipi =
H(X) =
i=1
pi log pi
(2.10)
i=1
sendo pi a probabilidade do evento Xi .

Pode-se tambm ver a equao (2.10) como
n
H(X) =
pi log pi = E [log pi ] .
i=1
Este conceito de entropia til para medir a quantidade de informao transmitida por uma fonte.
Segundo Wiener (1970) apud Martins (1995), referindo-se a uma sugesto de
J. Von Neumann e abstraindo o sinal de negativo, N. Wiener props uma extenso
do conceito para distribuies contnuas, e deniu:
Denio 2.6 Seja uma varivel aleatria X, contnua, real e centrada (mdia
zero) com uma funo de densidade de probabilidade g (x). A entropia denida
por
HE = log
g (x)
f (x)
22
(2.11)
em que HE a entropia estatstica, g(x) a verdadeira distribuio e f (x) o

nosso modelo estatstico.
Comparando-se as equaes (2.9) e (2.11), nota-se que a entropia estatstica
a mesma entropia de Boltzmann, a no ser pelo sinal que foi abstrado e pela
constante k que a constante de Boltzmann. Ou seja,
HE = HB .
Sendo o conceito de entropia conhecido, pode-se perguntar: O que signica a entropia de uma fonte? Signica que, embora no se possa prever qual o smbolo que
a fonte ir produzir a seguir, em mdia espera-se obter I bits de informao por
smbolo, ou nI bits numa mensagem de n smbolos, se n for elevado (Fernandes
& Azevedo (2006)).
Assim, dizer que um sinal (uma seqncia) de smbolos tem uma entropia
informacional de, por exemplo, 1, 75 bits por smbolo signica que pode-se converter a mensagem original em uma seqncia de 0 s e 1 s (dgitos binrios), de
maneira que em mdia existam 1, 75 dgitos binrios por cada smbolo do sinal
original. O em mdia aqui quer dizer que alguns smbolos vo precisar de mais
dgitos binrios para serem codicados (os mais raros) e que outros smbolos vo
precisar de menos dgitos binrios para serem codicados (os mais comuns).
Exemplo
Suponha que tem-se 4 smbolos (A, C, G, T ) com probabilidades de ocorrncia
1
1
1
1
iguais a pA = ; pC = ; pG = ; pT = . Estas probabilidades do as
2
4
8
8
23
seguintes quantidades de informao para cada smbolo:

IA = log2
IC = log2
IG = log2
IT = log2
1
= 1bit;
2
1
= 2bits;
4
1
= 3bits;
8
1
= 3bits.
8
Portanto, a entropia de uma seqncia desses smbolos :

H=
pi log pi = 1
1
1
1
1
+ 2 + 3 + 3 = 1, 75bit,
2
4
8
8
ou seja, 1,75 smbolos por bits. Pode-se codicar cada um dos quatro smbolos
por um nmero de dgitos binrios igual sua quantidade de informao. Por
exemplo:
A = 0;
C = 10;
G = 110;
T = 111.
Portanto, uma seqncia como:

AT CAGAAC,
que tem freqncias de ocorrncia dos 4 smbolos iguais s denidas anteriormente pode ser codicada por 01111001100010, usando 14 dgitos binrios para
24
codicar 8 smbolos, o que d uma mdia de
14
8
= 1, 75 bits por smbolo.
Um cdigo como o exemplicado acima chamado de cdigo de ShannonFano (Cover & Thomas, 1991). Esse cdigo tem a propriedade de que pode ser
decodicado sem precisar de espaos entre os smbolos.
Com o conceito de entropia pode-se denir a quantidade de informao transmitida e os limites timos de compresso dessa informao (Mackay, 2005). Em
1948, o cabo eltrico de banda mais larga ento existente podia transmitir 1.800
conversas telefnicas simultneas. Vinte e cinco anos mais tarde, um cabo telefnico podia transmitir 230.000 conversas simultneas. Hoje, uma nova bra tica
com a espessura de um cabelo humano, pode comportar 6, 4 milhes de conversas.
No entanto, mesmo com esta largura de banda, os limites tericos de capacidade
de canal determinados por Shannon esto muito aqum dos praticados. Os engenheiros sabem que ainda h muito que melhorar.
Sejam Xn = {x1 , x2 , ..., xn } um conjunto de n observaes independentes
amostradas aleatoriamente de uma distribuio (modelo) de probabilidades desconhecida g(x) (verdadeiro modelo, do qual retiramos nossos dados), e seja f (x) um
modelo arbitrrio especicado. O que se quer avaliar a qualidade do ajuste ao se
aproximar o modelo g(x) pelo modelo f (x).
A informao de Kullback-Leibler quantica essa perda de informaes (Konishi & Kitagawa, 2008):
Denio 2.7 A Informao de Kullback-Leibler denida por:
+
I (g; f ) = Eg [HB ] = Eg log
g (y)
f (y)
g (y) log
g (y)
f (y)
dy (2.12)
em que HB a entropia de Boltzmann, g a distribuio da qual so gerados os

dados, f a distribuio utilizada para aproximar g e Eg representa a esperana,
25
com respeito a distribuio de probabilidade g.

A equao (2.12) pode tambm, ser expressa como:
I (g; f ) = Eg [log g (x)] Eg [log f (x)]
(2.13)
ou equivalentemente
+
g (x) log [g (x)] dx
I (g; f ) =
g (x) log [f (x)] dx.
(2.14)
Conforme Konishi & Kitagawa (2008), a Informao de Kullback-Leibler tm

as seguintes propriedades:
(P1) Para quaisquer funes de densidade de probabilidade f e g, I (g; f ) 0;
(P2) Se f e g so funes de densidade de probabilidade e I (g; f ) = 0, ento
f (x) = g (x) , x R;
(P3) Se f e g so duas funes de densidade de probabilidade e f g, ento
I (g; f ) 0.
Nota-se que o primeiro termo na equao (2.13) uma constante, que depende
somente do verdadeiro modelo g. Assim, somente o segundo termo de (2.14)
importante na avaliao do modelo estatstico f (x), pois se houver dois modelos
candidatos f1 e f2 , ao compar-los obter-se-:
I (f1 , g) =
g (x) ln (g (x)) dx
g (x) ln (f1 (x)) dx
I (f2 , g) =
g (x) ln (g (x)) dx
g (x) ln (f2 (x)) dx.
26
Logo
I (f1 , g) I (f2 , g) =
g (x) ln (g (x)) dx
g (x) ln (g (x)) dx
g (x) ln (f1 (x)) dx. (2.15)
Assim v-se que a primeira parte da equao (2.13) cancelada, e a equao

s depende do segundo termo, chamado de log verossimilhana esperada (Konishi
& Kitagawa, 2008). Entretanto a segunda parte ainda depende da funo desconhecida g.
Eg [ln (f (x))] =
ln (f (x)) g (x) dx =
ln (f (x)) dG (x) .
(2.16)
Em que g a verdadeira distribuio, f o odelo que aproxima g e G a funo

de distribuio acumulada de g.
Considerar-se- um exemplo dado por Burnham & Anderson (2002) para ilustrar a K-L informao:
Exemplo
Seja g um distribuio gama com parmetros = 4 e = 4. Consideram-se
os modelos gi , i = 1, 2, 3, 4 como sendo aproximaes do verdadeiro modelo, em
que g1 uma Weibull com parmetros = 2 e = 20, g2 uma log-normal com
parmetros = 2 e 2 = 2, g3 uma inversa Gaussiana com parmetros = 16
e = 64, g4 uma distribuio F com parmetros = 4 e = 10.
27
De acordo com Johnson et al. (1994) tem-se:

g (x) =
g1 (x) =
44 (4)
x41 e 4 =
1 3 x
x e 4
1536
x20
5
20 201 ( x )20
x
e 2
= 18 x19 e 220
220
2
1
1
g2 (x) = e(ln x2)/22 = e(ln x2)/4
2 x
x 2 2
x
64
64 1/2 { 216 ( 16 2+ 16 )} 4 2 3/2 {2( x 2+ 16 )}
x
16
x
=
g3 (x) =
e
x
e
2x3
g4 (x) =
[(4 + 10)/2]
(4/2) (10/2)
2
5
(7)
(2) (5)
24
2
x 1+ x
5
5
4
10
4/2
x(42)/2 (1 + (4/10) x)(4+10)/2
x (1 + (2/5) x)14/2
7
Nas guras abaixo tem-se o grco destas distribuies.
28
FIGURA 2: Representao grca das

distribuies Gama(4,4) linha contnua - e Weibull(2,20) - linha pontilhada
FIGURA 3: Representao das distribuies Gama(4,4) - linha contnua - e Lognormal(2,2) - linha pontilhada
FIGURA 4: Representao grca das FIGURA 5: Representao grca da

distribuies Gama(4,4) distribuio Gama(4,4) linha contnua - e Inversa
linha contnua - e da distriGaussiana(16,64) - linha
buio F(4,10) - linha ponpontilhada
tilhada
Em uma primeira anlise, puramente visual, pode-se dizer que as distribuies Weibull e Inversa Gaussiana esto muito mais prximas da distribuio
Gama que as distribuies Lognormal e F. Vejamos isto atravs da informao de
29
Kullback-Leibler, calculando a K-L informao para cada distribuio.

I (g, g1 ) = g (x) ln
g (x)
g1 (x)
x3 e 4
ln
1536
1
1536
dx = g (x) ln (g (x)) dx g (x) ln (g1 (x)) dx

x
x3 e 4
1536
x3 e 4
ln
1536
dx
x3 e 4 ln (1536) + 3 ln (x)
20
5 19 x20
x e 2
218
dx
x
dx
4
(I)
1
1536
x3 e 4
ln
5
218
+ 19 ln (x)
x20
220
dx
(2.17)
(II)
Efetuando as integraes e os clculos necessrios em (2.17) tem-se (I)=3, 40970

e (II) = 3, 3635 e assim I (g, g1 ) = 3, 40970 3, 3635 = 0, 04620.
Para g2 (x) tem-se
I (g, g2 ) = g (x) ln
x
=
=
g (x)
g2 (x)
x3 e 4
ln
1536
1
1536

x
x3 e 4
1536
dx
x3 e 4
ln
1536
x3 e 4 ln (1536) + 3 ln (x)
1
e(ln x2)/4 dx
2 x
x
dx
4
(III)
1
1536
x3 e 4
ln x 1
ln 2
+
4
2
dx .
(2.18)
(IV )
Novamente, efetuando as integraes e os clculos necessrios em (2.18) e notando que (I) = (III) obtm-se (III) = 3, 40970 e (IV ) = 2, 73735, assim
I (g, g2 ) = 3, 40970 2, 73735 = 0, 67235.
30
Para g3 (x) tem-se

g (x)
g3 (x)
I (g, g3 ) = g (x) ln
x

x
x3 e 4
x3 e 4
x3 e 4
dx
=
ln
ln
1536
1536
1536
=
1
1536
4 2 {2( x 2+ 16 )}
16
x
dx
xe
x3 e 4 ln (1536) + 3 ln (x)
x
dx
4
(V )
1
1536
3 x
4
x e
ln
4 2
+ ln (x)
x
32
+4
8
x
dx (2.19)
(V I)
Novamente, efetuando as integraes e os clculos necessrios em (2.19) e notando que (I) = (V ) obtm-se (V ) = 3, 40970 e (V I) = 3, 34962 e assim
I (g, g3 ) = 3, 40970 3, 34962 = 0, 06008.
Para g4 (x) tem-se
I (g, g4 ) = g (x) ln
g (x)
g4 (x)

x
=
=
1
1536
1
1536
x3 e 4
x3 e 4
ln
dx
1536
1536
x3 e 4
ln
1536
24
2
x 1+ x
5
5
x3 e 4 ln (1536) + 3 ln (x)
dx
x
dx
4
(V II)
x3 e
x
4
ln
24
5
2
+ ln (x) 7 ln 1 + x
5
dx (2.20)
(V III)
Novamente, efetuando as integraes e os clculos necessrios em (2.20) e notando que (I) = (V II) obtm-se (V II) = 3, 40970 e (V III) = 2, 33585 e
assim I (g, g4 ) = 3, 40970 (2, 33585) = 5, 74555.
31
Resumidamente, tem-se a seguinte tabela:

Modelo
K-L informao
Posio
Weibull(2,20)
0,0462
Lognormal(2,2)
0,67235
Inversa Gausssiana(16,64)
0,06008
F(4,10)
5,74555
De acordo com os resultados da K-L Informao, a distribuio que melhor

aproxima a distribuio gama(4,4) a distribuio Weibull, seguida pela inversa Gaussiana, a lognormal e a F, respectivamente. Isso condiz com a anlise
grca feita anteriormente e tambm est de acordo com a propriedade (P3), pois
medida que a distribuio torna-se mais prxima da gama, v-se que I(g, gi )
diminui.
Conforme Akaike (1974), a K-L informao apropriada para testar se um
dado modelo adequado, entretanto o seu uso limitado, pois ela depende da distribuio g, que desconhecida. Se uma boa estimativa para a log verossimilhana
esperada puder ser obtida atravs dos dados, esta estimativa poder ser utilizada
como um critrio para comparar modelos.
Para analisar a estrutura de um dado fenmeno assumem-se modelos paramtricos {f (x|); Rp } tendo p parmetros, e em seguida maximiza-se a
funo de verossimilhana (descrita na seo seguinte) para se estimar o parmetro
.
2.2.3
A funo de verossimilhana
O mtodo mais importante de achar estimativas o mtodo de mxima verossimilhana, introduzido por R. A. Fisher. Conforme Bolfarine & Sandoval (2000)
a funo de verossimilhana denida como:
32
Denio 2.8 Seja {X1 , X2 , ..., Xn } uma amostra aleatria independente e identicamente distribuda, de tamanho n da varivel aleatria X com funo de densidade g (x|), com , em que o espao paramtrico. A funo de
verossimilhana de correspondente amostra aleatria observada dada por:
n
g ( Xi | ) = g (X1 |) g (X2 |) ...g (Xn |) . (2.21)
L (; X1 , X2 , ..., Xn ) =
i=1
Se a amostra tiver sido obtida, os valores de {x1 , x2 , ..., xn } sero conhecidos.

Como desconhecido, pode-se propor o seguinte: Para qual valor de a funo
L (x1 , x2 , . . . , xn ; ) ser mxima? (Meyer, 1983).
Denio 2.9 O estimador de mxima verossimilhana de , isto , , aquele
valor de que maximiza L (; X1 , X2 , ..., Xn ).
Segundo Ferreira (2005), o mtodo de mxima verossimilhana estima os valores dos parmetros da distribuio em estudo, maximizando a funo de verossimilhana. O estimador de mxima verossimilhana, aquele valor de , que
maximiza (2.21). Para obter o estimador de mxima verossimilhana, toma-se
a derivada primeira de L (; x1 , x2 , ..., xn ) com respeito a , iguala-se a zero e
resolve-se para , obtendo-se os pontos crticos; aquele ponto (se existir) que maximiza L (; x1 , x2 , ..., xn ) a estimativa de mxima verossimilhana para . Havendo mais de um parmetro, para encontrar os estimadores de mxima verossimilhana dos parmetros, deve-se primeiro tomar as derivadas parciais da funo de
verossimilhana com respeito a cada um deles, a seguir igualar a derivada a zero e
resolver o sistema obtido. Isto ,
L (; x1 , x2 , ..., xn )
= 0.
33
(2.22)
Como a funo de verossimilhana L (; x1 , x2 , ..., xn ) e a funo log verossimilhana logL (; x1 , x2 , ..., xn ) assumem mximo para o mesmo valor, muitas das vezes prefervel trabalhar com a funo log verossimilhana, por esta
ser bem menos complicada de trabalhar e encontrar os pontos crticos. A funo
S = logL (; x1 , x2 , ..., xn ) chamada funo suporte ( Cramr, 1973).
Segundo Konishi & Kitagawa (2008), os estimadores de mxima verossimilhana tm muitas propriedades da teoria das grandes amostras que torna o seu
resultado mais atrativo. So elas:
Os estimadores so assintoticamente consistentes, o que signica que quanto
maior o tamanho da amostra, mais prximos os valores das estimativas estaro dos verdadeiros valores. Formalmente tem-se:
Denio 2.10 Um estimador do parmetro um estimador consistente
se: lim P
n
= 0, para qualquer
> 0.
Os parmetros estimados so assintoticamente, normalmente distribudos.

Formalmente tem-se:
Teorema 2.1 Seja um estimador de mxima verossimilhana do parmetro , ento a distribuio de
n N
0, E
2 ln (X, )
2
Vale a pena observar que a varincia justamente a inversa da informao

de Fisher.
Eles tambm so assintoticamente ecientes, e quanto maior a amostra,
maior preciso das estimativas.
34
Os estimadores de mxima verossimilhana so tambm estatsticas sucientes, isto , so estatsticas que condensam os de tal forma que no so
perdidas informaes acerca de . Tal conceito pode assim ser formalizado:
Denio 2.11 Sejam X1 , X2 , . . . , Xn uma amostra aleatria de densidade
f (; ) . Uma estatstica S = s(X1 , X2 , . . . , Xn ) dita ser uma estatstica
suciente se e s se a distribuio condicional de X1 , X2 , . . . , Xn ) dado
S = s no depender de para qualquer valor de s S.
Ele tambm tem a propriedade da invarincia, que pode ser formalizada
como:
Denio 2.12 Seja = (X1 , X2 , . . . , Xn ) um estimador de mxima
verossimilhana de com funo de densidade f (; ), sendo unidimensional. Se () uma funo inversvel, ento o estimador de mxima verossimilhana de () .
Estas so excelentes propriedades da teoria das grandes amostras.
Uma outra propriedade, que no necessariamente estes estimadores tm, o
no-enviesamento. Um estimador no-viesado se sua esperana igual ao valor
estimado. Formalmente tem-se:
Denio 2.13 Um estimador do parmetro um estimador no viesado
quando a sua distribuio amostral est centrada no prprio parmetro, isto ,
E = .
2.2.4
O estimador da funo suporte
Depois que o vetor de parmetros foi estimado, ele substitudo no modelo

f (x|) e passa-se a trabalhar com o modelo f (x|). Assim, ao invs de (2.16)
35
tem-se
Eg ln f x|
ln f x| g (x) dx =
ln f x| dG (x) .
(2.23)
Tendo como base estimadores de mxima verossimilhana, deseja-se encontrar um bom estimador para (2.23). Segundo Konishi & Kitagawa (2008), uma
estimativa da funo suporte esperada, pode ser obtida substituindo a distribuio
de probabilidade desconhecida G na equao (2.23) por uma funo de distribuio emprica G baseada nos dados X. Isto pode ser entendido nas denies feitas
a seguir.
Denio 2.14 Sejam X = {x1 , x2 , ..., xn } os dados observados de uma distribuio G(x). A funo de distribuio emprica G a funo de densidade
1
acumulada que d de probabilidade para cada Xi . Formalmente,
n
Gn (x) =
1
n
I (Xi x)
i=1
em que
1, se Xi x
I (Xi x) =
0, se X x.
i
Wasserman(2005), mostra o seguinte teorema:

Teorema 2.2 Sejam X1 , X2 , ..., Xn G e seja Gn a funo densidade acumulada emprica. Ento:
Para qualquer valor de x xo,
E Gn (x) = G (x)
36
(2.24)
V ar Gn (x) =
G (x) (1 G (x))
n
sup Gn (x) G (x) 0 .

Denio 2.15 Um funcional estatstico T (G) qualquer funo de G, em que
G uma distribuio e T uma funo qualquer.
So exemplos de funcionais:
A mdia =
xdG (x),
(x )2 dG (x),
A varincia 2 =
A mediana m = G1
1
2
Um funcional da forma
u (x) dG (x) dito ser um funcional linear. No caso
contnuo,
u (x) dG (x) denido como sendo
u (x) g (x) dx e no caso discreto
u (xi ) g (xi ).
denido como sendo

i
Denio 2.16 O estimador para = T (G) denido por n = Gn .

Se um funcional pode ser escrito na forma T (G) =
u (x)dG (x), Konishi &
Kitagawa (2008) mostram que o estimador correspondente dado por

n
T G =
u (x)dG (x) =
i=1
1
g (xi ) u (xi ) =
n
u (xi )
(2.25)
i=1
ou seja, substitui-se a funo densidade de probabilidade acumulada G pela funo

de distribuio acumulada emprica G, e a funo densidade gn =
observao Xi .
37
1
n
para cada
Assim, se por exemplo, a funo de densidade acumulada G for substituda

por G, ser obtido o seguinte estimador para a mdia :
T G =
1
xdG (x) =
n
xi = x,
i=1
que exatamente a mdia amostral.

De (2.25) v-se que pode-se estimar a funo suporte esperada por:
EG log f x|
log f x| dG (x)
n
g xi | log f (xi )
=
i=1
1
n
log f xi | .
Nota-se que o estimador da funo suporte esperada EG logf x|

n1 L e a funo suporte L um estimador de nEG logf x|
38
(2.26)
i=1
OS CRITRIOS DE INFORMAO AIC E BIC
Com o intuito de comparar n modelos, g1 (x|1 ) , g2 (x|2 ) , ..., gn (x|n ),

pode-se simplesmente comparar as magnitudes da funo suporte maximizada,
isto , L i , mas tal mtodo no d uma verdadeira comparao, haja vista que,
em no conhecendo o verdadeiro modelo g (x), primeiramente utiliza-se o mtodo da mxima verossimilhana para estimar-se os parmetros i de cada modelo
gi (x), i = 1, 2, ...n, posteriormente utilizar-se- os mesmos dados para estimar-se
EG logf (x|) , isto introduz um vis em L i , sendo que, a magnitude deste
vis varia de acordo com a dimenso do vetor de parmetros.
De acordo com a Denio (2.13) o vis dado por
b (G) = EG(xn ) log f Xn | (Xn ) nEG(Z) log f Z| (Xn )
, (3.1)
em que a esperana tomada com respeito distribuio conjunta.

V-se assim que os critrios de informao so construdos para avaliar e corrigir o vis da funo suporte. Segundo Konishi & Kitagawa (2008), um critrio
de informao tem a forma que se segue:
CI Xn , G
= 2 (log (verossimilhana) vis)

n
= 2
log f Xn | (Xn ) + 2 (b (G)) .
(3.2)
i=1
Alguns critrios comuns na literatura tambm podem ser utilizados para seleo de modelos. Esses critrios levam em considerao a complexidade do modelo
no critrio de seleo. So critrios que essencialmente, penalizam a verossimilhana, utilizando o nmero de variveis do modelo e, eventualmente o tamanho
da amostra. Esta penalizao feita subtraindo-se do valor da verossimilhana
39
uma determinada quantidade, que depende do quo complexo o modelo (quanto

mais parmetros, mais complexo).
Akaike (1974), props utilizar a informao de Kullback-Leibler para a seleo de modelos. Ele estabeleceu uma relao entre a mxima verossimilhana e
a informao de Kullback-Leibler desenvolvendo ento um critrio para estimar a
informao de Kullback-Leibler, o posteriormente chamado, Critrio de Informao de Akaike(AIC).
Critrios de seleo de modelos como o Critrio de Informao de Akaike
(AIC) e Critrio de Informao Bayesiano (BIC), so freqentemente utilizados
para selecionar modelos em diversas reas. Segundo esses critrios, o melhor
modelo ser aquele que apresentar menor valor de AIC ou BIC.
Por serem resultados assintticos, os resultados deste trabalho so vlidos para
grandes amostras, sendo o conceito de grande amostra difcil de se denir, pois
tal conceito depende da rea de estudo, da disponibilidade de recursos para uma
amostra maior, dentre outros fatores. Se houver convico de que a amostra em
mos no grande, pode-se utilizar as correes destes critrios, j existentes,
para pequenas amostras. Tais correes no sero alvo desse estudo, mas podem
ser encontradas em (Burnham & Anderson, 2002).
3.1
Critrio de informao de Akaike

O Critrio de informao de Akaike (AIC) desenvolvido por Hirotugu Akaike
sob o nome de um critrio de informao em 1971 e proposto, em Akaike (1974),

uma medida relativa da qualidade de ajuste de um modelo estatstico estimado.
Fundamenta-se no conceito de entropia, oferecendo uma medida relativa das informaes perdidas, quando um determinado modelo usado para descrever a realidade. Akaike encontrou uma relao entre a esperana relativa da K-L informao
40
e a funo suporte maximizada, permitindo uma maior interao entre a prtica

e a teoria, em seleo de modelos e anlises de conjuntos de dados complexos
(Burnham & Anderson, 2002).
Akaike (1974), mostrou que o vis dado assintoticamente por:
b (G) = tr I ( 0 ) J ( 0 )1 ,
(3.3)
sendo J ( 0 ) e I ( 0 ) dados por (6.6) e (6.10), respectivamente. A derivao desse

resultado carregada de clculos matemticos e por isso encontra-se nos anexos.
O AIC um critrio que avalia a qualidade do ajuste do modelo paramtrico,
estimado pelo mtodo da mxima verossimilhana. Ele baseia-se no fato de que o
vis (3.3) tende ao nmero de parmetros a serem estimados no modelo, pois sob
a suposio de que existe um 0 tal que g(x) = f (x| 0 ), tem-se a igualdade
das expresses (6.6) e (6.10), isto , I( 0 ) = J( 0 ) e assim obter-se- em (3.3)
que:
= tr I (0 ) J 0 1
= tr (Ip ) = p,
(3.4)
em que p o nmero de parmetros a serem estimados no modelo.

Com esse resultado, Akaike (1974) deniu seu critrio de informao como:
AIC = 2 (Funo suporte maximizada) + 2 (nmero de parmetros) ,
AIC = 2 log L + 2 (k)
(3.5)
O AIC no uma prova sobre o modelo, no sentido de testar hipteses, mas

41
uma ferramenta para a seleo de modelos; no um teste de hipteses, no h

signicncia e nem valor-p. Dado um conjunto de dados e vrios modelos concorrentes, pode-se classic-los de acordo com o seu AIC, com aqueles tendo os
menores valores de AIC sendo os melhores (Burnham & Anderson, 2002). A partir do valor do AIC pode-se inferir que, por exemplo, os trs principais modelos
esto em um empate e os restantes so muito piores, mas no se deve atribuir um
valor cima do qual um determinado modelo rejeitado.
Esse critrio est implementado em grande parte dos softwares estatsticos,
tais como SAS, R, Statistica, etc. Por si s, o valor do AIC para um determinado
conjunto de dados no tem qualquer signicado. O AIC torna-se til quando so
comparados diversos modelos. O modelo com o menor AIC o melhor modelo,
dentre os modelos comparados. Se apenas modelos ruins forem considerados, o
AIC selecionar o melhor dentre estes modelos.
3.2
Critrio de informao bayesiano

O Critrio de informao Bayesiano (BIC), tambm chamado de Critrio de
Schwarz, foi proposto por Schwarz (1978), e um critrio de avaliao de modelos

denido em termos da probabilidade a posteriori, sendo assim chamado porque
Schwarz deu um argumento Bayesiano para prov-lo. A seguir sero descritos
alguns conceitos que levaro construo deste critrio ao nal desta subseo.
O teorema de Bayes
De acordo com Bolfarine & Sandoval (2000), quando dois ou mais eventos
de um espao amostral so levados em considerao conjuntamente, passa a haver
sentido conjecturar se a ocorrncia ou no de um afeta a ocorrncia ou no do outro, isto , se so independentes ou no. Intuitivamente, somos levados denio
de que dois eventos so independentes se, P [A B] = P [A] P [B]. Entretanto,
42
se h dependncia entre os eventos, passa a haver sentido falar na probabilidade de

que um evento ocorra dado que outro ocorreu ou no. Esta dependncia motiva a
denio de probabilidade condicional. Finalmente, os conceitos de independncia e probabilidade condicional levaro ao teorema de Bayes.
Mood et al. (1974), denem probabilidade condicional, independncia e subconjuntos mutuamente exclusivos como se segue:
Denio 3.1 A probabilidade condicional de um evento A dado um evento B,
denotada por P [A|B] denida por:
P [A|B] =
P [A B]
P [B]
se P [B] > 0 e indenida se P [B] = 0.

Denio 3.2 Dois eventos A e B so ditos independentes se, e s se, qualquer
uma das trs condies verdadeira
P [A B] = P [A] P [B],
P [A|B] = P [A], se P [B] > 0,
P [B|A] = P [B], se P [B] > 0.
Denio 3.3 Dois conjuntos A e B, subconjuntos de , so denidos como sendo
mutuamente exclusivos (disjuntos) se A B = . Subconjuntos A1 , A2 , . . . so
ditos mutuamente exclusivos se Ai Aj = para todo i = j, i, j N.
Teorema 3.1 Se (, A, P []) um espao de probabilidades e B1 , B2 , . . . , Bn
n
uma coleo de eventos mutuamente exclusivos em A, satisfazendo =
Bj
j=1
43
e P [Bj ] > 0, para j = 1, 2, . . . , n, ento para todo A A, tal que P [A] > 0,
tem-se:
P [A|Bk ] P [Bk ]
P [Bk |A] =
(3.6)
P [A|Bk ] P [Bk ]
j=1
sendo o espao amostral e A o espao paramtrico.

Conforme Konishi & Kitagawa (2008), sejam M1 , M2 , . . . , Mk , k modelos
candidatos, cada um dos modelos Mi com uma distribuio de probabilidades
fi (x|i ) e uma priori, i (i ) para o ki simo vetor i . Se so dadas n observaes xn = {x1 , x2 , . . . , xn }, ento para o isimo modelo Mi , a distribuio
marginal de xn dada por:
pi (xn ) =
fi (xn |i ) i (i ) di .
(3.7)
Essa quantidade pode considerada como a verossimilhana para o i-simo modelo e ser referida como verossimilhana marginal dos dados.
Sendo P (Mi ) a distribuio a priori do i-simo modelo, por (3.6) a distribuio
a posteriori ser (Burnham & Anderson, 2002):
P (Mi |xn ) =
pi (xn ) P (Mj )
n
(3.8)
pj (xn ) P (Mj )
j=1
Segundo Paulino et al. (2003), a probabilidade a posteriori indica a probabilidade dos dados serem gerados do i-simo modelo quando os dados xn so
observados. Se um modelo est sendo selecionado de r modelos, seria natural
adotar o modelo que tem a maior probabilidade a posteriori. Esse princpio mostra
que o modelo que maximiza o numerador pj (xn ) P (Mj ) deve ser selecionado,
pois todos os modelos compartilham do mesmo denominador em (3.8). Se as dis44
tribuies a priori P (Mi ) so iguais em todos os modelos, ento o modelo que

maximiza a probabilidade marginal dos dados pi (xn ), deve ser selecionado. Assim, se uma aproximao para o probabilidade marginal expressa em termos da
integral em (3.8) puder ser obtida, a necessidade bsica de encontrar a integral
problema-por-problema desaparece, isto faz do BIC um critrio satisfatrio para
seleo de modelos.
De acordo com Konishi & Kitagawa (2008), o BIC denido como:
2logpi (xn ) = 2log
fi (xn |i ) i (i ) di
2logfi xn |i + ki logn
(3.9)
em que i o estimador de mxima verossimilhana para o ki -simo vetor paramtrico i do modelo fi (xn |i ).
Conseqentemente, dos r modelos avaliados usando o mtodo de mxima verossimilhana, o modelo que minimizar o valor do BIC o melhor modelo para os
dados.
Assim, sob a suposio de que todos os modelos tm distribuio de probabilidades a priori iguais, a probabilidade posteriori, obtida usando a informao do
dados, serve para contrastar os modelos e ajuda na identicao do modelo que
gerou os dados.
Sejam M1 e M2 dois modelos que quer-se comparar. Para cada modelo tem-se
as verossimilhanas marginais pi (xn ), as prioris P (Mi ) e as posterioris P (Mi |xn )
com i = {1, 2}, assim, a razo posteriori em favor do modelo M1 versus o mo-
45
delo M2 :
p1 (xn )P (M1 )
n
P (M1 |xn )
=
P (M1 |xn )
pj (xn )P (Mj )
j=1
p2 (xn )P (M2 )
n
p1 (xn ) P (M1 )
.
p2 (xn ) P (M2 )
pj (xn )P (Mj )
j=1
A razo
p1 (xn )
p2 (xn )
(3.10)
chamada de Fator de Bayes.

Segundo Konishi & Kitagawa (2008), Akaike mostrou que a comparao baseada no fator de Akaike assintoticamente equivalente comparao atravs do
fator de Bayes.
O problema em encontrar o valor do BIC reside no fato de ter-se que calcular
o valor da integral em (3.7). Isso feito utilizando-se a aproximao de Laplace
para integrais.
A aproximao de Laplace para integrais
Considere a aproximao de Laplace para a integral
exp {nq ()}d,
(3.11)
em que um vetor de parmetros p-dimensional e q() uma funo real pdimensional.

A grande vantagem da aproximao de Laplace o fato de que quando o nmero n de observaes grande, o integrando concentra-se em um vizinhana de
q(), e conseqentemente, o valor da integral depende somente do comportamento
do integrando na vizinhana de .
46
Assim,
q()
=
= 0 e a expanso de q () em torno de :
q () = q
+ ...,
Jq
(3.12)
em que
Jq =
2 q ()
T
(3.13)
=
Denio 3.4 Sejam q () uma funo de valores reais avaliada em torno de ,

sendo um vetor de parmetros. Ento a aproximao de Laplace para a integral
dada por:
exp {nq () d}
p
(2) /2
p/ exp nq
p/
2
(n) 2 Jq
(3.14)
em que Jq denido em (3.13).

Utilizando-se a aproximao de Laplace para aproximar (3.7), que pode ser
reescrita como
p(xn ) =
fi (xn |) () d
exp {log f (xn |)} () d
exp { ()} () d,
(3.15)
em que () a funo suporte () = logf (xn |).

Assim sendo, fazendo-se a expanso em sries de Taylor de () e () em
torno de obter-se- respectivamente:
() =
2
47
+ ...,
(3.16)
() = +
()
+ ...,
(3.17)
substituindo (3.16) e (3.17) em (3.15) obtm-se:

()
+. . . d
=
T ()
+ . . . d
+
=
T
n
exp
exp
J ()
2
p(xn ) = exp +
d(3.18)
A integral em (3.18) satisfaz a equao (3.14), conseqentemente pode ser

aproximada utilizando Laplace, e obtm-se:
n
exp
J ()
1/
p/ p/
2
2n 2 J
d = (2)
(3.19)
,
em que o integrando uma funo de densidade normal p-dimensional com vetor

de mdias e matriz de covarincia J 1
n.
Para n grande,
p(xn ) exp
1/
p
p
2
(2) /2 n /2 J
(3.20)
Tomando o logartmo em (3.20) e multiplicando a expresso por 2 obtm-se

2 log p (xn ) = 2 log
= 2
f (xn |) () d
+ p log n + log J
(3.21)
p log (2) 2 log
Assim, o Critrio de Informao Bayesiano pode ser obtido da seguinte forma

(ignorando-se os termos constantes no equao):
48
Denio 3.5 Seja F xn | um modelo estatstico estimado atravs do mtodo

de mxima verossimilhana. Ento o Critrio de Informao Bayesiano(BIC)
dado por:
BIC = 2 log f (xn |) + p log n,
(3.22)
em que f (xn |) o modelo escolhido, p o nmero de parmetros a serem estimados e n o nmero de observaes da amostra.
3.3
Algumas consideraes acerca do AIC e do BIC

Vale a pena salientar algumas caractersticas dos critrios AIC e BIC. A maio-
ria dessas consideraes so feitas por Burnahm & Anderson(2002), e tambm esto no website desses autores, onde esto disponveis outras consideraes acerca
destes mtodos.
Tanto o AIC quanto o BIC fundamentam-se na verossimilhana, impondo
entretanto diferentes penalizaes;
O AIC e o BIC servem para comparar modelos encaixados, mas podem ser
aplicados tambm em modelos no encaixados;
Para n > 8, o valor do AIC para um determinado modelo ser sempre menor
que o valor do BIC, mas os resultados no necessariamente o sero;
O AIC e o BIC servem para comparar quaisquer quantidade de modelos, e
no somente dois, como muitos pensam;
O AIC e o BIC so critrios assintticos e j existem correes para estes;
O AIC e o BIC servem para estudar estruturas de covarincias;
49
A seleo dos modelos feita pelo pesquisador e, se somente modelos ruins

forem selecionados, o AIC far a seleo do melhor dentre eles.
50
4.1
APLICAES DO AIC E BIC
Os dados
Para a realizao desse trabalho foram avaliados dois conjuntos de dados dis-
tintos.
O primeiro conjunto de dados disponibilizado em Triola (1999), e encontrase no anexo A. Foram extradas duas amostras de confeitos M&M, pesados os
de cores vermelha e amarela. A varivel resposta foi o peso em gramas de cada
elemento amostral. Utilizando o AIC e o BIC desejou-se testar se os pesos dos
confeitos amarelos e vermelhos seguem a mesma distribuio.
O segundo conjunto de dados foi obtido de Rawlings et al. (1998). Trata-se
de um estudo das caractersticas que inuenciam a produo area de biomassa
na grama de pntano. Foram amostrados trs tipos de vegetao Spartina, em trs
localidades (Oak Island, Smith Island, and Snows Marsh). Em cada localidade,
cinco amostras aleatrias do substrato de terra de cada tipo de vegetao foram
coletadas, totalizando 45 amostras.
Foram analisadas 14 caractersticas fsico-qumicas da terra durante vrios meses, porm os dados usados nesse estudo envolvem s a amostragem de setembro,
em que foram analisadas as variveis: salinidade (Sal), pH (pH), potssio (K) em
ppm, sdio (Na) em ppm , zinco (Zn) em ppm e a varivel resposta foi a biomassa
area em gm2 . O propsito do estudo foi utilizar regresso linear mltipla para
relacionar a produo de biomassa com as cinco variveis estudadas.
4.2
Igualdade de mdias e / ou de varincias de distribuies normais

Uma utilidade dos critrios de Akaike e de Schwarz testar se os dados oriun-
dos de uma distribuio normal tem mesma mdia e varincia; ou mesma mdia
51
e varincias diferentes, ou diferentes mdias e mesma varincia ou se provm de

uma normal com mdias e varincias diferentes.
Sejam dois conjuntos de dados {y1 , y2, . . . , yn } e {yn+1 , yn+2, . . . , yn+m },
2
2
sendo que y1 , y2, . . . , yn N 1 , 1 e yn+1 , yn+2, . . . , yn+m N 2 , 2 .
Deseja-se vericar se:

2
2
1 = 2 = e 1 = 2 = 2 ou
(4.1)
2
2
1 = 2 e 1 = 2 ou
(4.2)
2
2
1 = 2 e 1 = 2 = 2 ou
(4.3)
2
2
1 = 2 = e 1 = 2
(4.4)
Tem-se que
2
f y1 |1 , 1 =
1
2
21
exp
1
2
yi 1
1
, i = 1, 2, . . . , n,
e
1
2
f y2 |2 , 2 =
2
22
exp
1
2
yi 2
2
, i = n + 1, n + 2, . . . , n + m,
E a funo de densidade conjunta dada por:

2
2
f(Y|) = f y1 , . . . , yn , yn+1 , . . . , yn+m |1 , 1 , 2 , 2
n
=
i=1
yi 1
exp
2
21
21
1
n+m
i=n+1
52
1
2
22
exp
yi 1
22
Assim, a funo suporte :

n
L()= log
i=1
yi 1
1
21
n
n
2
= log 21
2
1
2
e
2
n+m
i=n+1
2
21
1
2
yi 2
2
22
n+m
(yi 1 )2
i=1
e
2
m
2
log 22
2
(yi 2 )2
i=n+1
(4.5)
2
22
2
2
em que = 1 , 2 , 1 , 2 .
Sero obtidas as situaes descritas em (4.1), (4.2) (4.3), e (4.4). Ser feita
agora a derivao dos critrios de Akaike e Schwarz para cada uma delas.
2
2
Caso 1: 1 = 2 = e 1 = 2 = 2
2
2
Para o caso descrito em (4.1), ou seja, 1 = 2 = e 1 = 2 = 2 existem
dois parmetros e 2 desconhecidos. Esta suposio equivalente a termos

n + m observaes y1 , y2 , . . . , yn+m de uma distribuio normal , isto ,
y1 , y2 , . . . , yn+m , N , 2 .
Sob a suposio (4.1) tem-se de (4.5) que
n
n
L () = log 2 2
2
n+m
(yi )2
i=1
2 2
m
log 2 2
2
n+m
1
L () =
log 2 2 2
2
2
(yi )2
i=n+1
2 2
n+m
(yi )2 ,
(4.6)
i=1
sendo = , 2 .
Maximizando (4.6) tem-se:
L =
n+m
log 2 2 + 1 ,
2
53
(4.7)
em que
1
n+m
n+m
yi
(4.8)
(yi )2 .
(4.9)
i=1
e
2
2 =
1
n+m
n+m
i=1
Os clculos inerentes a esses resultados encontram-se no Anexo C.

O valor do AIC dado por:
AIC = 2 (Funo suporte maximizada) + 2 (nmero de parmetros) ,
AIC = 2 log L
+ 2 (k)
(4.10)
em que L() a verossimilhana maximizada e k o nmero de parmetros desconhecidos e estimados.

Substituindo (4.7) em (4.10), tem-se:
AIC1 =2
n+m
log 2 2 + 1
2
+ 2(2) = (n + m) log 2 2 + 1 + 4
AIC1 = (n + m) log 2 + log 2 + 1 + 4
(4.11)
O valor do BIC dado por:

BIC = 2 (Funo suporte maximizada) + (nmero de parmetros) log n,
BIC = 2 log L
+ (k) log n
(4.12)
em que L() a funo de verossimilhana maximizada e k o nmero de parmetros desconhecidos e estimados.

54

n+m
log 2 2 + 1 + 2 log(n)
2
= (n + m) log 2 2 + 1 + 2 log(n + m)
BIC1 = 2
BIC1 = (n + m) log 2 + log 2 + 1 + 2 log(n + m)
(4.13)
2
2
Caso 2: 1 = 2 e 1 = 2
2
2
Se todos os parmetros so desconhecidos tem-se ento = 1 , 2 , 1 , 2
e assim a funo em (4.5) expressa como:
L () = L
2
2
1 , 2 , 1 , 2
n
1
2
= log 21 2
2
21
1
m
2
log 22 2
2
22
(yi 1 )2
i=1
n+m
(yi 2 )2
(4.14)
i=n+1
Logo,
n
(yi 1 )2
n
2
L = log 2 1 i=1
2
2
21
(yi 2 )2
m
i=n+1
2
log 22
,(4.15)
2
2 2
2
2
2
e 1 , 2 , 1 e 2 so dados por respectivamente por (4.16), (4.17), (4.18) e (4.19).
1 =
1
n
2 =
1
m
2
1 =
2
2 =
1
n
1
m
yi
i=1
n+m
(4.16)
yi
(4.17)
i=n+1
n
(yi 1 )2
(4.18)
(yi 2 )2 .
(4.19)
i=1
n
i=1
55
Todos os clculos necessrios para a obteno desses resultados encontram-se no

Anexo C.
Substituindo (4.15) em (4.10), j multiplicando pelo fator 2, tem-se:
n
(yi 1 )2
2
AIC2 =n log 2 1 + i=1
2
+m log 2 2 +
2
1
2
AIC2 = n log 2 1 +
2
n 1
2
1
(yi 2 )2
i=n+1
2
2
2
+ m log 2 2 +
2
m2
2
2
+2(4)
+8
2
2
AIC2 = (n + m) log (2) + n log 1 + m log 2 + (n + m) + 8
2
2
AIC2 = (n + m) (log (2) + 1) + n log 1 + m log 2 + 8
(4.20)
O valor do BIC dado por:

BIC = 2 (log L ()) + (k) log n,
BIC2
(4.21)
(yi 1 )2
n
2
= 2 log 2 1 i=1
2
2
21
m
(yi 2 )
m
i=n+1
2
+ 4 log n
log 22
2
2 2
2
56
2
BIC2 = n log 2 1 +
2
n1
2
1
2
+ m log 2 2 +
2
m2
2
2
+ 4 log n
2
2
BIC2 = (n + m) log (2) + n log 1 + m log 2 + (n + m) + 4 log n
2
2
BIC2 = (n + m) (log (2) + 1) + n log 1 + m log 2 + 4 log n
(4.22)
2
2
Caso 3: 1 = 2 e 1 = 2 = 2
2
2
No caso em que 1 = 2 1 = 2 = 2 , tem-se trs parmetros desconhe-
cidos 1 , 2 e 2 , que devem ser estimados a m de obter a estimativa da funo

suporte. De (4.5) tem-se:
L() =
n+m
1
log 2 2 2
2
2
n+m
(yi 1 )2 +
i=1
(yi 2 )2 (4.23)
i=n+1
em que = 1 , 2 , 2 .
A funo suporte estimada dada por
L =
m+n
log 2 2 + 1
2
(4.24)
Sendo os estimadores de 1 , 2 , e 2 dados respectivamente por:

n
yi
i=1
1 =
(4.25)
n
n+m
yi
2 =
2 =
1
(n + m)
i=n+1
(4.26)
n+m
(yi 1 )2 +
i=1
(yi 2 )2
i=n+1
57
(4.27)
Substituindo (4.24) em (4.10) tem-se:

AIC3 = 2
m+n
log 2 2 + 1
2
+23
AIC3 = (m + n) log 2 2 + 1 + 6
AIC3 = (n + m) log 2 + (n + m) (log 2 + 1) + 6
(4.28)
Sendo valor do BIC dado por

BIC = 2 log L
+ (k) log n,
(4.29)
substitui-se (4.24) em (4.29), e tem-se:

BIC3 = 2
m+n
log 2 2 + 1
2
+ 3 log n
E assim
BIC3 = (n + m) log 2 + (n + m) (log 2 + 1) + 3 log n
(4.30)
2
2
Caso 4: 1 = 2 = e 1 = 2
2
2
2
2
Neste caso tem-se 3 parmetros desconhecidos , 1 , e 2 , e = , 1 , 2 .
Assim sendo, tem-se em (4.5):

n
n
2
L()= log 21
2
(yi )2
i=1
2
21
n+m
m
2
log 22
2
58
(yi )2
i=n+1
2
22
.(4.31)
E assim
L =
(n + m)
n
m
2
2
(log 2 + 1) log 1 log 2
2
2
2
(4.32)
Sendo que
2
1 =
2
2
1
n
1
=
m
(yi )2
(4.33)
i=1
n+m
(yi )2
(4.34)
i=n+1
e o estimador de encontrado resolvendo-se a equao

3 + A2 + B + C = 0
(4.35)
em que A, B e C, so dados respectivamente por (6.34), (6.35) e (6.36).

O passo seguinte obter o valor de AIC. Substituindo (4.32) em (4.10) tem-se:
AIC4 = 2
n
m
(n + m)
2
2
(log 2 + 1) log 1 log 2 + 2 3
2
2
2
2
2
AIC4 = (n + m) (log 2 + 1) + n log 1 + m log 2 + 6
(4.36)
E nalmente para obter-se o BIC

BIC = 2 log L
59
+ (k) log n,
(4.37)
ser substitudo (4.32) em (4.37) e da

BIC4 = 2
(n + m)
n
m
2
2
(log 2 + 1) log 1 log 2
2
2
2
+ 3 log n,
e o valor do BIC dado por:

2
2
BIC4 = (n + m) (log 2 + 1) + n log 1 + m log 2 + 3 log n
4.3
(4.38)
Seleo de variveis em modelos de regresso

Supondo que se tenha uma varivel resposta Y e m variveis explicativas
X1 , X2 , . . . , Xm . O modelo de regresso linear mltipla dado por

Y = 0 + 1 X1 + . . . + m Xm + ,
em que o erro N (0, 2 ).
A distribuio condicional da varivel resposta Y dado as variveis explicativas
f (Y |X1 , . . . , Xm ) = 2
1
2 2
1
exp 2 Y 0
2
2
j Xj .
j=1
Assim, se houver um conjunto com n observaes, sendo estas independentes

{(Yi , Xi1 , . . . , Xim ) ; i = 1, . . . , n}, a verossimilhana para o modelo ser dada
por
L 0 , 1 , . . . , m , 2 =
p (Yi |Xi1 , . . . Xim ).

i=1
60
Assim, a funo suporte ser:
L , 2
n
1
= log 2 2 2
2
2
Yi 0
i=1
j Xij ,
(4.39)
j=1
em que = (0 , 1 , . . . , m ) , sendo que seu estimador de mxima verossimilhana =
0 , 1 , . . . , m , obtido como soluo do sistema de equaes
lineares
X T X = X T Y ,
em que
1
2
.
.
.
m
1 X11
...
X1m
1 X21 X2m
,X =
.
.
.
..
.
.
.
.
.
.
.
1 Xn1 . . . Xnm
Y1
Y2
, e Y =
. .
.
.
Yn
O estimador de mxima verossimilhana de 2 :

2 =
1
n
Yi 0 + 1 Xi1 + . . . + m Xim
(4.40)
i=1
Substituindo (4.40) em (4.39) tem-se a funo suporte maximizada

n
n
n
L 0 , 1 , . . . , m , 2 = log(2) log d (X1 , . . . , Xm ) , (4.41)
2
2
2
em que d (X1 , . . . , Xm ) a estimativa da varincia residual 2 do modelo, dada
em (4.40).
Como o nmero de parmetros a serem estimados no modelo de regresso
mltipla m + 2, o AIC deste modelo de acordo com a equao (3.5) ser dado
61
por:
AIC = n (log 2 + 1) + n log d (X1 , . . . , Xm ) + 2 (m + 2) .
(4.42)
Na regresso mltipla, nem todas as variveis explicativas necessariamente inuenciaro signicativamente a varivel resposta. Um modelo estimado com um
grande nmero de variveis explicativas desnecessrias pode ser instvel. Selecionando o modelo com o menor AIC para todas as diferentes possveis combinaes
da varivel explicativa, espera-se obter um modelo razovel, que equilibre a qualidade do ajuste e a complexidade.
O BIC para este modelo, conforme (3.22), ser dado por
BIC = n (log 2 + 1) + n log d (X1 , . . . , Xm ) + 2 (m + 2) log n.
4.4
Seleo de modelos para os dados M&M e produo de biomassa

Todos os clculos foram feitos utilizando-se o software R.
4.4.1
Anlise dos dados dos pesos de M&M
2
2
Para o caso em que 1 = 2 = e 1 = 2 = 2 foi obtido:
= 0.9138936
2 = 0.0009435844
L = 97.00677,
AIC1 = 190.0135
BIC1 = 186.3132,
2
2
Para o segundo caso, em que 1 = 2 e 1 = 2 tem-se:
1 = 0.9172692
62
(4.43)
2 = 0.9097143
2
1 = 0.001099581
2
2 = 0.0007188707
L = 97.87383
AIC2 = 187.7477
BIC2 = 180.3471.
2
2
Para o terceiro caso, em que 1 = 2 e 1 = 2 = 2 tem-se:
1 = 0.9172692
2 = 0.9097143
2 = 0.0009294766
L = 97.36078
AIC3 = 188.7216
BIC3 = 183.1711.
2
2
Para o quarto caso, em que 1 = 2 = e 1 = 2 tem-se:
= 0.9128487670
2
1 = 0.001119122
2
2 = 0.0007188707
L = 97.64484
AIC4 = 189.2897
BIC4 = 183.7392.
Comparando-se os valores do AIC , obtidos (AIC1 , AIC2 , AIC3 , AIC4 ), v2
2
se que deve-se selecionar o modelo 1, em que 1 = 2 = e 1 = 2 = 2 ,
ou seja, pelo critrio de Akaike, mais provvel que os pesos dos M&M tenham
distribuio normal, com mesma mdia e mesma varincia.
63
Ao se comparar os modelos utilizando o BIC, os resultados obtidos so os

mesmos que aqueles obtidos pelo AIC, ou seja, os dados seguem a distribuio
normal, com mesma mdia e mesma varincia, haja vista que o valor do BIC1 foi
o menor deles.
4.4.2
Anlise dos dados da produo de biomassa na grama de pntano.
Na Tabela 1 abaixo, tem-se o resultado do AIC e BIC para os 32 modelos

possveis de se obter com os dados.
A partir desta tabela, seleciona-se pelo AIC o modelo que tem pH e Na como
sendo o mais provvel. O modelo nal selecionado foi
Y = 475.72892 + 404.94836 pH 0.02333 N a.
A seleo pelo critrio BIC no difere em seus resultados do critrio AIC,
selecionando o mesmo modelo como sendo o mais provvel.
A diculdade aqui encontrada ao fazer-se os clculos para todos os modelos possveis, pois se houver N variveis, tem-se 2N modelos possveis. Nesse
exemplo, o nmero de variveis relativamente pequeno, mas se houvesse, por
exemplo, dez variveis, tera-se 210 = 1024 modelos possveis.
Seria impraticvel trabalhar com tantos modelos, o que se faz ento uma
pr seleo das variveis utilizando stepwise, ou outro mtodo, e somente depois
calcula-se o AIC e o BIC para tais modelos pr selecionados.
64
TABELA 1: Resultados do estudo da produo area de biomassa na grama de

pntano.
Modelo
Y=+
Y=SAL+
Y=pH+
Y=K+
Y=Na+
Y=Zn+
Y=SAL+pH+
Y=SAL+K+
Y=SAL+Na+
Y=SAL+Zn+
Y=pH+K+
Y=pH+Na+
Y=pH+Zn+
Y=K+Na+
Y=K+Zn+
Y=Na+Zn+
Y=SAL+pH+K+
Y=SAL+pH+Na+
Y=SAL+pH+Zn+
Y=SAL+K+Na+
Y=SAL+K+Zn+
Y=SAL+Na+Zn+
Y=pH+K+Na+
Y=pH+K+Zn+
Y=pH+Na+Zn+
Y=K+Na+Zn+
Y=SAL+pH+K+Na+
Y=SAL+pH+K+Zn+
Y=SAL+pH+Na+Zn+
Y=SAL+K+Na+Zn+
Y=pH+K+Na+Zn+
Y=SAL+pH+K+Na+Zn+
2
426021.44
421487.01
170679.44
408179.80
394486.72
259921.99
168961.07
403264.55
392962.59
190594.81
150140.21
145514.93
166880.94
394351.87
249136.22
242819.41
148179.33
145253.20
154797.34
392958.57
180423.99
185562.41
144694.09
148217.11
143803.24
242818.98
144121.58
138517.20
139832.73
180079.53
143070.72
797841.82
65
log(L())
355.50
355.26
334.92
354.54
353.77
344.39
334.69
354.27
353.69
337.41
332.04
331.33
334.42
353.76
343.43
342.85
331.74
331.29
332.72
353.69
336.17
336.80
331.21
331.75
331.07
342.85
331.12
330.22
330.44
336.13
330.95
369.62
AIC
715.01
716.52
675.84
715.08
713.54
694.77
677.39
716.54
715.37
682.81
672.07
670.67
676.83
715.53
694.86
693.71
673.48
672.58
675.45
717.37
682.34
683.61
672.41
673.49
672.13
695.71
674.23
672.45
672.87
684.26
673.90
753.24
BIC
718.62
721.94
681.26
720.50
718.96
700.19
684.62
723.76
722.60
690.04
679.30
677.89
684.06
722.76
702.09
700.93
682.52
681.62
684.48
726.40
691.38
692.64
681.44
682.53
681.17
704.74
685.07
683.29
683.71
695.10
684.74
765.89
CONCLUSES
Diante do problema da seleo de modelos, pode-se utilizar os critrios de

informao Bayesiano e de Akaike para se selecionar modelos satisfatoriamente.
Esses critrios baseiam-se em conceitos de fundamental importncia, a verossimilhana, a Informao e a Entropia.
O AIC e o BIC podem ser utilizados nas mais diversas reas; em estatstica so
amplamente utilizados principalmente em sries temporais e regresso; entretanto
a regresso, a geoestatstica e outras reas tambm utilizam estes critrios.
Nesse trabalho, utilizou-se satisfatoriamente, os critrios para seleo de modelos normais e modelos de regresso; os resultados obtidos foram os mesmos
nas aplicaes feitas, mas nem sempre isto ocorre, conforme ser demonstrado em
trabalhos posteriores.
66
ESTUDOS FUTUROS
Avaliar via simulao via Monte Carlo os desempenhos dos critrios AIC e
BIC;
Comparar o AIC e o BIC com um terceiro e recente mtodo, a Medida L;
Aplicao e comparao do AIC e BIC em sries temporais, onde estes so
amplamente utilizados;
Avaliar a utilizao desses critrios em dados censurados, em que a verossimilhana no pode ser calculada (somente a verossimilhana parcial).
67
REFERNCIAS BIBLIOGRFICAS
AKAIKE, H. A new look at the statistical model identication. IEEE
Transactions on Automatic Control, Boston, v.19, n.6, p.716723, Dec. 1974.
ASH, R.B. Information theory. Illinois: Academic, 1965. 339p.
BOLFARINE, H.; SANDOVAL, M.C. Introduo inferncia estatstica. So
Paulo: Sociedade Brasileira de Matemtica, 2000. 125p.
BURNHAM, K.P.; ANDERSON, D.R. Model selection and multimodel
inference: a pratical information-theoretic approach. New York: Springer, 2002.
488p.
BURNHAM, K.P.; ANDERSON, D.R. Multimodel inference: understanding aic
and bic in model selection. Sociological Methods and Research, Beverly Hills,
v.33, n.2, p.261304, May 2004.
CHAKRABARTI, C.G.; CHAKRABARTY, I. Boltzmann entropy : probability
and information. Romanian Journal of Physics, Bucharest, v.52, n.5-6,
p.525528, Jan. 2007.
COVER, T.M.; THOMAS, J.A. Elements of information theory. New York: J.
Wiley, 1991. 542p.
CRAMR, H. Elementos da teoria de probabilidade e algumas de suas
aplicaes. So Paulo: Mestre Jou, 1973. 330p.
DOMINGUES, H.H. Espaos mtricos e introduo topologia. So Paulo:
Atual, 1982. 183p.
DRAPER, N.R.; SMITH, H. Applied regression analysis. 3. ed. New York: J.
Wiley, 1998. 706p.
FERNANDES, R. de M.S.; AZEVEDO, T. de S. Teoria da informao e suas
aplicaes em compresso e aleatoriedade. Rio de Janeiro: PESC - COPPE,
2006. Notas de aula. Disponvel em:
<http://www.ravel.ufrj.br/arquivosPublicacoes/cos702_Rafael_Tiago.pdf>.
Acesso em: 20 jul. 2008.
FERREIRA, D.F. Estatstica bsica. Lavras: UFLA, 2005. 664p.
GARBI, G.G. O romance das equaes algbricas: a histria da lgebra. So
Paulo: Makron Books, 1997. 253p.
68
GHOSH, J.K.; SAMANTA, T. Model selection - an overview. Current Science,

Bangalore, v.80, n.9, p. 11351144, May 2001.
HALLIDAY; RESNICK; WALKER. Fundamentos de fsica 2: gravitao,
ondas e termodinmica. 4. ed. Rio de Janeiro: LTC, 1996.
HUANG, K. Statistical mechanics. 2. ed. Singapore: J. Wiley, 1987. 493p.
JOHNSON, N.L.; KOTZ, S.; BALAKRISHNAN, N. Continuous univariate
distributions. 2. ed. New York: J. Wiley, 1994. 756p.
KONISHI, S.; KITAGAWA, G. Information criteria and statistical modeling.
New York: Springer, 2008. 321p.
MACKAY, D.J. Information theory, inference, and learning algorithms. 4. ed.
London: Cambridge, 2005. 628p.
MARTINS, R.C. Sobre a atualidade de proposies de Ludwig Boltzmann.
Revista da SBHC, So Paulo, n.13, p.8194, 1995.
MAZEROLLE, M.J. Mouvements et reproduction des amphibiens en
tourbires perturbes. 2004. 78p. Tese (Doutorado em Cincias Florestais) Universit Laval, Qubec.
MEYER, P.L. Probabilidade: aplicaes estatstica. 2. ed. Rio de Janeiro:
LTC, 1983. 421p.
MIRANDA, C.G. O mtodo lasso para o modelo de Cox e sua comparao
com propostas tradicionais de seleo de variveis. 2006. 97p. Tese
(Doutorado em Estatstica) - Universidade Federal de Minas Gerais. Belo
Horizonte.
MOOD, A.M.; GRAYBILL, F.A.; BOES, D.C. Introduction to the theory of
statistics. 3. ed. New York: J. Wiley, 1974. 564p.
NUSSENZVEIG, H.M. Curso de fsica bsica 2: uidos; oscilaes e calor;
ondas. 3. ed. So Paulo: E. Blcher, 1981. 315p.
PAULINO, C.D.; TURKMAN, A.A.; MURTEIRA, B.J. Estatstica bayesiana.
Lisboa: Fundao Calouste Gulbenkian, 2003. 280p.
RAWLINGS, J.O.; PANTULA, S.G.; DICKEY, D.A. Applied regression
analysis: a research tool. 2. ed. New York: Springer, 1998. 657p.
69
RIBEIRO, J.C. Teoria da informao - mdulo I. Rio de Janeiro, 2007. Notas

de aula. Disponvel em:
<http://pasta.ebah.com.br/download/apostila-teoria-da-informacao-pdf-3985>.
Acesso em: 16 jul. 2008.
SCHWARZ, G. Estimating the dimensional of a model. Annals of Statistics,
Hayward, v.6, n.2, p.461464, Mar. 1978.
SHANNON, C.E. A mathematical theory of communication. The Bell System
Technical Journal, New York, v.27, p.623656, Oct. 1948.
SILVA, R.T. da. Conservao da energia. Recife, 2005. (Notas de aula).
Disponvel em: <http//www.sica.ufpb.br/romero>. Acesso em: 18 jul. 2008.
SILVA, V. M.M. da. Teoria da informao e codicao. Coimbra:
DEEC-FCTUC, 2008. Notas de apoio. Disponvel em:
<https://woc.uc.pt/deec/class/getmaterial.do?idclass=334&idyear=4>. Acesso
em: 20 nov. 2008.
STEVENSON, W.J. Estatstica aplicada administrao. So Paulo: Harbra,
2001. 495p.
TRIOLA, M.F. Introduo estatstica. 7. ed. Rio de Janeiro: LTC, 1999. 410p.
VICKI, V. A histria da criptologia. Disponvel em:
<http://www.numaboa.com/criptograa/historia/553-Shannon>. Acesso em: 20
nov. 2007.
WASSERMAN, L. All of statistics: a concise course in statistical inference. New
York: Springer, 2005. 322p.
WIENER, N. Ciberntica: ou, controle e comunicao no animal e na mquina.
So Paulo: Polgono / Universidade de So Paulo, 1970. 256p.
YOUNG, H.; FISHER, R. Fsica II: termodinmica e ondas. 10. ed. So Paulo:
Pearson Education do Brasil, 2003.
70
ANEXOS
ANEXO
Pginas
ANEXO A:
Dados utilizados no estudo de pesos (em gramas) de uma amostra

de confeitos M&M. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
ANEXO B:
Dados utilizados no estudo das caractersticas que inuenciam a

produo area de biomassa na grama de pntano. . . . . . . . . . . . 73
ANEXO C:
Derivao do vis da funo suporte. . . . . . . . . . . . . . . . . . . . . . . . 75
ANEXO D:
Funo suporte para modelos normais. . . . . . . . . . . . . . . . . . . . . . 80
71
ANEXO A
TABELA 2: Dados utilizados no estudo de pesos (em gramas) de uma amostra de
confeitos M&M.
Observao
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Amarelo
0.906
0.978
0.926
0.868
0.876
0.968
0.921
0.893
0.939
0.886
0.924
0.910
0.877
0.879
0.941
0.879
0.940
0.960
0.989
0.900
0.917
0.911
0.892
0.886
0.949
0.934
72
Vermelho
0.870
0.933
0.952
0.908
0.911
0.908
0.913
0.983
0.920
0.936
0.891
0.924
0.874
0.908
0.924
0.897
0.912
0.888
0.872
0.898
0.882
ANEXO B
TABELA 3:Dados utilizados no estudo das caractersticas que inuenciam a produo area de biomassa na grama de pntano.
Y
SAL
676
33
516
35
1052
32
868
30
1008
33
436
33
544
36
680
30
640
38
492
30
984
30
1400
37
1276
33
1736
36
1004
30
396
30
352
27
328
29
392
34
236
36
392
30
268
28
252
31
236
31
340
35
2436
29
2216
35
2096
35
1660
30
2272
30
824
26
1196
29
...continua...
pH
5.00
4.75
4.20
4.40
5.55
5.05
4.25
4.45
4.75
4.60
4.10
3.45
3.45
4.10
3.50
3.25
3.35
3.20
3.35
3.30
3.25
3.25
3.20
3.20
3.35
7.10
7.35
7.45
7.45
7.40
4.85
4.60
K
1441.67
1299.19
1154.27
1045.15
521.62
1273.02
1346.35
1253.88
1242.65
1281.95
553.69
494.74
525.97
571.14
408.64
646.65
514.03
350.73
496.29
580.92
535.82
490.34
552.39
661.32
672.15
528.65
563.13
497.96
458.38
498.25
936.26
894.79
73
Na
35185.5
28170.4
26455.0
25072.9
31664.2
25491.7
20877.3
25621.3
27587.3
26511.7
7886.5
14596.0
9826.8
11978.4
10368.6
17307.4
12822.0
8582.6
12369.5
14731.9
15060.6
11056.3
8118.9
13009.5
15003.7
10225.0
8024.2
10393.0
8711.6
10239.6
20436.0
12519.9
Zn
16.4524
13.9852
15.3276
17.3128
22.3312
12.2778
17.8225
14.3516
13.6826
11.7566
9.8820
16.6752
12.3730
9.4058
14.9302
31.2865
30.1652
28.5901
19.8795
18.5056
22.1344
28.6101
23.1908
24.6917
22.6758
0.3729
0.2703
0.3205
0.2648
0.2105
18.9875
20.9687
Continuao da TABELA 3.
Y
1960
2080
1764
412
416
504
492
636
1756
1232
1400
1620
1560
SAL
25
26
26
25
26
26
27
27
24
27
26
28
28
pH
5.20
4.75
5.20
4.55
3.95
3.70
3.75
4.15
5.60
5.35
5.50
5.50
5.40
K
941.36
1038.79
898.05
989.87
951.28
939.83
925.42
954.11
720.72
782.09
773.30
829.26
856.96
74
Na
18979.0
22986.1
11704.5
17721.0
16485.2
17101.3
17849.0
16949.6
11344.6
14752.4
13649.8
14533.0
16892.2
Zn
23.9841
19.9727
21.3864
23.7063
30.5589
26.8415
27.7292
21.5699
19.6531
20.3295
19.5880
20.1328
19.2420
ANEXO C
Derivao do vis da Funo suporte
O estimador de o vetor de parmetros p-dimensional que maximiza a
funo (2.21). Tal estimador obtido somo soluo de (2.22). Isto , deve-se
achar a soluo de
L ()
=
n
i=1
log f (Xi |) = 0
Tomando a esperana, tem-se:

n
EG(Xn )
i=1
log f (Xi |) = nEG(z)

log f (Z|)
Assim, para um modelo contnuo, se 0 soluo de

EG(z)
log f (Z|) =
g (z)
log f (z|) dz = 0,
(6.1)
pode ser mostrado que o estimador de mxima verossimilhana converge em

probabilidade para 0 quando n .
Usando o resultado acima, pode-se avaliar o vis dado por (3.1), quando a
funo suporte esperada estimada usando a log verossimilhana do modelo.
O vis
, (6.2)
pode ser decomposto como

= EG(xn ) log f Xn | (Xn ) log f (Xn |0 )
+ EG(xn ) log f (Xn |0 ) nEG(Z) [log f (Z|0 )]
+ EG(xn ) nEG(Z) [log f (Z|0 )] nEG(Z) log f Z| (Xn )

= D1 + D2 + D3 .
(6.3)
Esquematicamente tem-se a Figura 6 abaixo:
75
FIGURA 6: Decomposio dos termos do vis.

1 - Clculo de D2 . Primeiramente ser feito este caso, por se tratar do mais
simples, pois no contm nenhum estimador. Assim:
D2 = EG(xn ) log f (Xn |0 ) nEG(Z) [log f (Z|0 )]
= EG(xn ) [log f (Xn |0 )] nEG(Z) [log f (Z|0 )]
n
log f (Xi |0 ) nEG(Z) [log f (Z|0 )]
= EG(xn )
i=1
= 0
(6.4)
Isto mostra que na Figura 6, embora D2 varie aleatoriamente dependendo dos

dados, sa esperana zero.
2 - Clculo de D3 . Para simplicidade das frmulas, escreva-se primeiramente
() := EG(Z) log f Z| (X n )
76
Pela expanso em srie de Taylor de em torno de 0 , sendo este soluo de

(6.1), obtm-se:
p
(0 )
i
(0)
i i
= (0 ) +
i=1
1
2
p
(0)
i i
2 (0 )
+ ...,
i j
(0)
j j
i=1 j=1
T
em que = 1 , 2 , . . . p
de (6.1) tem-se
(0 )
= EG(Z)
i
(0)
(0) T
(0)
e 0 = 1 , 2 . . . p
log f (Z|)
i
(6.5)
. Como 0 soluo
= 0, i = 1, 2, . . . , p.
0
Assim, (6.5) pode ser aproximado por:

= (0 )
1
0
2
J (0 ) 0 ,
sendo J (0 ) uma p p matriz dada por

J (0 ) = EG(Z)
2 log f (Z|)
T
g (z)
2 log f (Z|)
T
dz, (6.6)
0
e o (a, b)-simo elemento dado por

jab = EG(Z)
2 log f (Z|)
a b
=
0
77
g (z)
2 log f (Z|)
a b
dz
0
Como D3 justamente a esperana de ( 0 ) , com respeito a G (Xn ) ,

obtm-se a aproximao:
D3 = EG(Xn ) nEG(Z) [log f (Z| 0 )] n log f Z|
=
=
=
T
n
EG(Xn ) 0 J ( 0 ) 0
2
n
E
tr J 0 0 0
2 G(Xn )
n
tr J 0 EG(Xn ) 0 0
2
(6.7)
Pelas propriedades assintticas dos estimadores de mxima verossimilhana dadas

no Teorema 2.1, tem-se que:
EG(Xn )
1
J ( 0 )1 I ( 0 ) J ( 0 )1 ,
n
(6.8)
deste modo pela substituio de (6.7) em (6.8), tem-se:

1
D3 = tr I ( 0 ) J ( 0 )1 ,
2
(6.9)
sendo que J () dada por (6.6) e I () a p p matriz dada por

I ( 0 ) = EG(Z)
=
g (z)
log f (z|) log f (z|)
log f (z|) log f (z|)
dz.
(6.10)
Resta agora o clculo de D3 .

3 - Clculo de D1 . Reescrevendo L () = log f (X n |), em termos da sua
expanso em sries de Taylor, na vizinhana do estimador de mxima verossimilhana , obtm-se:
L = L()+
1
+

2
78
2L
T
+. . . . (6.11)
L
Em (6.11), satisfaz a equao
= 0, pelo fato de que o estimador de
L ()
= 0.
2
2
1 log f Xn |
1 L
=
converge em probabilidade
Tem-se que
n T
n
T
para J ( 0 ) quando n , isto vem do fato de que converge para 0 e pode
ser provado utilizando-se da lei dos grandes nmeros.
Assim, tem-se de (6.11) que
mxima verossimilhana dado como soluo de
L ( 0 ) L
n
0
2
J ( 0 ) 0 .
A partir deste resultado, juntamente com (6.8) pode-se calcular D1 .

D1 = EG(X n ) log f X n | (Xn ) log f (Xn |0 )
=
=
=
=
T
n
EG(Xn ) 0 J ( 0 ) 0
2
n
E
tr J ( 0 ) 0 0
2 G(Xn )
n
tr J ( 0 ) EG(Xn ) 0 0
2
1
tr I ( 0 ) J ( 0 )1
2
(6.12)
Assim, de (6.4), (6.9) e (6.12) tem-se que

b (G) = D1 + D2 + D3
1
1
=
tr I ( 0 ) J ( 0 )1 + 0 + tr I ( 0 ) J ( 0 )1 , (6.13)
2
2
sendo I ( 0 ) e J ( 0 ) dados por (6.6) e (6.10), respectivamente.
79
ANEXO D
Funo suporte para modelos normais.
Tem-se de (4.5) que de forma geral
n
n
2
L() = log 21
2
(yi 1 )2
i=1
2
21
n+m
m
2
log 22
2
(yi 2 )2
i=n+1
2
22
Desse modo, sero feitas aqui as derivaes para os estimadores de mxima verossimilhana para os quatro casos descritos em (4.1), (4.2), (4.3), e (4.4).
2
2
Caso 1: 1 = 2 = e 1 = 2 = 2
Para este caso, tem-se por (4.6)
n+m
1
log 2 2 2
2
2
L () =
n+m
(yi )2 ,
(6.14)
i=1
sendo = , 2 .
L , 2
L , 2
=0e
= 0.
2
2 , tem-se:
Derivando (4.6) em relao a
Para maximizar (4.6) faa-se
, 2
2
n+m log 2 2
2
=
n+m
(yi )2
i=1
=0
L , 2
n+m
1
=
+
2
2 2
2 ( 2 )2
1
2
1
2 2
n+m
1
+ 2
2
2
n+m
2
(yi )
i=1
2 =
1
(n + m)
n+m
(yi )2 = 0
i=1
1
= 0 = 2
2
n+m
(yi )2 =
i=1
n+m
2
n+m
(yi )2 .
(6.15)
i=1
O estimador de 2 dado por (6.15), e essa equao necessita do estimador de ,

que ser encontrado abaixo:
L , 2
=
n+m log 2 2
2
80
1
2 2
m
i=1
(yi )2
=0
1
2
2 2
n+m
(yi ) (1) = 0 =
i=1
(yi ) = 0
i=1
n+m
n+m
(yi ) = 0
i=1
n+m
yi =
i=1
= =
i=1
1
n+m
n+m
yi .
i=1
Desse modo o estimador de dado por

1
=
n+m
n+m
yi .
(6.16)
i=1
Substituindo os valores encontrados em (6.15) e (6.16) em (4.6), tem-se

L =
n+m
1
log 2 2 2
2
2
n+m
(yi )2
i=1
1
n+m
log 2 2 2 (n + m) 2
2
2
n+m
n+m
L =
log 2 2
2
2
L =
2
2
Caso 2: 1 = 2 e 1 = 2
Nesse caso, tem-se por (4.14)
L () = L
n
1
2
= log 21 2
2
21
2
2
1 , 2 , 1 , 2
1
m
2
log 22 2
2
22
(yi 1 )2
i=1
n+m
(yi 2 )2
(6.17)
i=n+1
Derivando (6.17) em relao a 1 e igualando a zero, tem-se:
n+m
n
2
n log 21
2
(yi 1 )
i=1
2
21
m
2
log 22
2
1
81
(yi 2 )
22
i=n+1
= 0,
Obtendo assim
2
2
21
(yi 1 ) (1) = 0 =
i=1
(yi 1 ) = 0 =
i=1
yi =
i=1
1
i=1
E nalmente encontra-se o estimador de 1 , dado por

n
yi
1 =
i=1
(6.18)
Derivando (6.32) em relao a 2 e igualando a zero, tem-se:

2
n+m
n
2
n log 21
2
(yi 1 )
i=1
2
21
m
2
log 22
2
(yi 2 )2
i=n+1
22
=0
2
E assim
2
2
22
n+m
n+m
(yi 2 ) (1) = 0 =
i=n+1
n+m
(yi 2 ) = 0 =
i=n+1
n+m
yi =
i=n+1
2
i=n+1
Assim, o estimador de 2 ,
n+m
yi
2 =
i=n+1
2
Derivando (6.32) em relao a 1 e igualando a zero, tem-se
L ()
2 =0
1
82
(6.19)
2
log 21
2
(yi 1 )
i=1
2
21
(yi 2 )2
i=n+1
22
n+m
m
2
log 22
2
= 0,
2
1
n
2
21
2
2 1
(yi 1 )2 = 0 = n =
2
i=1
2
1 i=1
(yi 1 )2
2
Finalmente obtm-se o estimador de 1 , dado por
2
1
1
=
n
(yi 1 )2
(6.20)
i=1
2
Nota-se que o estimador de 1 depende do estimador de 1 , expresso por (6.18).
2
Derivando (6.32) em relao a 2 e igualando a zero, tem-se
n+m
n
2
2
(yi 2 )
(yi 1 )
n
m
i=n+1
i=1
2
2
log 21
log 22
2
2
2
2
22
22
=0
2
1
m
2
22
n+m
1
2
2 2
(yi 2 )2 = 0 =
2
i=n+1
1
m
=
2
2
22
n+m
(yi 2 )2
i=n+1
2
E assim, obtm-se o estimador de 2 , dado por
2
2 =
1
m
n+m
(yi 2 )2 .
(6.21)
i=n+1
2
O estimador de 2 depende do estimador de 2 que dado pela frmula (6.19).
Substituindo (6.18), (6.19), (6.20) e (6.21) em (6.17) tem-se:
n
(yi 1 )2
n
2
L = log 2 1 i=1
2
2
21
(yi 2 )2
m
i=n+1
2
log 22
2
2 2
2
83
.(6.22)
2
2
Caso 3: 1 = 2 e 1 = 2 = 2
2
2
Sob a premissa de que 1 = 2 e 1 = 2 = 2 tem-se de (4.5):
n
n
L () = log 2 2
2
n+m
(yi 1 )2
i=1
2 2
m
log 2 2
2
(yi 2 )2
i=n+1
2 2
Da
L() =
n+m
1
log 2 2 2
2
2
n+m
(yi 1 )2 +
i=1
(yi 2 )2 (6.23)
i=n+1
L ()
L ()
L ()
= 0,
= 0, e
= 0.
2
1
2
Derivando (6.23) em relao a 2 , tem-se
Am de maximizar (6.23), faa-se

L()
=
2
n+m
1
log 2 2 2
2
2
n+m
(yi 1 )2+
i=1
(yi 2 )2
i=n+1
= 0,
e assim
n+m
2 2
n+m
(yi 1 )2 +
2 2
i=1
(yi 2 )2 = 0
i=n+1
(n + m) =
n+m
(yi 2 )2
(yi 1 ) +
i=1
i=n+1
Desse modo,o estimador de 2 dada por

2 =
1
(n + m)
n+m
(yi 1 )2 +
i=1
(yi 2 )2
(6.24)
i=n+1
V-se assim que a estimador de 2 depende da estimador de 1 e 2 . Tais estimadores sero encontradas abaixo:
84
Derivando (6.23) em relao a 1 ,tem-se:
L()
=
1
n+m
1

log 2 2 2
2
2
n+m
2
(yi 2 )2
(yi 1 ) +
i=1
i=n+1
= 0.
Assim
n
2
2 2
(yi 1 ) (1) = 0 =
i=1
(yi 1 ) =0 =
i=1
yi =n1 .
i=1
Logo, o estimador de 1 dado por:

n
yi
1 =
i=1
(6.25)
Para encontrar o estimador de 2 , deve-se derivar (6.23) em relao a 2 e igualar

a zero, assim:

L()
=
2
1
n+m
log 2 2 2
2
2
n+m
(yi 1 )2+
i=1
(yi 2 )2
i=n+1
=0.
Assim
2
2 2
n+m
n+m
(yi 2 ) (1) = 0 =
i=n+1
n+m
(yi 2 ) =0 =
i=n+1
yi =n2 .
i=n+1
Desse modo, o estimador de 2 dado por:

n+m
yi
2 =
i=n+1
(6.26)
Conseqentemente, tem-se em (6.23)

L =
m+n
1
log 2 2
2
2 2
85
(yi 1 )2 +
i=1
(yi 2 )2
i=n+1
L =
m+n
1
log 2 2
n 2 + m 2
2
2
2
L =
m+n
log 2 2 + 1
2
Em que 2 , 1 , e 2 , so dados por (6.24), (6.25) e (6.26) respectivamente.

2
2
Caso 4: 1 = 2 = e 1 = 2
De (4.5) tem-se:
n
n
2
L()= log 21
2
(yi )2
i=1
2
21
n+m
m
2
log 22
2
(yi )2
i=n+1
2
22
(6.27)
A verossimilhana maximizada ser dada por

n
n
2
L = log 2 1
2
(yi )2
i=1
2
21
n+m
m
2
log 2 2
2
(yi )2
i=n+1
2
22
da vem que
L
n
m
n+m
2
2
log 2 log 1 log 2
2
2
2
n
m+n
1
1
(yi )2
(yi )2
2
2
21 i=1
22 i=n+1
e nalmente
L =
n
m
(n + m)
2
2
(log 2 + 1) log 1 log 2
2
2
2
(6.28)
Deve-se agora encontrar o valor da funo suporte maximizada; para isto, deriva-se
(6.27) em relao a cada parmetro para se encontrar as estimativas dos parmetros.
86
2
Derivando em relao a 1 e igualando a zero
n log 2 2
(yi )
L ()
2 = 0, tem-se:
1
n+m
m
2
log 22
2
i=1
2
21
(yi )
22
i=n+1
= 0,
2
1
Desse modo
n
2
21
2
2 1
(yi ) = 0 =
2
i=1
2
21
(yi )2 =
i=1
n
2
2
Assim o estimador de 1 dado por
2
1
1
=
n
(yi )2
(6.29)
i=1
2
Derivando (6.27) em relao a 2 e igualando-se a zero tem-se:
n+m
n
2
2
(yi )
(yi )
n
m
i=n+1
i=1
2
2
log 21
log 22
2
2
2
2
21
22
=0
2
2
Assim
m
2
22
n+m
1
2
2 2
(yi )2 = 0 =
i=n+1
1
2
22
n+m
(yi )2 =
i=n+1
m
2
2
E assim obtm-se o estimador de 2 dado por:
2
2 =
1
m
n+m
(yi )2
i=n+1
87
(6.30)
Fazendo-se
L ()
= 0 em (6.27) tem-se:
(yi )
2
n log 21
2
n+m
i=1
2
21
m
2
log 22
2
(yi )
22
i=n+1
=0
Desse modo
1
2
21
(yi ) (1)
n+m
1
2
22
i=1
(yi ) (1) = 0
2
i=n+1
1
2
1
(yi ) =
i=1
1
2
2
n+m
(yi )
(6.31)
i=n+1
2
2
Substituindo os estimadores de 1 e 2 , obtidos em (6.29) e (6.30) em (6.31)
tem-se:
1
n
1
n
(yi )2
1
m
i=1
i=1
n+m
(yi ) =
n+m
(yi
(yi )
)2 i=n+1
i=n+1
n+m
2
(yi )
i=n+1
n+m
2
(yi )
(yi ) = m
i=1
i=1
(yi )
i=n+1
n+m
(yi )
n
i=1
n+m
2
(yi ) + m
i=n+1
yi
i=1
n+m
i=1
i=n+1
(yi )2 = 0
(yi )
i=n+1
2
yi 2yi + 2 +
88
i=1
n+m
n+m
yi
+m
i=n+1
2
yi 2yi + 2 = 0
i=n+1
i=1
n+m
n+m
2
yi 2
yi n
n
i=1
i=n+1
yi + m2 +
i=n+1
(P )
n+m
n+m
yi
+m
i=n+1
n
2
yi
i=n+1
yi + n2 = 0
i=1
i=1
(Q)
Desenvolvendo (P) tem-se

n
n+m
2
yi 2
yi n
i=n+1
i=1
n
yi + m2 = n
i=1
i=1
yi n2
yi +mn2
yi
i=1
i=n+1
n+m
yi
i=n+1
n+m
2n
n+m
n+m
i=n+1
2
yi +2n2 2
i=n+1
2
yi
n+m
yi n2 m3
i=n+1
Desenvolvendo (Q) tem-se

n
n+m
yi m
i=1
i=n+1
n
2m
n+m
yi + n2 = m
n+m
yi m2
i=n+1
i=n+1
n+m
yi
i=n+1
i=1
yi + mn2
yi
i=1
2
yi 2
i=1
2
yi + 2m2 2
i=1
n
2
yi
yi nm2 3
i=1
Juntando-se (P) e (Q) tem-se:

n
0=(P )+(Q) = n
yi
i=1
n+m
n+m
2
yi
i=n+1
2n
n+m
yi
i=1
yi +
mn2
i=n+1
n+m
n+m
2
2 2
2
3+m
n
yi + 2n
yi n m
yi
i=n+1
i=n+1
i=n+1
n
n+m
n+m
n
2
2m
yi
yi + mn2
yi m2
yi
i=1
i=n+1
i=n+1
i=1
n
+ 2m2 2
yi nm2 3
i=1
yi
i=1
n
89
2
yi
i=1
Agrupando-se os termos de grau semelhante tem-se:

n
nm2 + n2 m 3 + 2m2
n+m
yi + mn
i=1
+ m2
2
yi 2m
i=1
n
+n
n+m
yi
i=1
i=n+1
n+m
yi
i=n+1
n+m
i=1
n+m
i=n+1
yi 2 +
yi + mn
yi
i=n+1
2
yi + m
n+m
i=n+1
yi 2n
yi
i=1
yi + 2n2
i=1
n+m
yi n 2
i=n+1
2
yi
i=n+1
2
yi = 0
i=1
Dividindo-se por nm2 n2 m tem-se:

n
2m2
3
n+m
i=1
n+m
yi + 2n2
yi + mn
i=n+1
yi + mn
i=n+1
yi
i=1
nm (m + n)
n
m2
2
yi 2m
i=1
n+m
i=1
n+m
yi 2n
yi
yi n2
yi
i=n+1
i=1
n+m
2
yi
i=n+1
i=n+1
nm (m + n)
n
n+m
yi
n
i=1
2
yi + m
i=n+1
n+m
yi
2
yi
i=1
i=n+1
=0
nm (m + n)
Da segue que
n+m
n+m
yi
2n
yi
yi
n (m + n) (m + n) m (m + n) (m + n)
2m
yi
i=n+1
i=1
3 + 2
2
m yi
i=1
+
+
n (m + n)
1
nm (m + n)
i=n+1
n+m
yi
i=1
yi
i=n+1
n+m
n+m
yi
i=1
yi
Sejam
90
m (m + n)
n+m
i=n+1
n+m
i=n+1
2
yi + m
yi
i=1
2
+
n (m + n)
i=1
m (m + n)
n
2
yi
yi
i=n+1
2
n
yi
i=n+1
i=1
= 0 (6.32)
w=
n
m+n
m
,
m+n
n+m
n
i=1
, 2 =
yi
yi
1 =
, v=
i=n+1
n+m
2
yi
s2 = i=1
1
2
yi
i=n+1
, s2 =
2
(6.33)
3 + 2(2v1
+
w
m
v2 2w2 w1 ) +
n+m
2
yi
i=n+1
w
1
m
n+m
2
yi +
i=n+1
v
2
n
v
n
n
2
yi + 2v1 2 + 2w1 2
i=1
n
2
yi
=0
i=1
Efetuando-se as operaes necessrias tem-se:

3 + 2 (1 (2v + w) (v + 2w) 2 ) + vs2 + 2v1 2
1
+
2w1 2 + ws2 1 ws2 + v2 s2 = 0

2
2
1
3 + 2 1
m+m+n
m+n
m+n+n
m+n
+ vs2 + 2v1 2 + 2w1 2 + ws2 1 ws2 + v2 s2 = 0

1
2
2
1
m
n
1+
2
m+n
m+n
n
m
+
+ vs2 + ws2 1 ws2 + v2 s2 = 0
1
2
2
1
m+n m+n
3 + 2 1 1 +
+ 21 2
3 + 2 (1 (1 + v) (1 + w) 2 ) + 21 2 + vs2 + ws2
1
2
1 ws2 + v2 s2 = 0
2
1
91
Fazendo
A = (1 (1 + v) + (1 + w) 2 )
(6.34)
B = 21 2 + vs2 + ws2
1
2
2
C = 1 ws2 + v2 s2
1
(6.35)
(6.36)
Tem-se 3 + A2 + B + C = 0 que uma equao do terceiro grau cuja

soluo pode ser obtida atravs da frmula de Cardano (Garbi, 1997) dada a seguir.
A frmula de Cardano
Toda equao cbica
ax3 + bx2 + cx + d = 0
com a = 0 pode ser reduzida forma
y 3 + py + q = 0
3ac b2
b
1
em que x = y
p=
eq =
(3 a) b3 9abc + 27a2 d ,
2
3a
3a
27a3
sendo que suas solues so dadas por
y=
q
+
2
q
2
p
3
92
q

2
q
2
p
3

AICe BIC

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

AICe BIC

Enviado por

Direitos autorais:

Formatos disponíveis

FUNDAMENTOS E APLICAES DOS CRITRIOS

DE INFORMAO: AKAIKE E BAYESIANO

PAULO CSAR EMILIANO

PAULO CSAR EMILIANO

FUNDAMENTOS E APLICAES DOS CRITRIOS DE

Dissertao apresentada Universidade Federal de

Ficha Catalogrfica Preparada pela Diviso de Processos Tcnicos da

Emiliano, Paulo Csar.

PAULO CSAR EMILIANO

FUNDAMENTOS E APLICAES DOS CRITRIOS DE

Dissertao apresentada Universidade Federal de

APROVADA em 19 de fevereiro de 2009.

Prof. Dr. Marcelo Angelo Cirillo

Prof. Dr. Telde Natel Custdio

Prof. Dr. Mrio Javier Ferrua Vivanco

Aos meus pais, Francisco e Alzira ,

Primeiramente a Deus, que deu-me foras em todos os momentos de minha

consolidao do meu conhecimento em matemtica.

Paulo Csar Emiliano

2.2.2.1 Viso fsica da entropia . . . . . . . . . . . . . . . . . . . . . . . .

2.2.2.2 Viso estatstica da entropia . . . . . . . . . . . . . . . . . . . . .

O estimador da funo suporte . . . . . . . . . . . . . .

OS CRITRIOS DE INFORMAO AIC E BIC . . . . . .

Critrio de informao de Akaike . . . . . . . . . . . . .

Critrio de informao bayesiano . . . . . . . . . . . . .

Algumas consideraes acerca do AIC e do BIC . . . . . . . .

APLICAES DO AIC E BIC . . . . . . . . . . . . .

Igualdade de mdias e / ou de varincias de distribuies normais. .

Seleo de variveis em modelos de regresso . . . . . . . . .

Seleo de modelos para os dados M&M e produo de biomassa

Anlise dos dados dos pesos de M&M . . . . . . . . . . .

Anlise dos dados da produo de biomassa na grama de pntano. .

Resultados do estudo da produo area de biomassa na grama de

Dados utilizados no estudo de pesos (em gramas) de uma amostra

Dados utilizados no estudo das caractersticas que inuenciam a

Modelo esquemtico de um sistema geral de comunicao. . . . .

Representao das distribuies Gama(4,4) - linha contnua - e

Representao grca da distribuio Gama(4,4) - linha contnua

Decomposio dos termos do vis. . . . . . . . . . . . . . . . . .

para no comprometer o entendimento do fenmeno em estudo.

dos. Atravs de algumas aplicaes, espera-se que a metodologia destes critrios

siderar o problema de determinao do modelo, isto , o problema da avaliao e

contm rudo (em casos ideais o rudo desconsiderado) e ir alterar de

FIGURA 1: Modelo esquemtico de um sistema geral de comunicao.

Segundo Ash (1965), um conjunto de palavras-cdigo capaz de representar

d(x, y) = d(y, x), x, y M

d(x, y) d(x, z) + d(z, y), x, y, z M

Por exemplo, a informao de Shannon usada sobre um espao de letras do

denominada informao de Fisher de .

Um sistema deve transmitir o estado do tempo. Suponha que se classica o tempo

Como a probabilidade do tempo estar limpo grande, na maioria das vezes, o

a mensagem acima referida codicada da seguinte forma: 00 00 00 00 00

maior for a probabilidade de ocorrncia do evento transmitido, (quanto menor

2- A distncia de Hellinger, dada por:

3- A informao generalizada, dada por:

4- O critrio Deviance, dado por:

5- A divergncia, dada por:

6- A L1 norm, dada por:

7- A L2 norm, dada por:

{g (x) f (x)}2 dx.

8- A Informao de Kullback-Leibler, dada por:

sendo f , g fi e gi so funes de distribuio quaisquer, R e u(x) uma

informao perdida pela aproximao de nosso modelo da realidade.