Cap Itulo 2 Infer Encia em Cadeias de Markov: 2.1 Estima C Ao Da Matriz de Transi C Ao

Capı́tulo 2
Inferência em Cadeias de Markov
Uma Cadeia de Markov é por vezes um modelo probabilı́stico adequado para determinada série temporal
em que a observação em um determinado momento é uma categoria à qual um indivı́duo corresponde.
A mais simples Cadeia de Markov é aquela na qual existe um número finito de estados ou categorias, um
número finito de pontos no tempo equidistantes em que são feitas as observações, a cadeia é de primeira
ordem e as probabilidades de transição são as mesmas para cada intervalo de tempo. Estas foram as
cadeias que estudamos no Capı́tulo 1.
Vamos considerar aqui vários métodos para obter estimadores da matriz de probabilidades transição
em três situações: quando o comprimento do intervalo entre os pontos de tempo do modelo coincide
com o intervalo de observação, quando a duração do deste comprimento do intervalo entre os pontos de
tempo não coincide com o intervalo de observação e quando os intervalos de observação são desiguais em
comprimento. Além disso, discutimos o uso da técnica de bootstraps como um método para avaliar a
incerteza nas estimações e para a construção de intervalos de confiança da matriz de transição. Também
estudaremos como verificar a ordem de uma Cadeia de Markov.
Depois apresentamos testes para verificar a ordem da cadeia. Diferentes livros e artigos foram consul-
tados para escrever este texto, alguns importantes são Jacobsen (1982), Billingsley (1961a), Billingsley
(1961b) e Basawa & Prakasa Rao (1980). Outras referências serão também mencionados no texto.
2.1 Estimação da matriz de transição

Seja {X1 , X2 , · · · } um processo estocástico ou um asequência de variáveis aleatórias assumindo valores
em algum conjunto finito chamado aqui de espaço de estados S. A variável Xn deve ser considerada
como estado no tempo n de um sistema cuja evolução é regida por um conjunto de leis de probabilidade.
A tı́pica Cadeia de Markov a tempo discreto limita a descrição do histórico de cada sujeito a pontos
de tempo com igualdade espaçdos. Em outras palavras, em vez de modelar a possibilidade de progressão
a cada instante no tempo, ou seja, dia, mês ou ano. O intervalo entre esses pontos de tempo é conhecido
como o comprimento do ciclo.
Nesta seção, presume-se que a matriz de transição vai ser estimada a partir de dados de coorte
longitudinais, com intervalos de observação comuns a todos os sujeitos. A atenção é restrita a obtenção
da estimativa de máxima verossimilhança da matriz de transição em três situações especı́ficos crescentes
de complexidade. O primeiro caso é quando os intervalos de observação são constantes e coincidem com
a duração do ciclo. O segundo caso acontece quando os intervalos de observação são constantes, mas
não coincidem com a duração do ciclo. Os métodos discutidos na presente seção somente podem ser
utilizados em certas situações. Quando não puder, o método discutido para o terceiro caso é possı́vel.
O terceiro caso, representa a situação mais comum, quando os intervalos de observação não são iguais
em comprimento. A duração do ciclo pode ou não coincidir com um destes intervalos.
95
96 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV
Vamos considerar {x0 , x2 , · · · , xn } uma amostra de uma Cadeia de Markov com probabilidades de
transição px,y e distribuição inicial π0 . Observe que {x0 , x1 , · · · , xn } deve ser uma sequência de n + 1
estados. Então, a probabilidade de que x0 , x1 , · · · , xn seja essa sequência é justamente
π(x0 )px0 ,x1 · · · pxn−1 ,xn ·
Para x, y = 1, 2, · · · , d, seja nx,y o número de transições, assim a matriz (nx,y ) vai ser chamada de
matriz de contagens de transições da sequência. Dado que
∏
π(x0 )px0 ,x1 · · · pxn−1 ,xn = π(x0 ) pnx,y
x,y
, (2.1)
x,y
a contagem das transições junto com o estado inicial formam uma estatı́stica suficiente. A distribuição
dessa estatı́stica vai ser nosso objetivo.
Sabemos que a probabilidade de obtiver uma sequência em particular, que começe com com x0 e
tenha matriz de transição (nx,y ) é dada por (2.1) e, com o objetivo de encontrarmos a ∑ distribuição da
estatı́stica
∑ suficiente é necessário somente contar o número de tais sequências. Se n x,· = y nx,y e n·,y =
x nx,y então {nx,· } e {n·,y } são as frequências das contagens de {x0 , x1 , · · · , xn−1 } e {x1 , x2 , · · · , xn }
respectivamente. Disso seque que
nx,· − n·,y = 1 x (x0 ) − 1 x (xn )

∑ ∑ ∑
nx,y = nx,· = n·,y = n·
x,y x y
É claro a partir da primeira dessas relações que (nx,y ) e o estado inicial determinam completamente
o estado final. Da mesma forma, (nx,y ) e o estado do final determinam o estado inicial. No entanto,
(nx,y ) sozinho não determina os estados inicial e final: por exemplo, as sequências {1, 2, 1} e {2, 1, 2}
têm contagens de transição idênticas. A resposta a este problema combinatório é a seguinte.
Teorema 2.1 (Fórmula de Whittle (Whittle, 1955))

∑
Seja (nx,y ) uma matriz d × d de inteiros não negativos satisfazendo que xy nxy = n e tais que
nx,· − n·,y = 1x (u) − 1x (v),

(n)
x, y = 1, · · · , d para algum par u, v. Se Nu,v (nx,y ) é o número de sequências {x0 , x1 , · · · , xn } tendo
contagens de transição (nx,y ) e satisfazendo x0 = u e xn = v, então
∏
nx· !
(n)
Nu,v (nx,y ) = ∏
x
Cv,u , (2.2)
nx,y !
x,y
onde Cv,u é o cofator (v, u) da matriz (nx,y )∗ de componentes


 1 x (y) − nx,y se nx,· > 0
n∗x,y = nx,· · (2.3)
 1 (y) se n = 0
x x,·
2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 97
Demonstração : Billingsley (1961b). A demonstração é por indução. O resultado é fácil de estabelecer se

n = 1, caso em que ambos os lados de (2.2) são 1. Se (nu,v ) é (nx,y ) com a (u, v) entrada diminuı́da em
1, temos que ∑
(n) (n−1)
Nu,v (nx,y ) = Nw,v (nu,w ),
w
onde a soma se estende sobre aqueles w para so quais nu,w > 0. Por isso, basta mostrar que o lado
direito de (2.2) satisfaz esta mesma relação ou que
∑
(nx,y )∗ = nu,w n−1 ∗
u,· (nv,w ) (u, w)· (2.4)
w
Desde que (nv,w )∗ e (nx,y )∗ concordem fora da w-ésima coluna, (nv,w∑ )∗ (u, w) = (nv,w )∗ . Com este fato,
juntamente com a definição (2.3), segue que
∑ (2.4) é equivalente a w n∗u,w (nv,w )∗ = 0 onde a soma
∗ ∗ ∗
se estende sobre todos os w. Dado que w nu,w (nv,w ) = 1 u (v)|(nx,y ) |, a expressão em (2.4) vale
∗
para o caso no qual u ̸= v e é necessário somente mostrar que |(nx,y ) | = 0 caso u = v. Suponhamos
convenientemente que nx,· = n·,x é positivo para x ≤ r e zero para x > r. Então (nx,y ) tem a forma
( )
A 0
(nx,y ) = ,
0 0
onde A é uma matriz r × r. Pela definição (2.3),

( ∗ )
∗ A 0
(nx,y ) = ,
0 I
onde as linhas de A∗ somam zero. Por isso, |(nx,y )∗ | = |A∗ | = 0.
Exemplo 2.1
Seja, por exemplo, a sequência de 12 valores observados {0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1}. Esta sequência
tem u = 0 e v = 1 e matriz de contagens de transição
( )
1 4
(nx,y ) = · (2.5)
3 3
Podemos utilizar a seguinte função R para encontrarmos a matriz de contagens de transição
> x = c(0,1,1,0,1,0,1,1,1,0,0,1)
> library(markovchain); library(matlab); library(matlib)
> Matriz = createSequenceMatrix(x, sanitize=FALSE)
> Matriz
0 1
0 1 4
1 3 3
Vemos, da expressão em (2.3) que

 4 4
−
 5
n∗x,y =  5  (2.6)
1 1
−
2 2
e C0,1 = 4/5. Substituindo em (2.2) temos que
(12) 5! · 6! 4
N0,1 (nx,y ) = · = 80· (2.7)
1! · 3! · 3! · 4! 5
Logo, 80 é o número de sequências {0, x1 , · · · , x10 , 1} tendo contagens de transição (nx,y ), dada em
(2.5). Desenvolvemos uma função R para encontrarmos o número de sequências {x0 , x1 , · · · , xn }
tendo contagens de transição (nx,y ) e satisfazendo x0 = u e xn = v:
> Whittle = function(M, u, v){

n = length(rowSums(M))
Prod1 = 1;
for(i in 1:n) Prod1 = Prod1*gamma(rowSums(M)[[i]]+1)
Prod2 = 1;
for(i in 1:dim(M)[1]){
for(k in 1:dim(M)[2]) Prod2 = Prod2*gamma(M[i,k]+1)
}
u = which(row.names(M) == u)
v = which(row.names(M) == v)
C = cofactor(eye(n)-M/rowSums(M), v, u)
return((Prod1/Prod2)*C)
}
> Whittle(Matriz, 0, 1)
[1] 80
2.1.1 Intervalos de observação coincidentes

Suponhamos que nos seja dado a realização de uma Cadeia de Markov e que se deseja estimar a matriz
de probabilidades de transição. Uma abordagem é encontrar as contagens de transição e estimar as
probabilidades de transição de uma forma óbvia.
Exemplo 2.2 (Cadeia com três estados)
Este é uma situação hipotética. Consideremos uma Cadeia de Markov com três estados da qual é
observada a sequência:
2332111112213132332122223232332222213132332212213232132232
3132332223213232331232223232331222123232132123233132332121
Por simples contagem, segue-se que, a matriz do número de transição entre os estados é
 
4 8 10
(nx,y ) = 13 17 22 ,
6 26 9
onde nx,y denota o número de transições observadas desde o estado x ao estado y.

Uma vez que o número de transições do estado 2 para o estado 3 é 22 e o número total de
transições do estado 2 é 13 + 17 + 22, uma estimativa empı́rica de pb2,3 é 22/52. Uma estimativa
empı́rica para a matriz de transição seria então
4 8 10 
 22 22 22 
 
b=
P 
13 17 22 
·
 52 52 52 
 
6 26 9
41 41 41
Vamos agora mostrar que este é, de fato, a estimativa de máxima verossimilhança condicional de P,
condicionada à primeira observação. Suponhamos, então, que nós queremos estimar os d2 −d parâmetros
de uma Cadeia de Markov {Xn } com d estados a partir uma realização x0 , x1 , · · · , xT . A função de
verossimilhança condicional à primeira observação é
∏
d ∏
d
L= pnx,y
x,y
· (2.8)
x=1 y=1
Desta expressão obtemos que o logaritmo da função de verossimilhança é

( d )
∑d ∑ ∑d
ℓ= nx,y log px,y = ℓx ,
x=1 y=1 x=1
a qual podemos maximizar

∑ maximizando cada somando separadamente.
Substituindo 1 − px,z por px,x , diferenciando cada ℓx com relaa̧ão à todas as probabilidades de
z̸=x
transição não diagonais px,y e igualando as derivadas a zero obtemos
−nx,x nx,y nx,x nx,y
0= ∑ + =− + ·
1− px,z px,y px,x px,y
z̸=x
Assim, a menos que um denominador seja zero na equação acima
nx,y px,x = nx,x px,y ,
∑
d
e por isso px,x nx,y = nxx . Isto implica que o ponto de máximo local da função de verossimilhança
y=1
das probabilidades de transição é
nx,x nx,y
pbx,x = , e pbx,y = · (2.9)
∑
d ∑
d
nx,y nx,y
y=1 y=1
e
nx,y
pbx,y = · (2.10)
∑
d
nx,y
y=1
∑
Também poderı́amos utilizar multiplicadores de Lagrange para expressar as restrições dy=1 px,y = 1,
sob as quais buscamos maximizar os termos ℓx e, portanto, a função de verossimilhança. Mas isso, não
é necessário em geral.
Exemplo 2.3 (Continuação do Exemplo 2.2)
Fazendo uso do pacote de funções markovchain, construı́mos a matriz de contagens de transição
utilizando o comando createSequenceMatrix, como mostrado a seguir:
> x = c(2,3,3,2,1,1,1,1,1,2,2,1,3,1,3,2,3,3,2,1,2,2,2,2,3,2,3,2,3,3,2,2,2,2,2,1,3,1,3,2,3,3,
2,2,1,2,2,1,3,2,3,2,1,3,2,2,3,2,3,1,3,2,3,3,2,2,2,3,2,1,3,2,3,2,3,3,1,2,3,2,2,2,3,2,
3,2,3,3,1,2,2,2,1,2,3,2,3,2,1,3,2,1,2,3,2,3,3,1,3,2,3,3,2,1,2,1)
> Matriz = createSequenceMatrix(x, sanitize=FALSE)
> Matriz
1 2 3
1 4 8 10
2 13 17 22
3 6 26 9
Às vezes o número de Whittle é impraticável, como nesta situação. Utilizando a função anterior
obtemos que:
> Whittle(Matriz, u = 2, v = 1)
[1] 8.462769e+44
A questão agora é transformar as frequências observadas em probabilidades, para isso utilizamos o

comando markovchainFit do qual temos por resposta uma lista com diversas informações. A primeira
resposta é a matriz de probabilidades de transição estimada, a qual pode ser obtida também digitando
mcFitMLE[[1]].
> mcFitMLE[[1]]
MLE Fit
A 3 - dimensional discrete Markov Chain defined by the following states:
1, 2, 3
The transition matrix (by rows) is defined as follows:
1 2 3
1 0.1818182 0.3636364 0.4545455
2 0.2500000 0.3269231 0.4230769
3 0.1463415 0.6341463 0.2195122
Teorema 2.2
Seja {Xn } uma Cadeia de Markov ergódica. Então independentemente da distribuição inicial
√ D
px,y − px,y ) −→ Z,
nx,y (b (2.11)
onde Z ∼ N (0, Σ), Σ = (σx,y ), x, y ∈ S e


 px,y (1 − px,y ) caso {x, y} ̸= {z, w}
σx,y = −px,y px,z caso x = z, y ̸= w

0 caso contrário
Demonstração : Consequência do Teorema Central do Limite (Anderson & Goodman, 1957).
O resultado deste teorema implica que a covariância assintótica tem uma estrutura multinomial
dentro das linhas e independência entre as linhas. Como resposta temos também o desvio padrão da
√
estimação, calculado segundo a expressão em (2.11), como pbx,y / nx,y , assim como um intervalo de
confiança de 95%, os limites inferior e superior deste intervalo e o valor da funçõ de log-verossimilhança.
Mostramos agora a forma de obtermos os resultados apresentados no Teorema 2.2. Todos os resul-
tados estão guardados no objeto mcFitMLE e para sabermos o valor do desvio padrão, por exemplo,
digitamos:
> mcFitMLE$standardError
1 2 3
1 0.09090909 0.12856487 0.14373989
2 0.06933752 0.07929049 0.09020030
3 0.05974365 0.12436633 0.07317073
O intervalos confidencial é de 95%, o qual verificamos digitando:

> mcFitMLE$confidenceInterval$confidenceLevel
[1] 0.95
Então, por final, obtemos os limites inferior e superior do intervalos confidenciais como mostrado
abaixo. Ainda mostramos o valor da função ℓ, o logaritmo da função de verosimilhança.
> mcFitMLE$confidenceInterval$lowerEndpointMatrix
1 2 3
1 0.03228603 0.1521660 0.21811437
2 0.13594992 0.1965018 0.27471063
3 0.04807190 0.4295819 0.09915705
> mcFitMLE$confidenceInterval$upperEndpointMatrix
1 2 3
1 0.3313503 0.5751068 0.6909765
2 0.3640501 0.4573443 0.5714432
3 0.2446110 0.8387107 0.3398673
> mcFitMLE$logLikelihood
[1] -115.7695
O nosso próximo exemplo é uma aplicação de Cadeia de Markov em engenharia, tem a ver com pontes
e baseia-se no trabalho de Skuriat-Olechnowska (2005). A maioria das pontes na Holanda é construı́da
em concreto e mais de metade delas tem mais de 30 anos. À medida que as pontes se deterioram a uma
velocidade acelerada devido à corrosão, à degradação do concreto e ao dano do veı́culo a Divisão de
Engenharia Civil de Rijkswaterstaat1 , que faz parte do Ministério dos Transportes, das Obras Públicas
e da Gestão da Àgua deve repará-las e, sempre que possı́vel, impedem uma maior deterioração.
O referido ministério é o principal encarregado por de cerca de 3500 pontes na Holanda por isso
o ministério gosta de conhecer a vida útil restante de suas estruturas já que é sabido que durante a
vida útil, as estruturas precisarão ser reparadas. Neste momento, uma estratégia de reparo baseada em
inspeções é usada para determinar quando o reparo será feito. Esta estratégia de reparo para pontes de
concreto na Holanda resulta em reparação de pontes a cada 25 até 35 anos. O reparo será normalmente
de 0.5% até 155% da área da estrutura (van Beek et al., 2003).
Estes dados contém informações sobre os estados em que a estrutura de pontes encontraram-se
durante as inspeções, ou seja, contém um histórico de inspeção e no ano de construção.
Estado Perfeito Muito bom Bom Razoável Medı́ocre Mau Muito mal
Classificação 0 1 2 3 4 5 6
Tabela 2.1: Esquema de classificação da condição das pontes.
Para o gerenciamento das informaçõs utilizam-se diversos sistemas, dois deles: PONTIS e BRIDGIT
são dois dos Sistemas de Gerenciamento de Ponte mais comuns atualmente disponı́veis (Golabi e Shepard,
1
A Rijkswaterstaat é responsável pela concepção, construção, gestão e manutenção das principais infra-estruturas da
Holanda. Isso inclui a rede rodoviária principal, a rede de hidrovia principal e os sistemas de águas.
1997; Thompson et al., 1998). Ambos têm suas origens no Arizona Pavement Management System
desenvolvido no final da década de 1970 e são quase exclusivamente utilizados nos Estados Unidos.
Todos esses modelos usam Cadeias de Markov para modelar a deterioração incerta das pontes ao longo
do tempo. Nos Paı́ses Baixos, os resultados das inspeções de ponte são registrados em um banco de
dados, que é usado principalmente para manutenção de registros. Esta base de dados é uma fonte muito
rica de informações, contém dados coletados ao longo de quase 20 anos, e a finalidade da pesquisa atual
é usar esses dados para estimar a taxa de deterioração.
Para
0 1 2 3 4 5 6
0 520 134 327 111 36 7 0
1 270 128 222 97 36 7 0
2 284 101 368 193 61 9 5
3 94 33 119 131 42 3 1
De
4 16 14 42 50 17 7 0
5 7 3 4 4 3 0 1
6 1 1 0 3 1 0 0
Tabela 2.2: Contagem original de transições do Exemplo 2.5.
Reconhecendo que as Cadeias de Markov são uma ferramenta adequada para modelagem de deteri-
oração de pontes propomos técnicas adequadas que levem em consideração o tipo especial de censura
envolvendo inspeções de pontes. Além disso, gostarı́amos de ter testes estatı́sticos à nossa disposição
para avaliar a validade e o desempenho relativo de diferentes tipos de Cadeias de Markov. Essenci-
almente, estamos interessados em obter a funcionalidade de um sistema de gerenciamento de ponte
como PONTIS, ao mesmo tempo em que cuidamos especialmente a validade de nossos pressupostos e
os modelos resultantes em relação à situação nos Paı́ses Baixos.
Definida a codificação dos estados que vamos utilizar na Tabela 2.1, classificando o estado de con-
servação das pontes inspecionadas procedemos à estimação da matriz de probabilidades de transição
desta cadeia. A Tabela 2.2 mostra a contagem das transições de cada estado para qualquer outro
estado.
Para
0 1 2 3 4 5
0 520 134 327 111 36 7
1 270 128 222 97 36 7
2 284 101 368 193 61 14
3 94 33 119 131 42 4
De
4 16 14 42 50 17 7
5 8 4 4 7 4 1
Tabela 2.3: Contagem de transições do Exemplo 2.5, combinando os dois últimos estados da Tabela 2.2.
Nós vemos que a informação, que vem de dados de deterioração, é bastante subjetiva. Vemos a
classificação da condição que varia de um perfeito (estado 0) para um muito ruim (estado 6) através da
definição de estados. Interessante observar que pontes em estados mau e muito mal raramente acontecem,
por causa disso procedeu-se à junção destes estados e codificou-se como 5. O resultado apresenta-se na
Tabela 2.3. Os dados provêm da Divisão de Engenharia Civil do Ministério dos Transportes, Obras
Públicas e Gestão da Àgua na Holanda.
Exemplo 2.5 (Inspeção de pontes)

O banco de dados inclui um total de 5986 eventos de inspeção registrados para 2473 superestruturas
individuais. Ignorando o tempo entre a construção da ponte e uma primeira inspeção, há 3513
transições registradas entre estados de condição. Pela Tabela 2.2 podemos observar que os estados
5 e 6 raramente ocorrem no banco de dados. Para determinar uma matriz de probabilidade de
transição, esses estados são combinados no estado 5 para representar uma condição ”ruim”e ”muito
ruim”, caso contrário, algumas probabilidades de transição podem ser zero. Obtemos como resposta
a matriz de probabilidades de transição estimada a seguir:
0 1 2 3 4 5
 
0 0.4581 0.1181 0.2881 0.0978 0.0317 0.0062
1 0.3553 0.1684 0.2921 0.1276 0.0474 0.0092 

 0.0138 
b =  0.2782
P
2 0.0989 0.3604 0.1890 0.0597 ·
3 0.2222 0.0780 0.2813 0.3097 0.0993 0.0095 

4 0.1096 0.0959 0.2877 0.3425 0.1164 0.0479 
5 0.2857 0.1429 0.1429 0.2500 0.1429 0.0356
Foi realizada uma análise sobre modelagem de deterioração de pontes mas os dados foram coleta-
dos, no banco de dados denominado DISK e fornecidos pelo Divisão de Engenharia do Rijkswaters-
taat, continham um número limitado de estados de condição das pontes, decidimos usar Cadeia de
Markov para modelar a deterioração. O modelo de deterioração de Markov é baseado em condições.
Por isso, é flexı́vel na adaptação aos dados de inspeção (visual). Infelizmente, não pudemos observar
o tempo exato das transições. Assim, adaptamos uma Cadeia de Markov com censura de intervalo.
Censura de intervalo significa que não sabemos a hora exata de um evento. Em nosso contexto, isso
significa que não sabemos a hora em que a ponte se move de um estado para outro. Uma probabili-
dade de transição foi definida como a probabilidade de uma ponte passar de um estado para outro
(igual ou pior). Assumimos que nenhuma manutenção foi realizada entre as inspeções.
Com o auxilio dos seguintes comandos investigamos o comportamento futuro desta cadeia:
> Estados = c("0", "1", "2", "3", "4", "5")

> Pontes = matrix(c(520, 134, 327, 111, 36, 7,
270, 128, 222, 97, 36, 7,
284, 101, 368, 193, 61, 14,
94, 33, 119, 131, 42, 4,
16, 14, 42, 50, 17, 7,
8, 4, 4, 7, 4, 1),
nrow = 6, ncol = 6, byrow = TRUE, dimnames = list(Estados, Estados))
> Pontes = as(as.table(Pontes), "markovchain")
> Pontes
Unnamed Markov chain
0, 1, 2, 3, 4, 5
0 1 2 3 4 5
0 0.4581498 0.11806167 0.2881057 0.09779736 0.03171806 0.006167401
1 0.3552632 0.16842105 0.2921053 0.12763158 0.04736842 0.009210526
2 0.2781587 0.09892262 0.3604310 0.18903036 0.05974535 0.013712047
3 0.2222222 0.07801418 0.2813239 0.30969267 0.09929078 0.009456265
4 0.1095890 0.09589041 0.2876712 0.34246575 0.11643836 0.047945205
5 0.2857143 0.14285714 0.1428571 0.25000000 0.14285714 0.035714286
> steadyStates(Pontes)
0 1 2 3 4 5
[1,] 0.3243988 0.1092058 0.3077224 0.1852073 0.06111703 0.01234871
Temos por resposta que 32,4% das pontes inspecionadas corresponderão a pontes em perfeito
estado, 10,9% corresponderá a pontes em estado muito bom, 30,8% permanecerá em estado bom,
18,6% das pontes corresponderão á pontes em estado de conservação razoável, 6,1% estarão em
estado medı́ocre na próxima avaliação enquanto 1,2% delas estarão em estado mau ou muito mal.
2.1.2 Intervalos de observação não coincidentes

Consideremos a situação na qual L0 seja o intervalo de observação, porém o desejado é que seja Ld a
duração do ciclo desejado. O estimador de máxima verossimilhança da matriz de transição de probabili-
dades é Pb0 , associada com o comprimento do ciclo de observação L0 , a qual é obtida usando os métodos
apresentados na Seção 2.1.1.
Pela propriedade de invariância, o estimador de máxima verossimilhança da matriz de transição
associado com a duração do ciclo Ld é
Pbd = Pbt , (2.12)
onde t = Ld /L0 .
No exemplo anterior, se em vez de observarmos por um perı́odo de um ano tivesse sido o perı́odo
de observaa̧ão de dois anos: L0 = 2 e Ld = 1. Então, pode-se encontrar a raiz quadrada da matriz de
transição estimada, devido a que t = 1/2.
b0 em seus valores e vectores
O cálculo da matriz em (2.12) é simples a partir da decomposição de P
próprios, chamada de decomposição espectral. Com base nesta decomposição, esta matriz pode ser
escrita como
Pb0 = V ΛV −1 ,
onde  
λ1 0 · · · 0
 0 λ2 · · · 0 
 
Λ =  .. .. .. .. 
. . . . 
0 0 · · · λN
é a matriz de auto-valores e V a matriz de auto-vetores correspondentes. Segue então que
b0t = V Λt V −1 ,
P
onde  
λt1 0 · · · 0
 0 λt · · · 0 
 2 
Λ =  .. ..  ·
t
.. ..
. . . . 
0 0 · · · λtN
Os autovalores são transformados segundo o valor da potência t, mas os autovetores não mudam.
Temos diversas opções disponı́veis de funções de decomposição de matrizes, de forma que estes cálculos
podem ser feitos muito rapidamente, por exemplo, no R a função básica eigen permite realizar estes
cálculos.
Um modelo a tempo discreto não é necessariamente Markov em todos os ciclos. Isto é comparável a
dizer que alguns dos valores próprios da matriz de transição podem ser negativos. Desde que a matriz
de transição estimada Pb seja semidefinida positiva, todos os valores próprios serão não-negativos, este
método permitirá calcular o estimador de máxima verossimilhança diretamente.
O procedimento apresentado aqui não é único na literatura especializada, porém o consideramos de
fácil implementação. Um outro procedimento pode ser consultado em Miller & Homan (1994).
Vejamos o exemplo a seguir o qual é um estudo de coorte sobre o HIV2 . Os pesquisadores construı́ram
uma Cadeia de Markov estacionária para descrever a progressão mensal de indivı́duos infectados por
HIV em maior risco de desenvolver infecção por Complexo Mycobacterium avium3 . Esta progressão
incluı́a a possibilidade de movimento entre três faixas de contagem de células CD4 distintas, com e sem
AIDS.
Seis meses de contagem

Contagem inicial de células CD4
de células CD4 0 - 49 50 - 74 75+
0 - 49 682 33 25
50 - 74 154 64 47
75+ 19 19 43
Tabela 2.4: Transições observadas em seis meses na contagem de células CD4 (1993-1995). Estudo
realizado na Suiça com pacientes infectados pelo HIV.
Exemplo 2.6 (Estudo de coorte HIV )

Dados coletados num estudo multicêntrico onde os pacientes infectados pelo HIV têm visitas de
acompanhamento bastante regulares, a cada seis meses. Os dados estão disponı́veis no arquivo de
dados craigsendi, pacote markovchain, e mostrados na Tabela 2.4.
> data(craigsendi)
> csMc = as(craigsendi, "markovchain")
> csMc
Unnamed Markov chain
0-49, 50-74, 75-UP
0-49 50-74 75-UP
0-49 0.9216216 0.04459459 0.03378378
50-74 0.5811321 0.24150943 0.17735849
75-UP 0.2345679 0.23456790 0.53086420
Estes resultados significam que a matriz de probabilidades de transição estimada em seis meses é
0 − 49 50 − 74 75+
 
0 − 49 0.9216 0.0446 0.0338
b6 = 50 − 74 0.5811 0.2415 0.1774 ·
P
75+ 0.2346 0.2346 0.5309
Devemos mencionar que os dados apresentados na Tabela 2.4 constituem a contagem das transições
observadas mas, uma vez convertidos em Cadeia de Markov temos as probabilidades estimadas de
transição, como foi realizado no Exemplo 2.5.
A apresentação do Exemplo 2.6 permite-nos a leitura dos dados na referência mencionada antes e
guardados no arquivo craigsendi. Esclarecemos novamente que os dados originais foram observados num
perı́odo de seis meses, o qual nõ é o desejado no estudo, queremos o comportamento mensal. Mostramos
2
Sendi, P.P., Craig, B.A., Pfluger, D., Gafni, A. and Bucher, H.C.. Systematic validation of disease models for
pharmacoeconomic evaluations. Journal of Evaluation in Clinical Practice. 1999; Volume 5; pp. 283-295.
3
O Complexo Mycobacterium avium é um grupo de bactérias que pode ser encontrado normalmente na rede hidráulica
das cidades e em pessoas com imunossupressão, como portadores do HIV/AIDS.
a continuação nossa implementação no R do procedimento para encontrarmos a matriz de transição no

ciclo desejado. Observe que, em nossa implementação no seguinte exemplo, todos oa auto-valores foram
positivos.
Para esta análise, a duração do ciclo desejado é de um mês. Para estimar a matriz de transição para
esse intervalo, vamos decompor P b6 . Utilizando a função R eigen obtemos
> L = eigen(csMc@transitionMatrix)
> L
eigen() decomposition
$values
[1] 1.0000000 0.5701572 0.1238380
$vectors
[,1] [,2] [,3]
[1,] -0.5773503 -0.1276431 0.02818224
[2,] -0.5773503 0.2866930 -0.87301666
[3,] -0.5773503 0.9494811 0.48687542
Agora vamos transformar esta matriz à situação procurada, ou seja, numa transição mensal.
> csMc1 = L$vectors%*%diag((L$values)^(1/6))%*%solve(L$vectors)

> csMc1 = new("markovchain", byrow=T, transitionMatrix=csMc1)
resultado apresentado em (2.13).
Traduzindo estes resultados: a matriz de auto-valores é

 
1.000000 0 0
Λ= 0 0.5701572 0 
0 0 0.123838
 
−0.5773503 −0.1276876 0.02817213
e a matriz de auto-vetores correspondente é V = −0.5773503 0.2867671 −0.87297660.
−0.5773503 0.9494527 0.48694783
Como mencionado o ciclo observado foi de 6 meses, mas o ciclo desejado é de um mês. Para isso
tomamos a raiz sexta de Λ e fazendo os cálculos sugeridos (2.12) obtemos que a matriz de transição
estimada de um mês é  
0.9819 0.0122 0.0059
b = 0.1766 0.7517 0.0717 ·
P (2.13)
0.0177 0.0933 0.8830
b6 como esperado. Observe que
Se esta matriz fosse multiplicada seis vezes o resultado será a matriz P
este processo é muito rápido e simples. Neste exemplo, a matriz sugere que haverá demasiados pacientes
no estado 0-49 após seis ciclos.
Podemos agora, inclusive, identificarmos a distribuição estacionária, para isso fazemos:
> steadyStates(csMc1)
1 2 3
[1,] 0.8343668 0.07659214 0.08904103
Significa que, a longo prazo, 83,4% indivı́duos infectados por HIV mantem-se na faixa 0-49 de
contagem de células CD4, 7,7% apresentam contagem na faixa 50-74 em 8,9% dos casos a contagem é
75 ou mais.
2.2. TESTES PARA VERIFICAR A ORDEM DA CADEIA 107
2.2 Testes para verificar a ordem da cadeia

Muitas vezes acontece que é útil descrever um processo estocástico como um conjunto de estados discretos
com transições probabilı́sticas e exemplos abundam em vários campos, como o estudo de processos
quı́micos, sequências de DNA, finanças dentre outros. Se a probabilidade de transição para o próximo
estado é condicionada apenas no estado atual, chamamos este modelo de uma Cadeia de Markov, e
quando as probabilidades condicionais não são dadas de outra forma, elas são estimadas a partir de uma
série temporal de observações. Mas, e caso a probabilidade de transição para o próximo estado seja
condicionada não somente no estado atual? em tais situações surgem novos questionamentos.
Se a ordem da Cadeia de Markov estiver em questão o primeiro é respondermos: o que é ordem de
uma Cadeia de Markov?
Definição 2.1
Uma sequência de observações {Xn }n≥1 formam uma Cadeia de Markov de ordem k se a probabilidade
condicional satisfaz
P (Xn+1 |Xn , Xn−1 , · · · ) = P (Xn+1 |Xn , · · · , Xn−k+1 ), ∀k < n· (2.14)
As cadeias de Markov consideradas no Capı́tulo 1 são cadeias de ordem um, ou seja, k = 1. Isso
significa, como sabemos, que as probabilidades de transição para um estado futuro dependem apenas
do estado atual e não de estados anteriores. Um processo de ordem k pode sempre ser lançado como de
primeira ordem agrupando estados. Um processo que não tenha dependência do passado ou presente,
como variáveis aleatórias independentes, é dito ser uma Cadeia de Markov de ordem zero. Por outro
lado, como deve ser facilmente percebido cadeias de ordens superiores, ou seja, cadeias de segunda ordem
ou superiores implicam numa representação mais complicada.
Considere primeiro uma Cadeia de Markov de segunda ordem. Dado que um indivı́duo está no estado
z no instante n − 2 e em y no instante n − 1, seja pzyx a probabilidade de estar o indivı́duo no estado
x no instante n. Uma cadeia estacionária de primeiro ordem é uma cadeia especial de segunda ordem,
na qual pzyz não depende de z. Para vermos isso, considere o par de estados sucessivos z e y definir
um estado composto (z, y). A probabilidade do estado composto (y, x) no instante n dado o estado
composto (z, y) no instante n − 1 é pzyx . Vejamos isso. (
Sabemos
) que P (Xn = x|Xn−1 = y, Xn−2 = z) = pzyx e queremos verificar se P Xn = (y, x)|Xn−1 =
(z, y) = pzyx . Logo
( )
P Xn = (y, x)|Xn−1 = (z, y) = pzyx
( ) ( ) (2.15)
P Xn = (y, x)|Xn−1 = y, Xn−2 = z = P Xn = x, Xn−1 = y|Xn−1 = y, Xn−2 = z = pzyx ·
Claro que, a probabilidade do estado (w, x), w ̸= y, dado (x, y), é zero. Os estados compostos
podem ser encontrados para formar uma cadeia com d2 estados (d é o número de estados) e com certas
probabilidades de transição 0. Esta repressentação nos ajudará na descrição dos testes de verificação da
ordem de uma cadeia a serem descritos aqui.
Verificarmos a ordem de uma Cadeia de Markov poderá ser realizado de diversas maneiras, mas aqui
consideraremos duas delas. O primeiro teste, conhecido como teste aproximado, descrito na Subseção
2.2.1 é baseado na estatı́stica χ2 por outro lado, um segundo teste descrito na Subseção 2.2.2 é conhecido
como teste exato. Devemos mencionar novamente que muitos dos resultados apresentados aqui foram
resumidos no artigo de Anderson & Goodman (1957).
Exemplificaremos a teoria a ser apresentada neste seção com o seguinte exemplo, inspirado no tra-
balho de Doubleday & Esunge (2011). A ideia é usar Cadeias de Markov para prever o comportamento
dos preços das ações utilizando o ı́ndice Dow Jones Industrial Average (DJIA)4 .
Exemplo 2.8 (Tendência de mercado financeiro)
A modelagem do ı́ndice Dow Jones Industrial Average ou DJIA é frequentemente utilizada para de-
terminar estratégias de negociação com o máximo de recompensa. As mudanças no comportamento
do DJIA são importantes, pois os movimentos podem afetar profundamente as escolhas dos investi-
dores, sejam estes indivı́duos ou corporações. O objetivo neste exemplo é mostrar como analisar o
DJIA usando um modelo estocástico de tempo discreto, ou seja, uma Cadeia de Markov. Dois mo-
delos foram destacados, onde o DJIA foi considerado como sendo em (1) ganho ou perda e (2) ganho
ou perda pequeno, moderado ou grande. Esses modelos foram usados para obter probabilidades de
transição e a distribuição estacionária.
Os preços de fechamento do mercado são considerados para que a análise possa ser feita de forma
discreta e as probabilidades de transição são utilizadas como partes de Cadeias de Markov para
modelar o mercado. Dada esta formulação de uma matriz de transição e seu estado estacionário,
podemos configurar um sistema de classificação do Dow Jones Industrial Average (DJIA). A idéia
de usar Cadeias de Markov para prever o comportamento dos preços das ações é popular, pois
os investidores potenciais estão interessados nas tendências do mercado, o que pode levar a uma
estratégia de investimento ideal. Para este estudo, serão analisadas duas estratégias, a saber:
• Probabilidades do DJIA movendo-se para cima ou para baixo.
• Probabilidades do DJIA movendo-se entre as partições de os possı́veis ganhos e perdas.
Os valores de fechamento do DJIA foram reunidos para os 252 dias de negociação entre 27 de
dezembro de 2016 e 26 de dezembro de 2017. Os dados, apresentados na Figura 2.1, foram obtidos de
Yahoo! Finance em https://finance.yahoo.com/quote/%5EDJI/history. Questões em aberto: como
vamos construir uma Cadeia de Markov a partir dos dados relatados? Qual a ordem desta cadeia?
2.2.1 Testes aproximado

Para realizar um teste e verificar, como hipótese nula, se a cadeia é de k-ésima ordem é necessário
calcular a distribuição de uma estatı́stica de ordem superior adequada. Se a estatı́stica de ordem
superior observada for suficientemente improvável, a hipóteses nula é rejeitada. A probabilidade, dada
a hipóteses nula, da estatı́stica de teste alcançando o valor observado ou um mais extremo é referida
como p-valor. Tipicamente, um p-valor menor ou igual a 0.05 é tomado como motivo para rejeitar a
hipótese nula. Em diversos trabalhos como, por exemplo, em Anderson & Goodman (1957) os autores
descrevem o teste aproximado amplamente utilizado com este objetivo.
Vamos começar com a suposição de que {Xn } é uma sequência observada de uma Cadeia de Markov
de primeira ordem (k = 1) e calculamos o p-valor de uma estatı́stica de segunda ordem usando a
distribuição χ2 . A distribuição nula é
P (Xn+1 = x|Xn = y, Xn−1 = z) = P (Xn+1 = x|Xn = y)
4
Dow Jones Industrial Average é um ı́ndice criado em 1896 por Charles Dow, editor do The Wall Street Journal e
fundador do Dow Jones & Company. O DJIA é ao lado do Nasdaq Composite e do Standard & Poorś 500 um dos
principais indicadores dos movimentos do mercado americano. Dos três indicadores, DJIA é o mais largamente publicado
e discutido. O cálculo deste ı́ndice é bastante simples e baseia-se na cotação das ações de 30 das maiores e mais importantes
empresas dos Estados Unidos. Como o ı́ndice não é calculado pela Bolsa de Valores de Nova Iorque, seus componentes
são escolhidos pelos editores do jornal financeiro norte-americano The Wall Street Journal. Não existindo nenhum critério
pré-determinado a não ser que os componentes sejam companhias norte-americanas lı́deres em seus segmentos de mercado.
25000
Dow Jones Industrial Average em USD

24000
23000
22000
21000
20000
jan 2017 abr 2017 jul 2017 out 2017 jan 2018
Figura 2.1: Índice Dow Jones Industrial Average, valor no fechamento diário.
ou pela fórmula de Bayes
P (Xn+1 = x, Xn = y)P (Xn = y, Xn−1 = z)

P (Xn+1 = x, Xn = y, Xn−1 = z) = · (2.16)
P (Xn = y)
A expressão a esquerda em (2.16) multiplicada por N − 2, sendo N a quantidade de observações na

série temporal observada, é o número esperado de vezes que a sequência (Xn+1 = x, Xn = y, Xn−1 = z)
aparece nos dados, dada a hipótese nula. As quantidades no lado direito não são valores ∑
esperados. Eles
são retirados da sequência observada. Seja Eω a contagem esperada de sequências onde ω Eω = N − 2
e ω indexa o conjunto de todas as sequências para as quais a contagem esperada é maior do que zero.
Do mesmo modo, seja Oω ≥ 0 a contagem correspondente dos dados observados.
Agora podemos definir a estatı́stica de teste χ2 observada como
( )
∑ Eω − Oω 2
2
χobs = , (2.17)
ω
E ω
a qual é uma medida do desvio da contagem observada do esperado. A vantagem da estatı́stica χ2 é

que, atendendo aos graus de liberdade m, a distribuição da estatı́stica é conhecida no limite N → ∞.
O p-valor é então obtido como P (χ2 (m) ≥ χ2obs ).
Um problema que exige alguma discussão é como calcular os graus de liberdade necessários para
determinar a distribuição χ2 (m). Para testar a hipótese da k-ésima ordem, contamos as sequências
de comprimento m = k + 1 observadas e calculamos as sequências de comprimento m + 1 esperadas.
Supondo que todas as dm sequências de comprimento m estejam presentes nos dados, seja F a matriz
dm × dm das contagens de transição. O (i, j)-ésimo elemento de F é o número de vezes que as transições
de i para j acontecem. Como as sequências consecutivas se sobrepõem e diferem por apenas um sı́mbolo,
existem no máximo d entradas não-zero em cada linha e coluna de F. É útil reorganizar F na forma
bloco diagonal com m blocos d × d. Em cada bloco tanto as linhas como as colunas devem somar o
comprimento correspondente às m contagens de sequências. Levando em consideração as dependências

entre linhas e colunas nos deixa com dm−1 (d − 1)2 graus de liberdade para m > 0 e (d − 1)2 para m = 0.
No caso de que nem todas as sequências de comprimento m estejam presentes nos dados observados,
F será menor do que dm × dm e os blocos ao longo da diagonal podem ser de tamanho ∑ diferente. Se o
tamanho do i-ésimo bloco for ri × ci , então o número total de graus de liberdade é i (ri − 1)(ci − 1).
No caso especial onde m = 1, a hipótese nula do teste é que as observações em pontos de tempo
sucessivos são estatı́sticamente independentes contra a hipótese alternativa de que as observações formam
uma cadeia de primeira ordem.
Para a aplicação da estratégia (1), cada dia foi classificado como tendo fechado maior ou menor que
o dia anterior, assim permitindo a classificação de dois estados, a saber:
Estado 1: O valor de fechamento é inferior ao valor de fechamento do dia anterior.
Estado 2: O valor de fechamento é maior ou igual ao valor de fechamento do dia anterior.
Com as linhas de comando R seguintes fizemos a leitura dos dados, geramos o gráfico e construı́mos
a cadeia:
> dados=read.csv(’DJIA.csv’,sep=’,’,h=T)
> attach(dados)
> library(ggplot2); library(psych); library(car)
> Datas = as.Date(dados$Date)
> par(mar=c(5,4,1,1),pch=19,cex.axis=0.4)
> qplot(Datas, Close, xlab=’ ’, ylab=’Dow Jones Industrial Average em USD’)
> Estados = seq(1, length(Close)-1)
> for(i in 1:length(Estados)){Estados[i] = ifelse(Close[i]>Close[i+1], 1, 2)}
Como resposta a matriz de probabilidades de transição estimada é

( )
b 0.4722222 0.5277778
P= ,
0.4014085 0.5985915
isto obtido da seguinte lista de comandos R:
> library(markovchain)
> createSequenceMatrix(Estados, sanitize=FALSE)
> mcFitMLE = markovchainFit(data=Estados)
> mcFitMLE$estimate^100
MLE Fit^100
1, 2
1 2
1 0.432 0.568
2 0.432 0.568
Ainda temos também que a distribuição estacionária é π = (0.432, 0.568). Significa que temos
43% de probabilidade de perda na nossa carteira de ações com o ı́ndice DJAI e 57% de probabilidade
de ganho. Aplicamos agora os conhecimentos desenvolvidos nesta seção para verificar a ordem da
Cadeia de Markov. Para isso devemos verificar se a cadeia em questão é de ordem um ou não e,
como vimos, podemos utilizar a estatı́stica de teste χ2 . Para isto, ou seja, para aplicarmos o teste
aproximado descrito nesta subseção fazemos:
> assessOrder(Estados)
The assessOrder test statistic is: 3.964894
the Chi-Square d.f. are: 2
The p-value is: 0.1377318
com o qual concluı́mos que aceitamos a hipóteses nula da cadeia com dois estados ser de ordem um.
2.2.2 Teste exato

(n)
Podemos usar a fó rmula de Whittle em (2.2) para gerar um subconjunto de amostras de Nu,v para que
(n)
a amostra seja uniforme, ou seja, para que todas as sequências em Nu,v tenham a mesma probabilidade
de serem incluı́das na amostra. Uma estratégia seria crescer sucessivamente uma sequência substituta,
começando com uma sequência inicial, até que todas as transições sejam usadas. Em cada etapa são
realizadas duas operações: (1) a próxima sequência é escolhida com base no número de sequências
restantes calculadas usando a fórmula de Whittle, e (2) nx,y é atualizado para refletir a contagem de
transição reduzida resultante da seleção. As sequências são escolhidas probabilisticamente ponderadas
pelo número de sequências que estão disponı́veis para completar o substituto. As sequências que levam
a zero sequências válidas nunca são escolhidas, portanto, o algoritmo é garantido para resultar em um
(n)
substituto válido. Este método de produção de substitutos produz uma amostragem uniforme de Nu,v
uma vez que a cada passo as palavras que levam a poucas sequências remanescentes são selecionadas
proporcionalmente com menos frequência.
O teste de hipótese conforme descrito na subseção 2.2.1 não é exato, depende da distribuição χ2
válida no limite assintótico de dados infinitos. Para descobrir a distribuição exata para dados finitos é
necessário avaliar a estatı́stica χ2obs para todas as sequências possı́veis que satisfaçam a hipótese nula.
Para a hipótese de primeira ordem, essas sequências têm exatamente a mesma probabilidade conjunta
mostradas no lado direito de (2.16). Referencias importantes são os artigos de Besag & Mondal (2013);
Pethel & Hahs (2014).
Seja nxy o número de transições na cadeia observada entre os estados x e y. Também definimos Γ
como o conjunto de sequências com o mesmo número de transições observado (nxy ) mas com os mesmos
estado inicial e final observados na cadeia {Xn }. O número de sequências com a mesma contagem
de transições (nxy ) e que começa no estado u e termina no estado v é dado pela fórmula de Whittle
(Teorema 2.1): ∏
nx· !
Nuv = ∏ x Cuv , (2.18)
xy nxy !
onde nx· representa a soma da linha x e Cuv é o (u, v)-ésimo cofator da matriz
{ nxy
∗ δxy − caso nx· > 0,
nxy = nx· (2.19)
δxy caso nx· = 0·
.
Para encontrar o p-valor precisamos conhecer todas as sequências em (nxy ) que possuem valores da
estatı́stica χ2 maiores ou iguais a χ2obs .
Continuando neste exemplo, sabemos que a matriz de contagens é da forma
> createSequenceMatrix(Estados, sanitize=FALSE)

1 2
1 51 57
2 57 85
> Estados
[1] 1 1 1 2 2 1 2 1 1 2 1 1 1 1 1 2 1 2 2 2 1 1 1 2 1 2 1 2 1 2 2 2 2 2 2 2 2 2 2 2
[41] 2 1 2 1 2 1 1 1 2 2 1 1 2 1 1 1 1 1 1 1 1 2 1 2 1 1 2 1 2 1 2 1 1 1 2 1 1 2 1 2
[81] 2 1 2 1 1 2 2 1 2 2 1 1 1 1 2 1 1 2 2 2 2 2 2 1 1 1 2 2 1 1 2 2 2 1 2 2 1 2 2 1
[121] 1 1 1 2 1 2 1 2 2 1 1 2 1 2 2 2 2 1 1 2 1 1 1 2 2 2 2 2 2 2 2 2 2 1 1 1 2 2 2 2
[161] 1 1 2 2 1 1 2 1 2 2 2 2 1 2 1 2 2 2 2 2 2 2 2 2 1 1 1 1 2 2 2 2 2 2 2 1 1 2 2 1
[201] 2 2 2 2 2 2 1 2 1 2 2 1 2 2 2 2 2 2 2 1 1 2 1 1 2 1 2 2 1 2 2 2 2 2 1 2 1 1 2 2
[241] 2 2 2 1 2 2 1 1 2 1 1
Com isso temos que n1· = 51 + 57 = 108, n2· = 57 + 85 = 142 e C11 = 0.4722222, do qual concluı́mos
que a quantidade de diferentes sequências começandp em 1 e terminado em 1 quando o tamanho da
série é N = 251 resulta em
108!142!
N11 = × 0.472222·
51!57!57!85!
Este número é extremamente grande. Situações como estas nas quais a cardinalidade de (nxy ) é
muito grande para enumerar todas as sequências, o p-valor pode ser estimado para qualquer precisão
desejada desde que se tenha um método de produção de amostras aleatórias uniformes do conjunto
(nxy ). É acerca de um desses procedimentos que trata o teste exato a seguir.
A ideia é usar a fórmula de Whittle para gerar um subconjunto de amostras de (nxy ) de modo que
a amostra seja uniforme, isto é, todas as sequências em (nxy ) sãoo igualmente provavelmente incluı́das
na amostra. A estratégia sugerida é sucessivamente acrescentar à sequência elementos começando com
alguns elementos inicias até que todas as transições sejam usadas. Em cada etapa duas operações são
executados:
(1) a próxima sequência é escolhida com base no número de sequências restantes calculadas usando a
fórmula de Whittle e
(2) Nxy é atualizado para refletir a contagem de transições reduzida resultante de seleção.
As sequências são escolhidas probabilisticamente ponderadas pelo número daquelas sequências que estão
disponı́veis para completar o substituto. As palavras que levam a zero sequn̂cias válidas nunca são
escolhidas, portanto, o algoritmo é garantido resultando em um substituto válido.
Lembremos que nesta seção conhecemos duas estratégias para verificarmos se a cadeia considerada
é de uma ordem especı́fica.
Exemplo 2.11
Para a estratégia (2) devemos considerar 6 categorias, para isso utilizamos o seguinte comando
> quantis = quantile(diff(Close), probs = seq(0, 1, 0.20))
> quantis
0% 20% 40% 60% 80% 100%
-372.820312 -40.759765 -5.820313 33.759766 85.240235 331.669921
a partir do qual temos como definir as seguintes categorias:

Estado 1: Salto grande para cima, ganho maior do que 85.24.
Estado 2: Salto moderado para cima, ganho entre 33.75 e 85.24.
Estado 3: Salto pequeno para cima, ganho menor do que 33.75.
Estado 4: Salto pequeno para baixo, perda até -5.82.
Estado 5: Salto moderado para baixo, perda entre -5.82 e -40.75.

Estado 6: Salto alto para baixo, perda maior que -40.75.

Vejamos então como fazer para construir a nova cadeia, estimar a matriz de transição e obtermos
a distribuição estacionária:
> NEstados = ifelse(diff(Close)>=quantis[[5]], 1, 0)
> NEstados = ifelse(diff(Close)>=quantis[[4]] & diff(Close)<quantis[[5]], 2, NEstados)
> NEstados = ifelse(diff(Close)>=0 & diff(Close)<quantis[[4]], 3, NEstados)
> NEstados = ifelse(diff(Close)>=quantis[[3]] & diff(Close)<0, 4, NEstados)
> NEstados = ifelse(diff(Close)>=quantis[[2]] & diff(Close)<quantis[[3]], 5, NEstados)
> NEstados = ifelse(diff(Close)<quantis[[2]], 6, NEstados)
> NEstados
[1] 6 5 6 1 2 6 2 6 5 1 6 4 6 5 6 1 5 1 1 3 5 6 6 3 5 1 5 2 5 1 1 1 1 1 3 3 1 3 2 3
[41] 3 5 1 6 3 6 5 6 3 2 5 6 1 5 5 5 6 5 4 6 6 1 6 2 6 5 2 6 3 5 3 5 6 6 1 6 6 1 5 1
[81] 1 5 3 6 5 2 3 5 2 3 5 5 5 5 1 4 6 2 1 1 2 2 2 4 6 5 1 2 5 6 2 3 1 5 1 2 5 3 1 6
[121] 6 5 4 3 6 1 6 2 1 4 6 1 4 3 1 3 2 5 6 2 5 5 6 1 1 1 3 2 2 2 3 2 3 5 5 6 3 1 3 3
[161] 6 6 3 1 6 5 3 4 2 3 2 2 6 2 5 3 1 2 2 2 2 2 2 2 6 5 6 5 2 2 3 1 2 3 1 4 5 2 2 5
[201] 3 1 2 1 3 1 6 1 6 2 3 6 3 2 2 3 3 3 3 6 5 3 5 6 1 6 2 1 6 3 3 1 1 1 5 2 6 5 2 1
[241] 2 1 2 6 1 1 5 5 2 5 5
> createSequenceMatrix(NEstados, sanitize=FALSE)

1 2 3 4 5 6
1 12 9 7 4 8 11
2 6 14 11 1 9 8
3 12 7 7 1 9 6
4 0 1 2 0 1 5
5 9 9 7 2 9 13
6 12 9 8 1 14 6
> NmcFitMLE = markovchainFit(data=NEstados)

> NmcFitMLE$estimate
MLE Fit
1, 2, 3, 4, 5, 6
1 2 3 4 5 6
1 0.2352941 0.1764706 0.1372549 0.07843137 0.1568627 0.2156863
2 0.1224490 0.2857143 0.2244898 0.02040816 0.1836735 0.1632653
3 0.2857143 0.1666667 0.1666667 0.02380952 0.2142857 0.1428571
4 0.0000000 0.1111111 0.2222222 0.00000000 0.1111111 0.5555556
5 0.1836735 0.1836735 0.1428571 0.04081633 0.1836735 0.2653061
6 0.2400000 0.1800000 0.1600000 0.02000000 0.2800000 0.1200000
> steadyStates(NmcFitMLE$estimate)
1 2 3 4 5 6
[1,] 0.2037759 0.196012 0.1679465 0.03606179 0.1996664 0.1965375
Observemos que, nesta última situação, não temos uma conclusão clara. Temos quase a mesma
probabilidade de que aconteçam os Estados 1, 2, 5 e 6. Assim, o mais raro seriam as situações onde
o salto é pequeno para cima ou para baixo. Como podemos decidir quanto ao tipo de cadeia mais
adequado? lembremos temos construı́das duas cadeias, uma com dois estados e uma outra com seis
estados, qual delas é a mais adequada nesta situação?
Para respondermos esta pergunta recorremos ao critério de escolha de modelos conhecido como
AIC ou Critério de Informação de Akaike. Calcula-se como
b + 2 dim(θ),
−2ℓ(θ)
onde dim(θ) representa o número de parámetros do modelo. Fazendo uso da linguagem de pro-
gramação R o cálculo deste critério é como segue:
> -2*mcFitMLE$logLikelihood+2*((2-1)*2)
[1] 344.6826
> -2*NmcFitMLE$logLikelihood+2*((6-1)*6)
[1] 886.7953
correspondendo primeiro ao modelo com dois estados e, no segundo caso, ao modelo com seis
estados. Concluı́mos então que o modelo mais adequado é àquele com dois estados, é onde o valor
do AIC é menor.
Exemplo 2.12
Tendo validado o teste exato usando dados sintéticos, vamos olhar para uma aplicação no mundo real
envolvendo dados de precipitação de Tel Aviv. Este é um conjunto de dados bem conhecidos cujas
propriedades de Markov foram estudadas pela primeira por Gabriel & Neumann (1962). Os dados
originalmente preparados consistiram em 27 perı́odos de inverno (dezembro-janeiro-fevereiro) com
cada dia classificado como úmido ou seco. Com base nas estatı́sticas de perı́odos úmidos e secos, os
autores concluı́ram que uma cadeia de Markov de primeira ordem modela adequadamente os dados.
Análises posteriores usando AIC indicam que uma cadeia de segunda ordem deve ser usada, enquanto
a BIC estima a ordem em um.
Aplicar nosso teste de significância de ordem de Markov a esses dados apresenta dois desafios. A
primeira barreira é que os dados só existem como uma tabela de contagens de transição. Para o teste
de hipóteses, precisamos da série temporal original, que neste caso é a sequência de dias úmidos e
secos para cada um dos 27 invernos entre 1923 e 1950. Incapaz de encontrar esses dados em outro
lugar, optamos por usar os dados de precipitação de Tel Aviv entre os anos 1950 e 1977, que estão
disponı́veis em bases de dados online (www.weatherspark.com.). Classificamos um dia como molhado
se houvesse alguma precipitação registrada naquele dia. O segundo problema é que os dados não
são uma única série temporal, mas 27 não contı́guos. Para simplificar esta análise, concatenamos os
conjuntos de dados e aceitamos a pequena imprecisão devido a transições que abrangem diferentes
conjuntos. Assim preparadas, as contagens de dias úmidos e secos são apresentadas na Tabela 2.5
no mesmo formato dos dados originais.
Para
0 1 2 3 4 5 6
0 520 134 327 111 36 7 0
1 270 128 222 97 36 7 0
2 284 101 368 193 61 9 5
3 94 33 119 131 42 3 1
De
4 16 14 42 50 17 7 0
5 7 3 4 4 3 0 1
6 1 1 0 3 1 0 0
Tabela 2.5: Contagem de transições do Exemplo 2.5.

2.3. TESTE DE HIPÓTESES SOBRE PROBABILIDADES ESPECÍFICAS 115
2.3 Teste de hipóteses sobre probabilidades especı́ficas

Com base na teoria da distribuição assintótica na seção anterior, podemos derivar certos métodos de
inferência estatı́stica. Aqui vamos supor que cada px,y > 0.
Primeiro, vamos consideramos testar a hipótese de que certas probabilidades de transição px,y assu-
mem valores especı́ficos p0x,y . Utilizaremos o fato de que, sob a hipótese nula, temos uma distribuição
normal limite de n1/2 (b px,y − p0x,y ) com média zero e matriz de variâncias e covariâncias dependendo de
p0x,y da mesma maneira que as obtidas para estimativas de multinomial, este resultado foi resumido pelo
Teorema 2.2. Podemos usar a teoria assintótica padrão para distribuições multinomiais ou normais para
testar uma hipótese sobre um ou mais px,y ou determinar uma região de confiança para um ou mais px,y .
Especificamente, podemos estar interessados em verificar se H0 : px,y = p0x,y , y = 1, 2, · · · , d, para
um valor de x especı́fico. Sob a hipótesis nula,
∑
d
px,y − p0x,y )2
(b
nx,y (2.20)
y=1
p0x,y
tem uma distribuição assintótica χ2 com d − 1 graus de liberdade, de acordo com a teoria assintótica
usual de variáveis multinomiais. Assim, a região crı́tica do teste dessa hipótese no nı́vel de significância
α consiste no conjunto pbx,y para o qual (2.20) é maior que o ponto de significância α da distribuição
χ2 com d − 1 graus de liberdade. Uma região de confiança do coeficiente de confiança α consiste no
conjunto de p0x,y para os quais (2.20) é menor que o ponto de significância α. O p0x,y no denominador
pode ser substituı́do por pbx,y .
px,y − p0x,y )2 para diferentes x são assintoticamente independentes, a expressão
Como as variáveis nx,y (b
em (2.20) para diferentes x são assintoticamente independentes e, portanto, podem ser adicionadas para
obter outras variáveis χ2 . Por exemplo, um teste para todos os px,y , x, y = 1, 2, · · · , d pode ser obtido
adicionando (2.20) sobre todo x, resultando em uma variável χ2 com d(d − 1) graus de liberdade.
O uso do teste χ2 de bondade de ajuste é discutido em Cochran (1952). Acreditamos que há uma
boa razão para adotar estes testes, que são análogos aos testes de qualidade de ajuste, descritos nesta
seção.
No referido exemplo uma das suspeitas era que a matriz de probabilidades de transição tivesse uma
forma especı́fica. Para estimar uma matriz de probabilidade de transição de um ano, precisamos fazer
algumas suposições. Vamos supor que em um ano, a ponte só pode fazer a transição para o próximo
estado, o que significa que não há conserto. É claro que, quando entrar no estado número 5, ele
permanecerá lá. Assim, a Cadeia de Markov tem cinco estados transientes e um estado absorvente o
estado número 5. Com essas premissas e sob o princı́pio de que uma transição para o próximo estado
não depende do estado em que a cadeia está, a matriz de probabilidade de transição é semelhante à
apresentada abaixo:
1 2 3 4 5
 
1 1 − p1 p1 0 0 0
2 0 1 − p2 p2 0 0
b
P = 3 0 1 − p3 0·
6
0 p3
4 0 0 0 1 − p4 p4 
5 0 0 0 0 1
Como vemos, a matriz esta reflete todas as nossas suposições. Claro que no resto desta análise,
o A suposição sobre probabilidades de transição estacionárias ainda é válida.
2.4 Cadeias de Markov multivariadas

Nesta seção, apresentamos modelos para Cadeias de Markov multivariadas possivelmente de ordem
superior. O objetivo é modelar múltiplas sequências categóricas com base nos modelos anteriormente
estudados. Assumimos que existem s sequências categóricas e cada uma tem d estados possı́veis, significa
que vamos considerar que as s sequências têm o mesmo espaço de estados S. Estes modelos foram
propostos por Raftery (1985), posteriormente estudados e implementados por Ching, Ng & Fung (2008).
2.4.1 Cadeias de Markov de ordem superior

Vamos considerar sequências {Xt } com espaço de estados S. No modelo proposto, assumimos que a
distribuição de probabilidade da sequência no tempo t depende da distribuição de probabilidade da
sequência no tempo t − 1, · · · , t − m.
Definição 2.2
Seja {Xn } uma sequência de variáveis aleatórias categóricas dependentes. Diz-se que a seqência
satisfaz a propriedade de Markov de ordem m se
P (Xn+1 = xn+1 |X0 = x0 , X1 = x1 , · · · , Xn = xn ) =

= P (Xn+1 = xn+1 |Xn−m = xx − m, Xn−m+1 = xn−m+1 , · · · , Xn = xn )·
Novamente consideramos somente sequência estacionárias, isto é, Cadeias de Markov nas quais a
probabilidade de transição não muda conforme o instante de tempo. Dito isto, definamos Cadeias de
Markov de ordem superior.
Definição 2.3 (Cadeias de Markov de ordem superior )

Seja {Xt } uma sequência de variáveis categóricas satisfazendo a propriedade de Markov de ordem
m. Dizemos que {Xt } é uma Cadeia de Markov de ordem m se satisfaz que
∑
m
P (Xt = y|Xt−1 = x1 , · · · , Xt−m = xm ) = λh pxh ,y , (2.21)
h=1
com estados inciais x0 , x1 , · · · , xm−1 . Aqui, os pesos λh são números reais não negativos tais que
∑ m
h=1 λh = 1 e px,y as probabilidades de transição.
Resulta que a probabilidade condicional de observarmos Xt = y dado o passado é uma combinação

linear das contribuições de cada Xt−1 , · · · , Xt−m . Uma outra forma de escrever a probabilidade condi-
cional em (2.21) é como
∑
m
xbt = bh P
λ bxbt−1 ,
h=1
bt é uma função de valores passados e é percebida como a probabilidade

onde a variÃ¡vel aleatória x
b
condicional e P matriz de probabilidades de transição da cadeia de primeira ordem. A propriedade
2.4. CADEIAS DE MARKOV MULTIVARIADAS 117
básica que deva satisfazer o modelo em (2.21) é a convergência à distribuição estacionária, resultado
este estabelecido no teorema a seguir.
Teorema 2.3
Suponhamos {Xt } seja uma Cadeia de Markov de ordem superior. Então
lim P (Xt = y|Xt−1 = x1 , · · · , Xt−m = xm ) = πy , y = 1, · · · , d·

t→∞
Demonstração : Distribuição estacionária.
Uma vez compreendido o modelo procedemos à descrição do procedimento estatı́stico utilizado na es-
timação. As estimativas de máxima verossimilhança dos parâmetros de (2.21) são obtidos maximizando-
se numericamente o logaritmo da verossimilhança, ou seja, fazendo uso de um programa de otimização
não-linear com restrições maximizamos a função
∑
d (∑
m )
ℓ≈ nx,y1 ,··· ,ym log λh pyh ,x ,
x,y1 ,y2 ,··· ,ym =1 h=1
onde d é o número de estados e nx,y1 ,··· ,ym é a contagem das transições.

Para comparar modelos usamos um critério de informação, em vez de um procedimento de teste de
hipóteses múltiplas, porque os modelos não são aninhados. Alguns pesquisadores recomendam escolher
o modelo como aquele que minimize o AIC = −2ℓ+2k, onde k é o número de parâmetros independentes.
Entretanto, outros pesquisadores referem a alternativa de escolher o modelo que minimiza o BIC =
−2ℓ + k log(n) sendo n o tamanho da sequência porque (i) é um estimador consistente da ordem de
Cadeia de Markov, diferentemente do método AIC, (ii) é aproximadamente o como escolher o modelo
com maior probabilidade posterior, (iii) escolher modelos mais simples, e (iv) ter um bom desempenho
em um experimento de simulação.
Exemplo 2.14
Dados diários de precipitação na Ilha do Alofi (Avery & Henderson, 1999) foram registrados de 1ro.
de janeiro de 1987 até 31 de dezembro de 1989 e classificados em três estados: 0 (sem chuva), 1-5 (de
zero a 5 mm) e 6+ (mais de 5mm). Alofi forma parte da Ilha Niue no Oceano Pacı́fico. O conjunto
de dados correspondente é fornecido dentro do pacote markovchain:
> data(rain)
> fitHigherOrder(rain@rain, 2)
$lambda
[1] 0.5 0.5
$Q
$Q[[1]]
0 1-5 6+
0 0.6605839 0.4625850 0.1976285
1-5 0.2299270 0.3061224 0.3122530
6+ 0.1094891 0.2312925 0.4901186
$Q[[2]]
0 1-5 6+
0 0.6021898 0.4489796 0.3412698
1-5 0.2445255 0.2687075 0.3214286

6+ 0.1532847 0.2823129 0.3373016
$X
0 1-5 6+
0.5000000 0.2691606 0.2308394
No Exemplo 2.14 devemos indicar que no vetor λ b = (0.5, 0.5) temos por resposta as corresponden-
tes estimativas de máxima verossimilhança do vetor λ em (2.21). Nas matrizes Q[[1]] e Q[[2]] temos
as estimativas das probabilidades de transição de primeira e segunda ordem, respetivamente. Estas
matrizes, por questões de implementação computacional são diferentes àquelas estudas até o momen-
tos, estas matrizes são definidas por colunas e não por linhas. Dessa forma, nelas temos somas 1
somente por colunas assim, a probabilidade de passarmos num passo do estado 1-5 ao estado 6+ é
P (Xt = 6 + |Xt−1 = 1 − 5, Xt−2 = y) = 0.2312925 e a probabilidade de passarmos do estado 6+ ao
estado 1-5 em dois passos é P (Xt = 1 − 5|Xt−1 = y, Xt−2 = 6+) = 0.3214286. O vetor X fornece a
distribuição estacionária e assim, condluı́mos que em 50% das observações a cadeia está no estado 0, em
27% no estado 1-5 e em 23% dos casos está no estado 6+.
2.4.2 Cadeias de Markov de ordem superior multivariadas

As principais referências sã o artigo de Ching et al. (2008) e o livro Ching, Huang, Ng & Siu (2013).
Suponha que existam sequências categóricas e cada uma possua estados em S. A n-ésima ordem
da distribuição multivariada do estado da sequência de tempo j-ésima no tempo t = r + 1 depende
da distribuição de probabilidade do estado de todas as sequências, incluindo a si mesma, nos tempos
t = r, r − 1, ..., r − n + 1, segundo a relação
(j)
s ∑
∑ n
(h) (k)
xr+1 = λjk Phjk xr−h+1 ,
k=1 h=1
∑s ∑n (h)
para j = 11, 2, · · · , s e r = n − 1, n, · · · . Temos por restriÃ§Ã£o que k=1 h=1 λjk = 1.
Exemplo 2.15 (Previsões de demanda de vendas)
Demonstraremos a eficácia do modelo de Cadeia de Markov multivariada de ordem superior aplicando-
o à sequência de demanda de vendas. Uma empresa de refrigerantes em Hong Kong (Ching, Fung &
Ng, 2002) enfrenta um problema interno de planejamento de produção e controle de estoque. Uma
questão urgente é o espaço de armazenamento de seu armazém central, que muitas vezes se encontra
no estado de transbordamento ou capacidade máxima próxima. A empresa está, portanto, em neces-
sidades urgentes para estudar a interação entre o requisito de espaço de armazenamento e a crescente
demanda de vendas. O produto pode ser classificado em seis estados possı́veis S = {1, 2, 3, 4, 5, 6}
de acordo com seus volumes de vendas. Todos os produtos são rotulados como 1 = nenhum volume
de vendas, 2 = muito lento (volume de vendas muito baixo), 3 = lento, 4 = padrão, 5 = rápido ou
6 = muito rápido (volume de vendas muito alto). Esses rótulos são úteis tanto do ponto de vista do
planejamento de produção quanto de marketing.
A empresa também gostaria de prever a demanda de vendas de um cliente importante, a fim de
minimizar a acumulação de estoque. Mais importante ainda, a empresa pode entender o padrão de
vendas desse cliente e depois desenvolver uma estratégia de marketing para lidar com esse cliente.
Mostramos a demanda de vendas de clientes de cinco produtos importantes da empresa por um ano.
Esperamos que as sequências de demanda de vendas geradas pelo mesmo cliente sejam correlacionadas
entre si. Portanto, explorando essas relações, pode-se obter um modelo de Markov multivariável
de ordem superior melhor para essas sequências de demanda, portanto, obter melhores regras de
predição.
Dados de séries temporais ocorrem com frequência em muitas aplicações do mundo real. Uma das
principais etapas importantes na análise de dados de séries temporais á seleção do modelo estatı́stico
apropriado para os dados, porque ajuda na previsão, no teste de hipa’oteses e na descoberta de regras.
O modelo de Cadeias de Markov é desenvolvido para modelar sequências de dados categóricos.
Nesta ilustração, nós escolhemos a ordem da cadeia arbitrariamente para ser oito, ou seja, k = 8.
Primeiro estimamos todas as matrizes de probabilidade de transição P usando o método proposto
nesta Seção e também temos as estimativas da distribuição estacionária dos cinco produtos, cujos
valores observados mostramos a seguir:
Producto A: 6 6 6 6 2 6 2 6 2 2 6 2 6 6 2 6 2 4 4 4 5 6 6 1 2 2 6 6 6 2 6 2 6 6 2 6 2 2 6 2 1 2 2
6 6 6 2 1 2 6 2 6 6 2 2 6 2 2 2 6 2 6 2 2 2 2 2 6 2 2 6 6 6 6 1 2 2 6 2 2 2 2 6 2 2 2 2 3 3 2 3 2
6 6 6 6 2 6 2 6 6 2 6 2 6 6 2 6 6 2 2 3 4 3 3 1 3 1 2 1 6 1 6 6 1 6 6 2 6 2 6 2 2 2 6 6 1 6 2 6 1
2 1 6 2 6 2 2 2 2 6 6 1 6 6 2 2 6 2 2 2 3 4 4 4 6 4 6 1 6 6 1 6 6 6 6 1 6 2 2 2 6 6 6 6 2 6 6 2 2
6 2 6 2 2 2 6 2 2 2 6 6 6 6 3 2 2 6 2 2 2 2 2 2 6 2 6 2 2 2 6 2 2 6 6 2 6 6 6 2 2 2 3 3 3 4 1 6 6
1 6 6 1 6 1 6 6 6 6 1 6 6 6 2 1 2 2 2 2 2 2 3 6 6 6 6 6 2 6
Producto B: 1 6 6 1 6 1 1 1 1 1 1 6 6 6 1 2 1 6 6 1 1 1 6 6 2 1 6 6 1 1 1 6 1 2 1 6 2 2 2 2 2 6 1
6 6 1 2 1 6 6 6 1 1 1 6 6 1 1 1 1 6 1 1 2 1 6 1 6 1 1 6 2 6 2 6 6 6 3 6 6 1 6 6 2 2 2 3 2 2 6 6 6
1 1 6 2 6 6 2 6 2 6 6 1 3 6 6 1 1 1 2 2 3 2 2 6 2 2 2 1 6 1 6 1 1 6 2 1 1 1 2 2 1 6 1 1 1 1 2 6 1
1 1 1 6 1 6 1 2 1 6 1 6 6 1 6 1 2 2 2 2 3 3 2 2 2 6 6 6 6 2 1 1 6 1 1 1 6 1 6 1 6 1 6 1 1 6 6 2 1
1 6 6 1 1 2 6 2 6 6 6 1 2 6 1 6 1 1 1 1 6 1 6 1 1 6 6 1 6 6 1 6 1 6 6 1 1 6 6 2 2 2 2 2 2 2 2 2 6
6 6 6 1 6 6 6 1 6 6 1 6 6 1 1 6 1 3 3 3 5 1 6 6 6 6 6 6 6 6
Producto C: 6 6 6 6 6 6 6 2 6 6 6 6 6 6 6 2 6 6 6 6 2 6 6 6 2 2 6 6 6 6 6 6 6 1 6 2 6 6 6 6 6 6 6
6 2 6 6 1 2 6 1 6 6 1 6 2 6 6 6 6 6 6 6 2 6 6 6 2 6 6 1 6 6 6 6 6 6 6 3 3 6 3 2 1 2 2 1 6 6 1 6 1
6 6 6 6 6 6 1 6 6 6 1 6 6 6 6 6 6 6 6 6 6 6 2 6 6 6 6 6 6 6 6 2 2 6 6 2 6 1 2 6 6 6 2 6 6 2 6 6 2
6 1 6 2 6 2 1 2 6 6 2 2 6 2 6 2 2 6 2 6 6 6 2 2 2 6 6 2 6 6 2 2 6 1 2 1 2 6 6 2 2 6 6 1 2 2 1 6 2
6 2 2 1 1 5 6 3 6 1 6 6 1 2 2 6 1 6 2 6 6 1 6 2 6 2 6 6 6 1 6 1 6 6 2 2 2 1 2 3 6 1 6 1 6 1 6 1 6
6 6 1 1 6 6 6 6 6 1 6 6 6 1 6 1 1 6 6 6 6 6 6 6 6 1 6 6 1 6
Producto D: 6 2 2 2 2 3 3 4 4 4 5 4 3 3 6 2 6 6 6 3 4 4 3 3 3 3 3 2 6 6 3 4 4 4 4 3 4 2 6 2 2 6 2
2 6 6 3 4 5 4 4 6 3 6 6 6 2 6 2 6 6 2 2 6 4 4 5 4 3 4 3 4 4 6 2 6 6 2 2 6 2 6 6 2 6 6 2 6 6 2 6 2
6 3 5 5 5 4 4 4 3 6 2 6 6 2 6 2 6 2 2 6 2 6 6 2 6 4 4 4 4 4 4 6 3 6 6 2 6 2 6 2 6 2 6 6 2 2 2 2 2
2 2 2 2 3 3 3 5 5 4 5 3 3 3 6 2 6 6 2 2 6 2 2 2 2 6 2 3 2 2 3 6 3 2 2 3 4 4 4 4 5 5 4 4 6 6 2 6 2
6 2 2 2 2 2 2 2 5 5 4 4 5 5 2 6 2 6 6 2 6 2 6 2 2 3 3 4 4 5 4 4 4 3 4 3 6 2 6 2 2 2 2 2 2 2 2 2 2
2 3 4 4 4 4 5 4 4 4 3 2 2 2 6 2 2 2 6 2 6 2 6 2 2 2 2 2 3 2
Producto E: 6 2 2 2 2 3 3 4 4 4 5 4 3 3 6 2 6 6 2 3 4 4 3 4 4 3 3 2 2 6 3 4 4 4 4 3 4 2 3 2 2 6 3
3 6 6 3 4 5 4 5 3 3 2 6 6 2 6 2 6 6 2 2 6 4 4 4 4 4 4 5 4 4 6 2 6 6 2 2 6 2 6 6 2 6 6 2 6 6 2 6 2
6 3 4 4 4 4 4 4 4 6 2 6 6 2 6 2 6 6 6 6 2 6 2 2 6 4 4 4 4 4 4 6 3 3 6 2 2 2 6 2 6 2 2 2 2 2 2 2 2
2 2 2 2 3 6 4 5 5 5 5 2 4 6 6 2 6 6 2 2 6 2 2 2 2 6 2 3 2 2 3 6 3 2 2 3 4 4 4 4 5 5 4 3 3 6 2 6 2
2 2 6 3 2 2 2 2 5 5 4 4 4 4 3 6 2 6 6 2 6 2 6 2 2 3 3 4 4 5 4 4 4 4 4 3 6 2 6 2 2 2 6 2 2 2 2 2 2
2 3 4 4 4 4 5 4 4 4 3 2 2 2 6 6 6 2 6 2 6 2 6 2 2 2 2 2 2 2
De acordo com o modelo de Markov multivariado construı́do da 8va. ordem, os produtos A e

B estão intimamente relacionados. Em particular, a demanda de vendas do Produto A depende
fortemente do Produto B. O principal motivo é que a natureza quı́mica dos Produtos A e B é a
mesma, mas eles têm embalagens diferentes para fins de marketing. Além disso, os Produtos B, C,
D e E estão intimamente relacionados. Da mesma forma, os produtos C e E têm o mesmo sabor
do produto, mas diferentes embalagens. Neste modelo, é interessante notar que tanto o Produto
D quanto o E dependem do Produto B na ordem de 8, esta relação dificilmente pode ser obtida
no modelo convencional de Markov devido a uma grande quantidade de parâmetros. Os resultados
mostram que o modelo de Markov multivariado de ordem superior é bastante significativo para
analisar a relação de demanda de vendas.
> data(rain)
> modelo1 = markovchainFit(data=rain$rain)
> modelo1
$estimate
0 1-5 6+
0 0.6605839 0.2299270 0.1094891
1-5 0.4625850 0.3061224 0.2312925
6+ 0.1976285 0.3122530 0.4901186
$standardError
0 1-5 6+
0 0.03471952 0.02048353 0.01413498
1-5 0.03966634 0.03226814 0.02804834
6+ 0.02794888 0.03513120 0.04401395
$confidenceLevel
[1] 0.95
$lowerEndpointMatrix
0 1-5 6+
0 0.6034754 0.1962346 0.08623909
1-5 0.3973397 0.2530461 0.18515711
6+ 0.1516566 0.2544673 0.41772208
$upperEndpointMatrix
0 1-5 6+
0 0.7176925 0.2636194 0.1327390
1-5 0.5278304 0.3591988 0.2774279
6+ 0.2436003 0.3700387 0.5625151
$logLikelihood
[1] -1040.419
> modelo2 = fitHigherOrder(rain$rain, 2)

> modelo2
$lambda
[1] 0.5 0.5
$Q
$Q[[1]]
0 1-5 6+
0 0.6605839 0.4625850 0.1976285
1-5 0.2299270 0.3061224 0.3122530
6+ 0.1094891 0.2312925 0.4901186
$Q[[2]]
0 1-5 6+
0 0.6021898 0.4489796 0.3412698
1-5 0.2445255 0.2687075 0.3214286
6+ 0.1532847 0.2823129 0.3373016
$X
0 1-5 6+
0.5000000 0.2691606 0.2308394
A Cadeia de Markov é uma ferramenta essencial para a modelagem de muitos sistemas práticos,
como sistemas de filas, sistemas de manufatura e sequências de dados categóricos. Múltiplas sequências
de dados categóricos ocorrem em muitas aplicações, tais como controle de estoque, mineração de dados e
mercado financeiro. Em muitas situaçõs práticas, gostarı́amos de considerar várias sequências de dados
categóricos no mesmo perı́odo de tempo. A razão é que as sequências de dados podem ser correlacionadas
e, portanto, explorando seus relacionamentos podemos desenvolver modelos melhores.

Cap Itulo 2 Infer Encia em Cadeias de Markov: 2.1 Estima C Ao Da Matriz de Transi C Ao

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Cap Itulo 2 Infer Encia em Cadeias de Markov: 2.1 Estima C Ao Da Matriz de Transi C Ao

Enviado por

Direitos autorais:

Formatos disponíveis

Capı́tulo 2

Inferência em Cadeias de Markov

2.1 Estimação da matriz de transição

π(x0 )px0 ,x1 · · · pxn−1 ,xn ·

nx,· − n·,y = 1 x (x0 ) − 1 x (xn )

Teorema 2.1 (Fórmula de Whittle (Whittle, 1955))

nx,· − n·,y = 1x (u) − 1x (v),

onde Cv,u é o cofator (v, u) da matriz (nx,y )∗ de componentes

Demonstração : Billingsley (1961b). A demonstração é por indução. O resultado é fácil de estabelecer se

onde A é uma matriz r × r. Pela definição (2.3),

onde as linhas de A∗ somam zero. Por isso, |(nx,y )∗ | = |A∗ | = 0.

Podemos utilizar a seguinte função R para encontrarmos a matriz de contagens de transição

Vemos, da expressão em (2.3) que

> Whittle = function(M, u, v){

2.1.1 Intervalos de observação coincidentes

onde nx,y denota o número de transições observadas desde o estado x ao estado y.

Desta expressão obtemos que o logaritmo da função de verossimilhança é

a qual podemos maximizar

Assim, a menos que um denominador seja zero na equação acima

nx,y px,x = nx,x px,y ,

A questão agora é transformar as frequências observadas em probabilidades, para isso utilizamos o

onde Z ∼ N (0, Σ), Σ = (σx,y ), x, y ∈ S e

Demonstração : Consequência do Teorema Central do Limite (Anderson & Goodman, 1957).

O intervalos confidencial é de 95%, o qual verificamos digitando:

Tabela 2.1: Esquema de classificação da condição das pontes.

Tabela 2.2: Contagem original de transições do Exemplo 2.5.

Exemplo 2.5 (Inspeção de pontes)

> Estados = c("0", "1", "2", "3", "4", "5")

2.1.2 Intervalos de observação não coincidentes

Seis meses de contagem

Exemplo 2.6 (Estudo de coorte HIV )

a continuação nossa implementação no R do procedimento para encontrarmos a matriz de transição no

> csMc1 = L$vectors%*%diag((L$values)^(1/6))%*%solve(L$vectors)

resultado apresentado em (2.13).

Traduzindo estes resultados: a matriz de auto-valores é

2.2 Testes para verificar a ordem da cadeia

P (Xn+1 |Xn , Xn−1 , · · · ) = P (Xn+1 |Xn , · · · , Xn−k+1 ), ∀k < n· (2.14)

• Probabilidades do DJIA movendo-se para cima ou para baixo.

• Probabilidades do DJIA movendo-se entre as partições de os possı́veis ganhos e perdas.

2.2.1 Testes aproximado

Dow Jones Industrial Average em USD

ou pela fórmula de Bayes

P (Xn+1 = x, Xn = y)P (Xn = y, Xn−1 = z)

A expressão a esquerda em (2.16) multiplicada por N − 2, sendo N a quantidade de observações na

a qual é uma medida do desvio da contagem observada do esperado. A vantagem da estatı́stica χ2 é

comprimento correspondente às m contagens de sequências. Levando em consideração as dependências

Estado 1: O valor de fechamento é inferior ao valor de fechamento do dia anterior.

Estado 2: O valor de fechamento é maior ou igual ao valor de fechamento do dia anterior.

Como resposta a matriz de probabilidades de transição estimada é

isto obtido da seguinte lista de comandos R:

2.2.2 Teste exato

> createSequenceMatrix(Estados, sanitize=FALSE)

a partir do qual temos como definir as seguintes categorias:

Estado 2: Salto moderado para cima, ganho entre 33.75 e 85.24.

Estado 3: Salto pequeno para cima, ganho menor do que 33.75.

Estado 4: Salto pequeno para baixo, perda até -5.82.

Estado 5: Salto moderado para baixo, perda entre -5.82 e -40.75.

Estado 6: Salto alto para baixo, perda maior que -40.75.

> createSequenceMatrix(NEstados, sanitize=FALSE)

> NmcFitMLE = markovchainFit(data=NEstados)

Tabela 2.5: Contagem de transições do Exemplo 2.5.

2.3 Teste de hipóteses sobre probabilidades especı́ficas

2.4 Cadeias de Markov multivariadas

> csMc1 = L$vectors%%diag((L$values)^(1/6))%%solve(L$vectors)