Você está na página 1de 28

Capı́tulo 2

Inferência em Cadeias de Markov

Uma Cadeia de Markov é por vezes um modelo probabilı́stico adequado para determinada série temporal
em que a observação em um determinado momento é uma categoria à qual um indivı́duo corresponde.
A mais simples Cadeia de Markov é aquela na qual existe um número finito de estados ou categorias, um
número finito de pontos no tempo equidistantes em que são feitas as observações, a cadeia é de primeira
ordem e as probabilidades de transição são as mesmas para cada intervalo de tempo. Estas foram as
cadeias que estudamos no Capı́tulo 1.
Vamos considerar aqui vários métodos para obter estimadores da matriz de probabilidades transição
em três situações: quando o comprimento do intervalo entre os pontos de tempo do modelo coincide
com o intervalo de observação, quando a duração do deste comprimento do intervalo entre os pontos de
tempo não coincide com o intervalo de observação e quando os intervalos de observação são desiguais em
comprimento. Além disso, discutimos o uso da técnica de bootstraps como um método para avaliar a
incerteza nas estimações e para a construção de intervalos de confiança da matriz de transição. Também
estudaremos como verificar a ordem de uma Cadeia de Markov.
Depois apresentamos testes para verificar a ordem da cadeia. Diferentes livros e artigos foram consul-
tados para escrever este texto, alguns importantes são Jacobsen (1982), Billingsley (1961a), Billingsley
(1961b) e Basawa & Prakasa Rao (1980). Outras referências serão também mencionados no texto.

2.1 Estimação da matriz de transição


Seja {X1 , X2 , · · · } um processo estocástico ou um asequência de variáveis aleatórias assumindo valores
em algum conjunto finito chamado aqui de espaço de estados S. A variável Xn deve ser considerada
como estado no tempo n de um sistema cuja evolução é regida por um conjunto de leis de probabilidade.
A tı́pica Cadeia de Markov a tempo discreto limita a descrição do histórico de cada sujeito a pontos
de tempo com igualdade espaçdos. Em outras palavras, em vez de modelar a possibilidade de progressão
a cada instante no tempo, ou seja, dia, mês ou ano. O intervalo entre esses pontos de tempo é conhecido
como o comprimento do ciclo.
Nesta seção, presume-se que a matriz de transição vai ser estimada a partir de dados de coorte
longitudinais, com intervalos de observação comuns a todos os sujeitos. A atenção é restrita a obtenção
da estimativa de máxima verossimilhança da matriz de transição em três situações especı́ficos crescentes
de complexidade. O primeiro caso é quando os intervalos de observação são constantes e coincidem com
a duração do ciclo. O segundo caso acontece quando os intervalos de observação são constantes, mas
não coincidem com a duração do ciclo. Os métodos discutidos na presente seção somente podem ser
utilizados em certas situações. Quando não puder, o método discutido para o terceiro caso é possı́vel.
O terceiro caso, representa a situação mais comum, quando os intervalos de observação não são iguais
em comprimento. A duração do ciclo pode ou não coincidir com um destes intervalos.

95
96 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV

Vamos considerar {x0 , x2 , · · · , xn } uma amostra de uma Cadeia de Markov com probabilidades de
transição px,y e distribuição inicial π0 . Observe que {x0 , x1 , · · · , xn } deve ser uma sequência de n + 1
estados. Então, a probabilidade de que x0 , x1 , · · · , xn seja essa sequência é justamente

π(x0 )px0 ,x1 · · · pxn−1 ,xn ·

Para x, y = 1, 2, · · · , d, seja nx,y o número de transições, assim a matriz (nx,y ) vai ser chamada de
matriz de contagens de transições da sequência. Dado que

π(x0 )px0 ,x1 · · · pxn−1 ,xn = π(x0 ) pnx,y
x,y
, (2.1)
x,y

a contagem das transições junto com o estado inicial formam uma estatı́stica suficiente. A distribuição
dessa estatı́stica vai ser nosso objetivo.
Sabemos que a probabilidade de obtiver uma sequência em particular, que começe com com x0 e
tenha matriz de transição (nx,y ) é dada por (2.1) e, com o objetivo de encontrarmos a ∑ distribuição da
estatı́stica
∑ suficiente é necessário somente contar o número de tais sequências. Se n x,· = y nx,y e n·,y =
x nx,y então {nx,· } e {n·,y } são as frequências das contagens de {x0 , x1 , · · · , xn−1 } e {x1 , x2 , · · · , xn }
respectivamente. Disso seque que

nx,· − n·,y = 1 x (x0 ) − 1 x (xn )


∑ ∑ ∑
nx,y = nx,· = n·,y = n·
x,y x y

É claro a partir da primeira dessas relações que (nx,y ) e o estado inicial determinam completamente
o estado final. Da mesma forma, (nx,y ) e o estado do final determinam o estado inicial. No entanto,
(nx,y ) sozinho não determina os estados inicial e final: por exemplo, as sequências {1, 2, 1} e {2, 1, 2}
têm contagens de transição idênticas. A resposta a este problema combinatório é a seguinte.

Teorema 2.1 (Fórmula de Whittle (Whittle, 1955))



Seja (nx,y ) uma matriz d × d de inteiros não negativos satisfazendo que xy nxy = n e tais que

nx,· − n·,y = 1x (u) − 1x (v),


(n)
x, y = 1, · · · , d para algum par u, v. Se Nu,v (nx,y ) é o número de sequências {x0 , x1 , · · · , xn } tendo
contagens de transição (nx,y ) e satisfazendo x0 = u e xn = v, então

nx· !
(n)
Nu,v (nx,y ) = ∏
x
Cv,u , (2.2)
nx,y !
x,y

onde Cv,u é o cofator (v, u) da matriz (nx,y )∗ de componentes



 1 x (y) − nx,y se nx,· > 0
n∗x,y = nx,· · (2.3)
 1 (y) se n = 0
x x,·
2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 97

Demonstração : Billingsley (1961b). A demonstração é por indução. O resultado é fácil de estabelecer se


n = 1, caso em que ambos os lados de (2.2) são 1. Se (nu,v ) é (nx,y ) com a (u, v) entrada diminuı́da em
1, temos que ∑
(n) (n−1)
Nu,v (nx,y ) = Nw,v (nu,w ),
w

onde a soma se estende sobre aqueles w para so quais nu,w > 0. Por isso, basta mostrar que o lado
direito de (2.2) satisfaz esta mesma relação ou que

(nx,y )∗ = nu,w n−1 ∗
u,· (nv,w ) (u, w)· (2.4)
w

Desde que (nv,w )∗ e (nx,y )∗ concordem fora da w-ésima coluna, (nv,w∑ )∗ (u, w) = (nv,w )∗ . Com este fato,
juntamente com a definição (2.3), segue que
∑ (2.4) é equivalente a w n∗u,w (nv,w )∗ = 0 onde a soma
∗ ∗ ∗
se estende sobre todos os w. Dado que w nu,w (nv,w ) = 1 u (v)|(nx,y ) |, a expressão em (2.4) vale

para o caso no qual u ̸= v e é necessário somente mostrar que |(nx,y ) | = 0 caso u = v. Suponhamos
convenientemente que nx,· = n·,x é positivo para x ≤ r e zero para x > r. Então (nx,y ) tem a forma
( )
A 0
(nx,y ) = ,
0 0

onde A é uma matriz r × r. Pela definição (2.3),


( ∗ )
∗ A 0
(nx,y ) = ,
0 I

onde as linhas de A∗ somam zero. Por isso, |(nx,y )∗ | = |A∗ | = 0.

Exemplo 2.1
Seja, por exemplo, a sequência de 12 valores observados {0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1}. Esta sequência
tem u = 0 e v = 1 e matriz de contagens de transição
( )
1 4
(nx,y ) = · (2.5)
3 3

Podemos utilizar a seguinte função R para encontrarmos a matriz de contagens de transição

> x = c(0,1,1,0,1,0,1,1,1,0,0,1)
> library(markovchain); library(matlab); library(matlib)
> Matriz = createSequenceMatrix(x, sanitize=FALSE)
> Matriz
0 1
0 1 4
1 3 3

Vemos, da expressão em (2.3) que


 4 4

 5
n∗x,y =  5  (2.6)
1 1

2 2
e C0,1 = 4/5. Substituindo em (2.2) temos que

(12) 5! · 6! 4
N0,1 (nx,y ) = · = 80· (2.7)
1! · 3! · 3! · 4! 5
98 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV

Logo, 80 é o número de sequências {0, x1 , · · · , x10 , 1} tendo contagens de transição (nx,y ), dada em
(2.5). Desenvolvemos uma função R para encontrarmos o número de sequências {x0 , x1 , · · · , xn }
tendo contagens de transição (nx,y ) e satisfazendo x0 = u e xn = v:

> Whittle = function(M, u, v){


n = length(rowSums(M))
Prod1 = 1;
for(i in 1:n) Prod1 = Prod1*gamma(rowSums(M)[[i]]+1)
Prod2 = 1;
for(i in 1:dim(M)[1]){
for(k in 1:dim(M)[2]) Prod2 = Prod2*gamma(M[i,k]+1)
}
u = which(row.names(M) == u)
v = which(row.names(M) == v)
C = cofactor(eye(n)-M/rowSums(M), v, u)
return((Prod1/Prod2)*C)
}
> Whittle(Matriz, 0, 1)
[1] 80

2.1.1 Intervalos de observação coincidentes


Suponhamos que nos seja dado a realização de uma Cadeia de Markov e que se deseja estimar a matriz
de probabilidades de transição. Uma abordagem é encontrar as contagens de transição e estimar as
probabilidades de transição de uma forma óbvia.
Exemplo 2.2 (Cadeia com três estados)
Este é uma situação hipotética. Consideremos uma Cadeia de Markov com três estados da qual é
observada a sequência:

2332111112213132332122223232332222213132332212213232132232
3132332223213232331232223232331222123232132123233132332121

Por simples contagem, segue-se que, a matriz do número de transição entre os estados é
 
4 8 10
(nx,y ) = 13 17 22 ,
6 26 9

onde nx,y denota o número de transições observadas desde o estado x ao estado y.


Uma vez que o número de transições do estado 2 para o estado 3 é 22 e o número total de
transições do estado 2 é 13 + 17 + 22, uma estimativa empı́rica de pb2,3 é 22/52. Uma estimativa
empı́rica para a matriz de transição seria então
4 8 10 
 22 22 22 
 
b=
P 
13 17 22 
·
 52 52 52 
 
6 26 9
41 41 41
2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 99

Vamos agora mostrar que este é, de fato, a estimativa de máxima verossimilhança condicional de P,
condicionada à primeira observação. Suponhamos, então, que nós queremos estimar os d2 −d parâmetros
de uma Cadeia de Markov {Xn } com d estados a partir uma realização x0 , x1 , · · · , xT . A função de
verossimilhança condicional à primeira observação é


d ∏
d
L= pnx,y
x,y
· (2.8)
x=1 y=1

Desta expressão obtemos que o logaritmo da função de verossimilhança é


( d )
∑d ∑ ∑d
ℓ= nx,y log px,y = ℓx ,
x=1 y=1 x=1

a qual podemos maximizar


∑ maximizando cada somando separadamente.
Substituindo 1 − px,z por px,x , diferenciando cada ℓx com relaa̧ão à todas as probabilidades de
z̸=x
transição não diagonais px,y e igualando as derivadas a zero obtemos
−nx,x nx,y nx,x nx,y
0= ∑ + =− + ·
1− px,z px,y px,x px,y
z̸=x

Assim, a menos que um denominador seja zero na equação acima

nx,y px,x = nx,x px,y ,


d
e por isso px,x nx,y = nxx . Isto implica que o ponto de máximo local da função de verossimilhança
y=1
das probabilidades de transição é
nx,x nx,y
pbx,x = , e pbx,y = · (2.9)

d ∑
d
nx,y nx,y
y=1 y=1

e
nx,y
pbx,y = · (2.10)

d
nx,y
y=1

Também poderı́amos utilizar multiplicadores de Lagrange para expressar as restrições dy=1 px,y = 1,
sob as quais buscamos maximizar os termos ℓx e, portanto, a função de verossimilhança. Mas isso, não
é necessário em geral.
Exemplo 2.3 (Continuação do Exemplo 2.2)
Fazendo uso do pacote de funções markovchain, construı́mos a matriz de contagens de transição
utilizando o comando createSequenceMatrix, como mostrado a seguir:
> x = c(2,3,3,2,1,1,1,1,1,2,2,1,3,1,3,2,3,3,2,1,2,2,2,2,3,2,3,2,3,3,2,2,2,2,2,1,3,1,3,2,3,3,
2,2,1,2,2,1,3,2,3,2,1,3,2,2,3,2,3,1,3,2,3,3,2,2,2,3,2,1,3,2,3,2,3,3,1,2,3,2,2,2,3,2,
3,2,3,3,1,2,2,2,1,2,3,2,3,2,1,3,2,1,2,3,2,3,3,1,3,2,3,3,2,1,2,1)
> Matriz = createSequenceMatrix(x, sanitize=FALSE)
100 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV

> Matriz
1 2 3
1 4 8 10
2 13 17 22
3 6 26 9

Às vezes o número de Whittle é impraticável, como nesta situação. Utilizando a função anterior
obtemos que:

> Whittle(Matriz, u = 2, v = 1)
[1] 8.462769e+44

A questão agora é transformar as frequências observadas em probabilidades, para isso utilizamos o


comando markovchainFit do qual temos por resposta uma lista com diversas informações. A primeira
resposta é a matriz de probabilidades de transição estimada, a qual pode ser obtida também digitando
mcFitMLE[[1]].

> mcFitMLE[[1]]
MLE Fit
A 3 - dimensional discrete Markov Chain defined by the following states:
1, 2, 3
The transition matrix (by rows) is defined as follows:
1 2 3
1 0.1818182 0.3636364 0.4545455
2 0.2500000 0.3269231 0.4230769
3 0.1463415 0.6341463 0.2195122

Teorema 2.2
Seja {Xn } uma Cadeia de Markov ergódica. Então independentemente da distribuição inicial
√ D
px,y − px,y ) −→ Z,
nx,y (b (2.11)

onde Z ∼ N (0, Σ), Σ = (σx,y ), x, y ∈ S e



 px,y (1 − px,y ) caso {x, y} ̸= {z, w}
σx,y = −px,y px,z caso x = z, y ̸= w

0 caso contrário

Demonstração : Consequência do Teorema Central do Limite (Anderson & Goodman, 1957).

O resultado deste teorema implica que a covariância assintótica tem uma estrutura multinomial
dentro das linhas e independência entre as linhas. Como resposta temos também o desvio padrão da

estimação, calculado segundo a expressão em (2.11), como pbx,y / nx,y , assim como um intervalo de
confiança de 95%, os limites inferior e superior deste intervalo e o valor da funçõ de log-verossimilhança.
Exemplo 2.4 (Continuação do Exemplo 2.2)
Mostramos agora a forma de obtermos os resultados apresentados no Teorema 2.2. Todos os resul-
tados estão guardados no objeto mcFitMLE e para sabermos o valor do desvio padrão, por exemplo,
2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 101

digitamos:

> mcFitMLE$standardError
1 2 3
1 0.09090909 0.12856487 0.14373989
2 0.06933752 0.07929049 0.09020030
3 0.05974365 0.12436633 0.07317073

O intervalos confidencial é de 95%, o qual verificamos digitando:


> mcFitMLE$confidenceInterval$confidenceLevel
[1] 0.95

Então, por final, obtemos os limites inferior e superior do intervalos confidenciais como mostrado
abaixo. Ainda mostramos o valor da função ℓ, o logaritmo da função de verosimilhança.

> mcFitMLE$confidenceInterval$lowerEndpointMatrix
1 2 3
1 0.03228603 0.1521660 0.21811437
2 0.13594992 0.1965018 0.27471063
3 0.04807190 0.4295819 0.09915705
> mcFitMLE$confidenceInterval$upperEndpointMatrix
1 2 3
1 0.3313503 0.5751068 0.6909765
2 0.3640501 0.4573443 0.5714432
3 0.2446110 0.8387107 0.3398673
> mcFitMLE$logLikelihood
[1] -115.7695

O nosso próximo exemplo é uma aplicação de Cadeia de Markov em engenharia, tem a ver com pontes
e baseia-se no trabalho de Skuriat-Olechnowska (2005). A maioria das pontes na Holanda é construı́da
em concreto e mais de metade delas tem mais de 30 anos. À medida que as pontes se deterioram a uma
velocidade acelerada devido à corrosão, à degradação do concreto e ao dano do veı́culo a Divisão de
Engenharia Civil de Rijkswaterstaat1 , que faz parte do Ministério dos Transportes, das Obras Públicas
e da Gestão da Àgua deve repará-las e, sempre que possı́vel, impedem uma maior deterioração.
O referido ministério é o principal encarregado por de cerca de 3500 pontes na Holanda por isso
o ministério gosta de conhecer a vida útil restante de suas estruturas já que é sabido que durante a
vida útil, as estruturas precisarão ser reparadas. Neste momento, uma estratégia de reparo baseada em
inspeções é usada para determinar quando o reparo será feito. Esta estratégia de reparo para pontes de
concreto na Holanda resulta em reparação de pontes a cada 25 até 35 anos. O reparo será normalmente
de 0.5% até 155% da área da estrutura (van Beek et al., 2003).
Estes dados contém informações sobre os estados em que a estrutura de pontes encontraram-se
durante as inspeções, ou seja, contém um histórico de inspeção e no ano de construção.

Estado Perfeito Muito bom Bom Razoável Medı́ocre Mau Muito mal
Classificação 0 1 2 3 4 5 6

Tabela 2.1: Esquema de classificação da condição das pontes.

Para o gerenciamento das informaçõs utilizam-se diversos sistemas, dois deles: PONTIS e BRIDGIT
são dois dos Sistemas de Gerenciamento de Ponte mais comuns atualmente disponı́veis (Golabi e Shepard,
1
A Rijkswaterstaat é responsável pela concepção, construção, gestão e manutenção das principais infra-estruturas da
Holanda. Isso inclui a rede rodoviária principal, a rede de hidrovia principal e os sistemas de águas.
102 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV

1997; Thompson et al., 1998). Ambos têm suas origens no Arizona Pavement Management System
desenvolvido no final da década de 1970 e são quase exclusivamente utilizados nos Estados Unidos.
Todos esses modelos usam Cadeias de Markov para modelar a deterioração incerta das pontes ao longo
do tempo. Nos Paı́ses Baixos, os resultados das inspeções de ponte são registrados em um banco de
dados, que é usado principalmente para manutenção de registros. Esta base de dados é uma fonte muito
rica de informações, contém dados coletados ao longo de quase 20 anos, e a finalidade da pesquisa atual
é usar esses dados para estimar a taxa de deterioração.

Para
0 1 2 3 4 5 6
0 520 134 327 111 36 7 0
1 270 128 222 97 36 7 0
2 284 101 368 193 61 9 5
3 94 33 119 131 42 3 1
De
4 16 14 42 50 17 7 0
5 7 3 4 4 3 0 1
6 1 1 0 3 1 0 0

Tabela 2.2: Contagem original de transições do Exemplo 2.5.

Reconhecendo que as Cadeias de Markov são uma ferramenta adequada para modelagem de deteri-
oração de pontes propomos técnicas adequadas que levem em consideração o tipo especial de censura
envolvendo inspeções de pontes. Além disso, gostarı́amos de ter testes estatı́sticos à nossa disposição
para avaliar a validade e o desempenho relativo de diferentes tipos de Cadeias de Markov. Essenci-
almente, estamos interessados em obter a funcionalidade de um sistema de gerenciamento de ponte
como PONTIS, ao mesmo tempo em que cuidamos especialmente a validade de nossos pressupostos e
os modelos resultantes em relação à situação nos Paı́ses Baixos.
Definida a codificação dos estados que vamos utilizar na Tabela 2.1, classificando o estado de con-
servação das pontes inspecionadas procedemos à estimação da matriz de probabilidades de transição
desta cadeia. A Tabela 2.2 mostra a contagem das transições de cada estado para qualquer outro
estado.

Para
0 1 2 3 4 5
0 520 134 327 111 36 7
1 270 128 222 97 36 7
2 284 101 368 193 61 14
3 94 33 119 131 42 4
De
4 16 14 42 50 17 7
5 8 4 4 7 4 1

Tabela 2.3: Contagem de transições do Exemplo 2.5, combinando os dois últimos estados da Tabela 2.2.

Nós vemos que a informação, que vem de dados de deterioração, é bastante subjetiva. Vemos a
classificação da condição que varia de um perfeito (estado 0) para um muito ruim (estado 6) através da
definição de estados. Interessante observar que pontes em estados mau e muito mal raramente acontecem,
por causa disso procedeu-se à junção destes estados e codificou-se como 5. O resultado apresenta-se na
Tabela 2.3. Os dados provêm da Divisão de Engenharia Civil do Ministério dos Transportes, Obras
Públicas e Gestão da Àgua na Holanda.
2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 103

Exemplo 2.5 (Inspeção de pontes)


O banco de dados inclui um total de 5986 eventos de inspeção registrados para 2473 superestruturas
individuais. Ignorando o tempo entre a construção da ponte e uma primeira inspeção, há 3513
transições registradas entre estados de condição. Pela Tabela 2.2 podemos observar que os estados
5 e 6 raramente ocorrem no banco de dados. Para determinar uma matriz de probabilidade de
transição, esses estados são combinados no estado 5 para representar uma condição ”ruim”e ”muito
ruim”, caso contrário, algumas probabilidades de transição podem ser zero. Obtemos como resposta
a matriz de probabilidades de transição estimada a seguir:

0 1 2 3 4 5
 
0 0.4581 0.1181 0.2881 0.0978 0.0317 0.0062
1 0.3553 0.1684 0.2921 0.1276 0.0474 0.0092 

 0.0138 
b =  0.2782
P
2 0.0989 0.3604 0.1890 0.0597 ·
3 0.2222 0.0780 0.2813 0.3097 0.0993 0.0095 

4 0.1096 0.0959 0.2877 0.3425 0.1164 0.0479 
5 0.2857 0.1429 0.1429 0.2500 0.1429 0.0356

Foi realizada uma análise sobre modelagem de deterioração de pontes mas os dados foram coleta-
dos, no banco de dados denominado DISK e fornecidos pelo Divisão de Engenharia do Rijkswaters-
taat, continham um número limitado de estados de condição das pontes, decidimos usar Cadeia de
Markov para modelar a deterioração. O modelo de deterioração de Markov é baseado em condições.
Por isso, é flexı́vel na adaptação aos dados de inspeção (visual). Infelizmente, não pudemos observar
o tempo exato das transições. Assim, adaptamos uma Cadeia de Markov com censura de intervalo.
Censura de intervalo significa que não sabemos a hora exata de um evento. Em nosso contexto, isso
significa que não sabemos a hora em que a ponte se move de um estado para outro. Uma probabili-
dade de transição foi definida como a probabilidade de uma ponte passar de um estado para outro
(igual ou pior). Assumimos que nenhuma manutenção foi realizada entre as inspeções.
Com o auxilio dos seguintes comandos investigamos o comportamento futuro desta cadeia:

> Estados = c("0", "1", "2", "3", "4", "5")


> Pontes = matrix(c(520, 134, 327, 111, 36, 7,
270, 128, 222, 97, 36, 7,
284, 101, 368, 193, 61, 14,
94, 33, 119, 131, 42, 4,
16, 14, 42, 50, 17, 7,
8, 4, 4, 7, 4, 1),
nrow = 6, ncol = 6, byrow = TRUE, dimnames = list(Estados, Estados))
> Pontes = as(as.table(Pontes), "markovchain")
> Pontes
Unnamed Markov chain
A 6 - dimensional discrete Markov Chain defined by the following states:
0, 1, 2, 3, 4, 5
The transition matrix (by rows) is defined as follows:
0 1 2 3 4 5
0 0.4581498 0.11806167 0.2881057 0.09779736 0.03171806 0.006167401
1 0.3552632 0.16842105 0.2921053 0.12763158 0.04736842 0.009210526
2 0.2781587 0.09892262 0.3604310 0.18903036 0.05974535 0.013712047
3 0.2222222 0.07801418 0.2813239 0.30969267 0.09929078 0.009456265
4 0.1095890 0.09589041 0.2876712 0.34246575 0.11643836 0.047945205
5 0.2857143 0.14285714 0.1428571 0.25000000 0.14285714 0.035714286

> steadyStates(Pontes)
0 1 2 3 4 5
[1,] 0.3243988 0.1092058 0.3077224 0.1852073 0.06111703 0.01234871
104 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV

Temos por resposta que 32,4% das pontes inspecionadas corresponderão a pontes em perfeito
estado, 10,9% corresponderá a pontes em estado muito bom, 30,8% permanecerá em estado bom,
18,6% das pontes corresponderão á pontes em estado de conservação razoável, 6,1% estarão em
estado medı́ocre na próxima avaliação enquanto 1,2% delas estarão em estado mau ou muito mal.

2.1.2 Intervalos de observação não coincidentes


Consideremos a situação na qual L0 seja o intervalo de observação, porém o desejado é que seja Ld a
duração do ciclo desejado. O estimador de máxima verossimilhança da matriz de transição de probabili-
dades é Pb0 , associada com o comprimento do ciclo de observação L0 , a qual é obtida usando os métodos
apresentados na Seção 2.1.1.
Pela propriedade de invariância, o estimador de máxima verossimilhança da matriz de transição
associado com a duração do ciclo Ld é
Pbd = Pbt , (2.12)
onde t = Ld /L0 .
No exemplo anterior, se em vez de observarmos por um perı́odo de um ano tivesse sido o perı́odo
de observaa̧ão de dois anos: L0 = 2 e Ld = 1. Então, pode-se encontrar a raiz quadrada da matriz de
transição estimada, devido a que t = 1/2.
b0 em seus valores e vectores
O cálculo da matriz em (2.12) é simples a partir da decomposição de P
próprios, chamada de decomposição espectral. Com base nesta decomposição, esta matriz pode ser
escrita como
Pb0 = V ΛV −1 ,

onde  
λ1 0 · · · 0
 0 λ2 · · · 0 
 
Λ =  .. .. .. .. 
. . . . 
0 0 · · · λN
é a matriz de auto-valores e V a matriz de auto-vetores correspondentes. Segue então que

b0t = V Λt V −1 ,
P

onde  
λt1 0 · · · 0
 0 λt · · · 0 
 2 
Λ =  .. ..  ·
t
.. ..
. . . . 
0 0 · · · λtN
Os autovalores são transformados segundo o valor da potência t, mas os autovetores não mudam.
Temos diversas opções disponı́veis de funções de decomposição de matrizes, de forma que estes cálculos
podem ser feitos muito rapidamente, por exemplo, no R a função básica eigen permite realizar estes
cálculos.
Um modelo a tempo discreto não é necessariamente Markov em todos os ciclos. Isto é comparável a
dizer que alguns dos valores próprios da matriz de transição podem ser negativos. Desde que a matriz
de transição estimada Pb seja semidefinida positiva, todos os valores próprios serão não-negativos, este
método permitirá calcular o estimador de máxima verossimilhança diretamente.
O procedimento apresentado aqui não é único na literatura especializada, porém o consideramos de
fácil implementação. Um outro procedimento pode ser consultado em Miller & Homan (1994).
2.1. ESTIMAÇÃO DA MATRIZ DE TRANSIÇÃO 105

Vejamos o exemplo a seguir o qual é um estudo de coorte sobre o HIV2 . Os pesquisadores construı́ram
uma Cadeia de Markov estacionária para descrever a progressão mensal de indivı́duos infectados por
HIV em maior risco de desenvolver infecção por Complexo Mycobacterium avium3 . Esta progressão
incluı́a a possibilidade de movimento entre três faixas de contagem de células CD4 distintas, com e sem
AIDS.

Seis meses de contagem


Contagem inicial de células CD4
de células CD4 0 - 49 50 - 74 75+

0 - 49 682 33 25
50 - 74 154 64 47
75+ 19 19 43

Tabela 2.4: Transições observadas em seis meses na contagem de células CD4 (1993-1995). Estudo
realizado na Suiça com pacientes infectados pelo HIV.

Exemplo 2.6 (Estudo de coorte HIV )


Dados coletados num estudo multicêntrico onde os pacientes infectados pelo HIV têm visitas de
acompanhamento bastante regulares, a cada seis meses. Os dados estão disponı́veis no arquivo de
dados craigsendi, pacote markovchain, e mostrados na Tabela 2.4.

> data(craigsendi)
> csMc = as(craigsendi, "markovchain")
> csMc
Unnamed Markov chain
A 3 - dimensional discrete Markov Chain defined by the following states:
0-49, 50-74, 75-UP
The transition matrix (by rows) is defined as follows:
0-49 50-74 75-UP
0-49 0.9216216 0.04459459 0.03378378
50-74 0.5811321 0.24150943 0.17735849
75-UP 0.2345679 0.23456790 0.53086420

Estes resultados significam que a matriz de probabilidades de transição estimada em seis meses é

0 − 49 50 − 74 75+
 
0 − 49 0.9216 0.0446 0.0338
b6 = 50 − 74 0.5811 0.2415 0.1774 ·
P
75+ 0.2346 0.2346 0.5309

Devemos mencionar que os dados apresentados na Tabela 2.4 constituem a contagem das transições
observadas mas, uma vez convertidos em Cadeia de Markov temos as probabilidades estimadas de
transição, como foi realizado no Exemplo 2.5.
A apresentação do Exemplo 2.6 permite-nos a leitura dos dados na referência mencionada antes e
guardados no arquivo craigsendi. Esclarecemos novamente que os dados originais foram observados num
perı́odo de seis meses, o qual nõ é o desejado no estudo, queremos o comportamento mensal. Mostramos
2
Sendi, P.P., Craig, B.A., Pfluger, D., Gafni, A. and Bucher, H.C.. Systematic validation of disease models for
pharmacoeconomic evaluations. Journal of Evaluation in Clinical Practice. 1999; Volume 5; pp. 283-295.
3
O Complexo Mycobacterium avium é um grupo de bactérias que pode ser encontrado normalmente na rede hidráulica
das cidades e em pessoas com imunossupressão, como portadores do HIV/AIDS.
106 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV

a continuação nossa implementação no R do procedimento para encontrarmos a matriz de transição no


ciclo desejado. Observe que, em nossa implementação no seguinte exemplo, todos oa auto-valores foram
positivos.
Exemplo 2.7 (Continuação do Exemplo 2.6)
Para esta análise, a duração do ciclo desejado é de um mês. Para estimar a matriz de transição para
esse intervalo, vamos decompor P b6 . Utilizando a função R eigen obtemos

> L = eigen(csMc@transitionMatrix)
> L
eigen() decomposition
$values
[1] 1.0000000 0.5701572 0.1238380

$vectors
[,1] [,2] [,3]
[1,] -0.5773503 -0.1276431 0.02818224
[2,] -0.5773503 0.2866930 -0.87301666
[3,] -0.5773503 0.9494811 0.48687542

Agora vamos transformar esta matriz à situação procurada, ou seja, numa transição mensal.

> csMc1 = L$vectors%*%diag((L$values)^(1/6))%*%solve(L$vectors)


> csMc1 = new("markovchain", byrow=T, transitionMatrix=csMc1)

resultado apresentado em (2.13).

Traduzindo estes resultados: a matriz de auto-valores é


 
1.000000 0 0
Λ= 0 0.5701572 0 
0 0 0.123838
 
−0.5773503 −0.1276876 0.02817213
e a matriz de auto-vetores correspondente é V = −0.5773503 0.2867671 −0.87297660.
−0.5773503 0.9494527 0.48694783
Como mencionado o ciclo observado foi de 6 meses, mas o ciclo desejado é de um mês. Para isso
tomamos a raiz sexta de Λ e fazendo os cálculos sugeridos (2.12) obtemos que a matriz de transição
estimada de um mês é  
0.9819 0.0122 0.0059
b = 0.1766 0.7517 0.0717 ·
P (2.13)
0.0177 0.0933 0.8830
b6 como esperado. Observe que
Se esta matriz fosse multiplicada seis vezes o resultado será a matriz P
este processo é muito rápido e simples. Neste exemplo, a matriz sugere que haverá demasiados pacientes
no estado 0-49 após seis ciclos.
Podemos agora, inclusive, identificarmos a distribuição estacionária, para isso fazemos:
> steadyStates(csMc1)
1 2 3
[1,] 0.8343668 0.07659214 0.08904103

Significa que, a longo prazo, 83,4% indivı́duos infectados por HIV mantem-se na faixa 0-49 de
contagem de células CD4, 7,7% apresentam contagem na faixa 50-74 em 8,9% dos casos a contagem é
75 ou mais.
2.2. TESTES PARA VERIFICAR A ORDEM DA CADEIA 107

2.2 Testes para verificar a ordem da cadeia


Muitas vezes acontece que é útil descrever um processo estocástico como um conjunto de estados discretos
com transições probabilı́sticas e exemplos abundam em vários campos, como o estudo de processos
quı́micos, sequências de DNA, finanças dentre outros. Se a probabilidade de transição para o próximo
estado é condicionada apenas no estado atual, chamamos este modelo de uma Cadeia de Markov, e
quando as probabilidades condicionais não são dadas de outra forma, elas são estimadas a partir de uma
série temporal de observações. Mas, e caso a probabilidade de transição para o próximo estado seja
condicionada não somente no estado atual? em tais situações surgem novos questionamentos.
Se a ordem da Cadeia de Markov estiver em questão o primeiro é respondermos: o que é ordem de
uma Cadeia de Markov?

Definição 2.1
Uma sequência de observações {Xn }n≥1 formam uma Cadeia de Markov de ordem k se a probabilidade
condicional satisfaz

P (Xn+1 |Xn , Xn−1 , · · · ) = P (Xn+1 |Xn , · · · , Xn−k+1 ), ∀k < n· (2.14)

As cadeias de Markov consideradas no Capı́tulo 1 são cadeias de ordem um, ou seja, k = 1. Isso
significa, como sabemos, que as probabilidades de transição para um estado futuro dependem apenas
do estado atual e não de estados anteriores. Um processo de ordem k pode sempre ser lançado como de
primeira ordem agrupando estados. Um processo que não tenha dependência do passado ou presente,
como variáveis aleatórias independentes, é dito ser uma Cadeia de Markov de ordem zero. Por outro
lado, como deve ser facilmente percebido cadeias de ordens superiores, ou seja, cadeias de segunda ordem
ou superiores implicam numa representação mais complicada.
Considere primeiro uma Cadeia de Markov de segunda ordem. Dado que um indivı́duo está no estado
z no instante n − 2 e em y no instante n − 1, seja pzyx a probabilidade de estar o indivı́duo no estado
x no instante n. Uma cadeia estacionária de primeiro ordem é uma cadeia especial de segunda ordem,
na qual pzyz não depende de z. Para vermos isso, considere o par de estados sucessivos z e y definir
um estado composto (z, y). A probabilidade do estado composto (y, x) no instante n dado o estado
composto (z, y) no instante n − 1 é pzyx . Vejamos isso. (
Sabemos
) que P (Xn = x|Xn−1 = y, Xn−2 = z) = pzyx e queremos verificar se P Xn = (y, x)|Xn−1 =
(z, y) = pzyx . Logo
( )
P Xn = (y, x)|Xn−1 = (z, y) = pzyx
( ) ( ) (2.15)
P Xn = (y, x)|Xn−1 = y, Xn−2 = z = P Xn = x, Xn−1 = y|Xn−1 = y, Xn−2 = z = pzyx ·

Claro que, a probabilidade do estado (w, x), w ̸= y, dado (x, y), é zero. Os estados compostos
podem ser encontrados para formar uma cadeia com d2 estados (d é o número de estados) e com certas
probabilidades de transição 0. Esta repressentação nos ajudará na descrição dos testes de verificação da
ordem de uma cadeia a serem descritos aqui.
Verificarmos a ordem de uma Cadeia de Markov poderá ser realizado de diversas maneiras, mas aqui
consideraremos duas delas. O primeiro teste, conhecido como teste aproximado, descrito na Subseção
2.2.1 é baseado na estatı́stica χ2 por outro lado, um segundo teste descrito na Subseção 2.2.2 é conhecido
como teste exato. Devemos mencionar novamente que muitos dos resultados apresentados aqui foram
resumidos no artigo de Anderson & Goodman (1957).
108 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV

Exemplificaremos a teoria a ser apresentada neste seção com o seguinte exemplo, inspirado no tra-
balho de Doubleday & Esunge (2011). A ideia é usar Cadeias de Markov para prever o comportamento
dos preços das ações utilizando o ı́ndice Dow Jones Industrial Average (DJIA)4 .
Exemplo 2.8 (Tendência de mercado financeiro)
A modelagem do ı́ndice Dow Jones Industrial Average ou DJIA é frequentemente utilizada para de-
terminar estratégias de negociação com o máximo de recompensa. As mudanças no comportamento
do DJIA são importantes, pois os movimentos podem afetar profundamente as escolhas dos investi-
dores, sejam estes indivı́duos ou corporações. O objetivo neste exemplo é mostrar como analisar o
DJIA usando um modelo estocástico de tempo discreto, ou seja, uma Cadeia de Markov. Dois mo-
delos foram destacados, onde o DJIA foi considerado como sendo em (1) ganho ou perda e (2) ganho
ou perda pequeno, moderado ou grande. Esses modelos foram usados para obter probabilidades de
transição e a distribuição estacionária.
Os preços de fechamento do mercado são considerados para que a análise possa ser feita de forma
discreta e as probabilidades de transição são utilizadas como partes de Cadeias de Markov para
modelar o mercado. Dada esta formulação de uma matriz de transição e seu estado estacionário,
podemos configurar um sistema de classificação do Dow Jones Industrial Average (DJIA). A idéia
de usar Cadeias de Markov para prever o comportamento dos preços das ações é popular, pois
os investidores potenciais estão interessados nas tendências do mercado, o que pode levar a uma
estratégia de investimento ideal. Para este estudo, serão analisadas duas estratégias, a saber:

• Probabilidades do DJIA movendo-se para cima ou para baixo.

• Probabilidades do DJIA movendo-se entre as partições de os possı́veis ganhos e perdas.

Os valores de fechamento do DJIA foram reunidos para os 252 dias de negociação entre 27 de
dezembro de 2016 e 26 de dezembro de 2017. Os dados, apresentados na Figura 2.1, foram obtidos de
Yahoo! Finance em https://finance.yahoo.com/quote/%5EDJI/history. Questões em aberto: como
vamos construir uma Cadeia de Markov a partir dos dados relatados? Qual a ordem desta cadeia?

2.2.1 Testes aproximado


Para realizar um teste e verificar, como hipótese nula, se a cadeia é de k-ésima ordem é necessário
calcular a distribuição de uma estatı́stica de ordem superior adequada. Se a estatı́stica de ordem
superior observada for suficientemente improvável, a hipóteses nula é rejeitada. A probabilidade, dada
a hipóteses nula, da estatı́stica de teste alcançando o valor observado ou um mais extremo é referida
como p-valor. Tipicamente, um p-valor menor ou igual a 0.05 é tomado como motivo para rejeitar a
hipótese nula. Em diversos trabalhos como, por exemplo, em Anderson & Goodman (1957) os autores
descrevem o teste aproximado amplamente utilizado com este objetivo.
Vamos começar com a suposição de que {Xn } é uma sequência observada de uma Cadeia de Markov
de primeira ordem (k = 1) e calculamos o p-valor de uma estatı́stica de segunda ordem usando a
distribuição χ2 . A distribuição nula é
P (Xn+1 = x|Xn = y, Xn−1 = z) = P (Xn+1 = x|Xn = y)
4
Dow Jones Industrial Average é um ı́ndice criado em 1896 por Charles Dow, editor do The Wall Street Journal e
fundador do Dow Jones & Company. O DJIA é ao lado do Nasdaq Composite e do Standard & Poorś 500 um dos
principais indicadores dos movimentos do mercado americano. Dos três indicadores, DJIA é o mais largamente publicado
e discutido. O cálculo deste ı́ndice é bastante simples e baseia-se na cotação das ações de 30 das maiores e mais importantes
empresas dos Estados Unidos. Como o ı́ndice não é calculado pela Bolsa de Valores de Nova Iorque, seus componentes
são escolhidos pelos editores do jornal financeiro norte-americano The Wall Street Journal. Não existindo nenhum critério
pré-determinado a não ser que os componentes sejam companhias norte-americanas lı́deres em seus segmentos de mercado.
2.2. TESTES PARA VERIFICAR A ORDEM DA CADEIA 109

25000

Dow Jones Industrial Average em USD


24000

23000

22000

21000

20000

jan 2017 abr 2017 jul 2017 out 2017 jan 2018

Figura 2.1: Índice Dow Jones Industrial Average, valor no fechamento diário.

ou pela fórmula de Bayes

P (Xn+1 = x, Xn = y)P (Xn = y, Xn−1 = z)


P (Xn+1 = x, Xn = y, Xn−1 = z) = · (2.16)
P (Xn = y)

A expressão a esquerda em (2.16) multiplicada por N − 2, sendo N a quantidade de observações na


série temporal observada, é o número esperado de vezes que a sequência (Xn+1 = x, Xn = y, Xn−1 = z)
aparece nos dados, dada a hipótese nula. As quantidades no lado direito não são valores ∑
esperados. Eles
são retirados da sequência observada. Seja Eω a contagem esperada de sequências onde ω Eω = N − 2
e ω indexa o conjunto de todas as sequências para as quais a contagem esperada é maior do que zero.
Do mesmo modo, seja Oω ≥ 0 a contagem correspondente dos dados observados.
Agora podemos definir a estatı́stica de teste χ2 observada como
( )
∑ Eω − Oω 2
2
χobs = , (2.17)
ω
E ω

a qual é uma medida do desvio da contagem observada do esperado. A vantagem da estatı́stica χ2 é


que, atendendo aos graus de liberdade m, a distribuição da estatı́stica é conhecida no limite N → ∞.
O p-valor é então obtido como P (χ2 (m) ≥ χ2obs ).
Um problema que exige alguma discussão é como calcular os graus de liberdade necessários para
determinar a distribuição χ2 (m). Para testar a hipótese da k-ésima ordem, contamos as sequências
de comprimento m = k + 1 observadas e calculamos as sequências de comprimento m + 1 esperadas.
Supondo que todas as dm sequências de comprimento m estejam presentes nos dados, seja F a matriz
dm × dm das contagens de transição. O (i, j)-ésimo elemento de F é o número de vezes que as transições
de i para j acontecem. Como as sequências consecutivas se sobrepõem e diferem por apenas um sı́mbolo,
existem no máximo d entradas não-zero em cada linha e coluna de F. É útil reorganizar F na forma
bloco diagonal com m blocos d × d. Em cada bloco tanto as linhas como as colunas devem somar o
110 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV

comprimento correspondente às m contagens de sequências. Levando em consideração as dependências


entre linhas e colunas nos deixa com dm−1 (d − 1)2 graus de liberdade para m > 0 e (d − 1)2 para m = 0.
No caso de que nem todas as sequências de comprimento m estejam presentes nos dados observados,
F será menor do que dm × dm e os blocos ao longo da diagonal podem ser de tamanho ∑ diferente. Se o
tamanho do i-ésimo bloco for ri × ci , então o número total de graus de liberdade é i (ri − 1)(ci − 1).
No caso especial onde m = 1, a hipótese nula do teste é que as observações em pontos de tempo
sucessivos são estatı́sticamente independentes contra a hipótese alternativa de que as observações formam
uma cadeia de primeira ordem.
Exemplo 2.9 (Continuação do Exemplo 2.8)
Para a aplicação da estratégia (1), cada dia foi classificado como tendo fechado maior ou menor que
o dia anterior, assim permitindo a classificação de dois estados, a saber:

Estado 1: O valor de fechamento é inferior ao valor de fechamento do dia anterior.

Estado 2: O valor de fechamento é maior ou igual ao valor de fechamento do dia anterior.

Com as linhas de comando R seguintes fizemos a leitura dos dados, geramos o gráfico e construı́mos
a cadeia:

> dados=read.csv(’DJIA.csv’,sep=’,’,h=T)
> attach(dados)
> library(ggplot2); library(psych); library(car)
> Datas = as.Date(dados$Date)
> par(mar=c(5,4,1,1),pch=19,cex.axis=0.4)
> qplot(Datas, Close, xlab=’ ’, ylab=’Dow Jones Industrial Average em USD’)
> Estados = seq(1, length(Close)-1)
> for(i in 1:length(Estados)){Estados[i] = ifelse(Close[i]>Close[i+1], 1, 2)}

Como resposta a matriz de probabilidades de transição estimada é


( )
b 0.4722222 0.5277778
P= ,
0.4014085 0.5985915

isto obtido da seguinte lista de comandos R:

> library(markovchain)
> createSequenceMatrix(Estados, sanitize=FALSE)
> mcFitMLE = markovchainFit(data=Estados)
> mcFitMLE$estimate^100
MLE Fit^100
A 2 - dimensional discrete Markov Chain defined by the following states:
1, 2
The transition matrix (by rows) is defined as follows:
1 2
1 0.432 0.568
2 0.432 0.568

Ainda temos também que a distribuição estacionária é π = (0.432, 0.568). Significa que temos
43% de probabilidade de perda na nossa carteira de ações com o ı́ndice DJAI e 57% de probabilidade
de ganho. Aplicamos agora os conhecimentos desenvolvidos nesta seção para verificar a ordem da
Cadeia de Markov. Para isso devemos verificar se a cadeia em questão é de ordem um ou não e,
como vimos, podemos utilizar a estatı́stica de teste χ2 . Para isto, ou seja, para aplicarmos o teste
aproximado descrito nesta subseção fazemos:
2.2. TESTES PARA VERIFICAR A ORDEM DA CADEIA 111

> assessOrder(Estados)
The assessOrder test statistic is: 3.964894
the Chi-Square d.f. are: 2
The p-value is: 0.1377318

com o qual concluı́mos que aceitamos a hipóteses nula da cadeia com dois estados ser de ordem um.

2.2.2 Teste exato


(n)
Podemos usar a fó rmula de Whittle em (2.2) para gerar um subconjunto de amostras de Nu,v para que
(n)
a amostra seja uniforme, ou seja, para que todas as sequências em Nu,v tenham a mesma probabilidade
de serem incluı́das na amostra. Uma estratégia seria crescer sucessivamente uma sequência substituta,
começando com uma sequência inicial, até que todas as transições sejam usadas. Em cada etapa são
realizadas duas operações: (1) a próxima sequência é escolhida com base no número de sequências
restantes calculadas usando a fórmula de Whittle, e (2) nx,y é atualizado para refletir a contagem de
transição reduzida resultante da seleção. As sequências são escolhidas probabilisticamente ponderadas
pelo número de sequências que estão disponı́veis para completar o substituto. As sequências que levam
a zero sequências válidas nunca são escolhidas, portanto, o algoritmo é garantido para resultar em um
(n)
substituto válido. Este método de produção de substitutos produz uma amostragem uniforme de Nu,v
uma vez que a cada passo as palavras que levam a poucas sequências remanescentes são selecionadas
proporcionalmente com menos frequência.
O teste de hipótese conforme descrito na subseção 2.2.1 não é exato, depende da distribuição χ2
válida no limite assintótico de dados infinitos. Para descobrir a distribuição exata para dados finitos é
necessário avaliar a estatı́stica χ2obs para todas as sequências possı́veis que satisfaçam a hipótese nula.
Para a hipótese de primeira ordem, essas sequências têm exatamente a mesma probabilidade conjunta
mostradas no lado direito de (2.16). Referencias importantes são os artigos de Besag & Mondal (2013);
Pethel & Hahs (2014).
Seja nxy o número de transições na cadeia observada entre os estados x e y. Também definimos Γ
como o conjunto de sequências com o mesmo número de transições observado (nxy ) mas com os mesmos
estado inicial e final observados na cadeia {Xn }. O número de sequências com a mesma contagem
de transições (nxy ) e que começa no estado u e termina no estado v é dado pela fórmula de Whittle
(Teorema 2.1): ∏
nx· !
Nuv = ∏ x Cuv , (2.18)
xy nxy !

onde nx· representa a soma da linha x e Cuv é o (u, v)-ésimo cofator da matriz
{ nxy
∗ δxy − caso nx· > 0,
nxy = nx· (2.19)
δxy caso nx· = 0·
.
Para encontrar o p-valor precisamos conhecer todas as sequências em (nxy ) que possuem valores da
estatı́stica χ2 maiores ou iguais a χ2obs .
Exemplo 2.10 (Continuação do Exemplo 2.8)
Continuando neste exemplo, sabemos que a matriz de contagens é da forma

> createSequenceMatrix(Estados, sanitize=FALSE)


1 2
1 51 57
2 57 85
112 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV

> Estados
[1] 1 1 1 2 2 1 2 1 1 2 1 1 1 1 1 2 1 2 2 2 1 1 1 2 1 2 1 2 1 2 2 2 2 2 2 2 2 2 2 2
[41] 2 1 2 1 2 1 1 1 2 2 1 1 2 1 1 1 1 1 1 1 1 2 1 2 1 1 2 1 2 1 2 1 1 1 2 1 1 2 1 2
[81] 2 1 2 1 1 2 2 1 2 2 1 1 1 1 2 1 1 2 2 2 2 2 2 1 1 1 2 2 1 1 2 2 2 1 2 2 1 2 2 1
[121] 1 1 1 2 1 2 1 2 2 1 1 2 1 2 2 2 2 1 1 2 1 1 1 2 2 2 2 2 2 2 2 2 2 1 1 1 2 2 2 2
[161] 1 1 2 2 1 1 2 1 2 2 2 2 1 2 1 2 2 2 2 2 2 2 2 2 1 1 1 1 2 2 2 2 2 2 2 1 1 2 2 1
[201] 2 2 2 2 2 2 1 2 1 2 2 1 2 2 2 2 2 2 2 1 1 2 1 1 2 1 2 2 1 2 2 2 2 2 1 2 1 1 2 2
[241] 2 2 2 1 2 2 1 1 2 1 1

Com isso temos que n1· = 51 + 57 = 108, n2· = 57 + 85 = 142 e C11 = 0.4722222, do qual concluı́mos
que a quantidade de diferentes sequências começandp em 1 e terminado em 1 quando o tamanho da
série é N = 251 resulta em
108!142!
N11 = × 0.472222·
51!57!57!85!

Este número é extremamente grande. Situações como estas nas quais a cardinalidade de (nxy ) é
muito grande para enumerar todas as sequências, o p-valor pode ser estimado para qualquer precisão
desejada desde que se tenha um método de produção de amostras aleatórias uniformes do conjunto
(nxy ). É acerca de um desses procedimentos que trata o teste exato a seguir.
A ideia é usar a fórmula de Whittle para gerar um subconjunto de amostras de (nxy ) de modo que
a amostra seja uniforme, isto é, todas as sequências em (nxy ) sãoo igualmente provavelmente incluı́das
na amostra. A estratégia sugerida é sucessivamente acrescentar à sequência elementos começando com
alguns elementos inicias até que todas as transições sejam usadas. Em cada etapa duas operações são
executados:

(1) a próxima sequência é escolhida com base no número de sequências restantes calculadas usando a
fórmula de Whittle e

(2) Nxy é atualizado para refletir a contagem de transições reduzida resultante de seleção.

As sequências são escolhidas probabilisticamente ponderadas pelo número daquelas sequências que estão
disponı́veis para completar o substituto. As palavras que levam a zero sequn̂cias válidas nunca são
escolhidas, portanto, o algoritmo é garantido resultando em um substituto válido.
Lembremos que nesta seção conhecemos duas estratégias para verificarmos se a cadeia considerada
é de uma ordem especı́fica.
Exemplo 2.11
Para a estratégia (2) devemos considerar 6 categorias, para isso utilizamos o seguinte comando
> quantis = quantile(diff(Close), probs = seq(0, 1, 0.20))
> quantis
0% 20% 40% 60% 80% 100%
-372.820312 -40.759765 -5.820313 33.759766 85.240235 331.669921

a partir do qual temos como definir as seguintes categorias:


Estado 1: Salto grande para cima, ganho maior do que 85.24.

Estado 2: Salto moderado para cima, ganho entre 33.75 e 85.24.

Estado 3: Salto pequeno para cima, ganho menor do que 33.75.

Estado 4: Salto pequeno para baixo, perda até -5.82.

Estado 5: Salto moderado para baixo, perda entre -5.82 e -40.75.


2.2. TESTES PARA VERIFICAR A ORDEM DA CADEIA 113

Estado 6: Salto alto para baixo, perda maior que -40.75.


Vejamos então como fazer para construir a nova cadeia, estimar a matriz de transição e obtermos
a distribuição estacionária:
> NEstados = ifelse(diff(Close)>=quantis[[5]], 1, 0)
> NEstados = ifelse(diff(Close)>=quantis[[4]] & diff(Close)<quantis[[5]], 2, NEstados)
> NEstados = ifelse(diff(Close)>=0 & diff(Close)<quantis[[4]], 3, NEstados)
> NEstados = ifelse(diff(Close)>=quantis[[3]] & diff(Close)<0, 4, NEstados)
> NEstados = ifelse(diff(Close)>=quantis[[2]] & diff(Close)<quantis[[3]], 5, NEstados)
> NEstados = ifelse(diff(Close)<quantis[[2]], 6, NEstados)
> NEstados
[1] 6 5 6 1 2 6 2 6 5 1 6 4 6 5 6 1 5 1 1 3 5 6 6 3 5 1 5 2 5 1 1 1 1 1 3 3 1 3 2 3
[41] 3 5 1 6 3 6 5 6 3 2 5 6 1 5 5 5 6 5 4 6 6 1 6 2 6 5 2 6 3 5 3 5 6 6 1 6 6 1 5 1
[81] 1 5 3 6 5 2 3 5 2 3 5 5 5 5 1 4 6 2 1 1 2 2 2 4 6 5 1 2 5 6 2 3 1 5 1 2 5 3 1 6
[121] 6 5 4 3 6 1 6 2 1 4 6 1 4 3 1 3 2 5 6 2 5 5 6 1 1 1 3 2 2 2 3 2 3 5 5 6 3 1 3 3
[161] 6 6 3 1 6 5 3 4 2 3 2 2 6 2 5 3 1 2 2 2 2 2 2 2 6 5 6 5 2 2 3 1 2 3 1 4 5 2 2 5
[201] 3 1 2 1 3 1 6 1 6 2 3 6 3 2 2 3 3 3 3 6 5 3 5 6 1 6 2 1 6 3 3 1 1 1 5 2 6 5 2 1
[241] 2 1 2 6 1 1 5 5 2 5 5

> createSequenceMatrix(NEstados, sanitize=FALSE)


1 2 3 4 5 6
1 12 9 7 4 8 11
2 6 14 11 1 9 8
3 12 7 7 1 9 6
4 0 1 2 0 1 5
5 9 9 7 2 9 13
6 12 9 8 1 14 6

> NmcFitMLE = markovchainFit(data=NEstados)


> NmcFitMLE$estimate
MLE Fit
A 6 - dimensional discrete Markov Chain defined by the following states:
1, 2, 3, 4, 5, 6
The transition matrix (by rows) is defined as follows:
1 2 3 4 5 6
1 0.2352941 0.1764706 0.1372549 0.07843137 0.1568627 0.2156863
2 0.1224490 0.2857143 0.2244898 0.02040816 0.1836735 0.1632653
3 0.2857143 0.1666667 0.1666667 0.02380952 0.2142857 0.1428571
4 0.0000000 0.1111111 0.2222222 0.00000000 0.1111111 0.5555556
5 0.1836735 0.1836735 0.1428571 0.04081633 0.1836735 0.2653061
6 0.2400000 0.1800000 0.1600000 0.02000000 0.2800000 0.1200000

> steadyStates(NmcFitMLE$estimate)
1 2 3 4 5 6
[1,] 0.2037759 0.196012 0.1679465 0.03606179 0.1996664 0.1965375

Observemos que, nesta última situação, não temos uma conclusão clara. Temos quase a mesma
probabilidade de que aconteçam os Estados 1, 2, 5 e 6. Assim, o mais raro seriam as situações onde
o salto é pequeno para cima ou para baixo. Como podemos decidir quanto ao tipo de cadeia mais
adequado? lembremos temos construı́das duas cadeias, uma com dois estados e uma outra com seis
estados, qual delas é a mais adequada nesta situação?
Para respondermos esta pergunta recorremos ao critério de escolha de modelos conhecido como
AIC ou Critério de Informação de Akaike. Calcula-se como
b + 2 dim(θ),
−2ℓ(θ)
onde dim(θ) representa o número de parámetros do modelo. Fazendo uso da linguagem de pro-
gramação R o cálculo deste critério é como segue:
114 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV

> -2*mcFitMLE$logLikelihood+2*((2-1)*2)
[1] 344.6826
> -2*NmcFitMLE$logLikelihood+2*((6-1)*6)
[1] 886.7953

correspondendo primeiro ao modelo com dois estados e, no segundo caso, ao modelo com seis
estados. Concluı́mos então que o modelo mais adequado é àquele com dois estados, é onde o valor
do AIC é menor.
Exemplo 2.12
Tendo validado o teste exato usando dados sintéticos, vamos olhar para uma aplicação no mundo real
envolvendo dados de precipitação de Tel Aviv. Este é um conjunto de dados bem conhecidos cujas
propriedades de Markov foram estudadas pela primeira por Gabriel & Neumann (1962). Os dados
originalmente preparados consistiram em 27 perı́odos de inverno (dezembro-janeiro-fevereiro) com
cada dia classificado como úmido ou seco. Com base nas estatı́sticas de perı́odos úmidos e secos, os
autores concluı́ram que uma cadeia de Markov de primeira ordem modela adequadamente os dados.
Análises posteriores usando AIC indicam que uma cadeia de segunda ordem deve ser usada, enquanto
a BIC estima a ordem em um.
Aplicar nosso teste de significância de ordem de Markov a esses dados apresenta dois desafios. A
primeira barreira é que os dados só existem como uma tabela de contagens de transição. Para o teste
de hipóteses, precisamos da série temporal original, que neste caso é a sequência de dias úmidos e
secos para cada um dos 27 invernos entre 1923 e 1950. Incapaz de encontrar esses dados em outro
lugar, optamos por usar os dados de precipitação de Tel Aviv entre os anos 1950 e 1977, que estão
disponı́veis em bases de dados online (www.weatherspark.com.). Classificamos um dia como molhado
se houvesse alguma precipitação registrada naquele dia. O segundo problema é que os dados não
são uma única série temporal, mas 27 não contı́guos. Para simplificar esta análise, concatenamos os
conjuntos de dados e aceitamos a pequena imprecisão devido a transições que abrangem diferentes
conjuntos. Assim preparadas, as contagens de dias úmidos e secos são apresentadas na Tabela 2.5
no mesmo formato dos dados originais.

Para
0 1 2 3 4 5 6
0 520 134 327 111 36 7 0
1 270 128 222 97 36 7 0
2 284 101 368 193 61 9 5
3 94 33 119 131 42 3 1
De
4 16 14 42 50 17 7 0
5 7 3 4 4 3 0 1
6 1 1 0 3 1 0 0

Tabela 2.5: Contagem de transições do Exemplo 2.5.


2.3. TESTE DE HIPÓTESES SOBRE PROBABILIDADES ESPECÍFICAS 115

2.3 Teste de hipóteses sobre probabilidades especı́ficas


Com base na teoria da distribuição assintótica na seção anterior, podemos derivar certos métodos de
inferência estatı́stica. Aqui vamos supor que cada px,y > 0.
Primeiro, vamos consideramos testar a hipótese de que certas probabilidades de transição px,y assu-
mem valores especı́ficos p0x,y . Utilizaremos o fato de que, sob a hipótese nula, temos uma distribuição
normal limite de n1/2 (b px,y − p0x,y ) com média zero e matriz de variâncias e covariâncias dependendo de
p0x,y da mesma maneira que as obtidas para estimativas de multinomial, este resultado foi resumido pelo
Teorema 2.2. Podemos usar a teoria assintótica padrão para distribuições multinomiais ou normais para
testar uma hipótese sobre um ou mais px,y ou determinar uma região de confiança para um ou mais px,y .
Especificamente, podemos estar interessados em verificar se H0 : px,y = p0x,y , y = 1, 2, · · · , d, para
um valor de x especı́fico. Sob a hipótesis nula,


d
px,y − p0x,y )2
(b
nx,y (2.20)
y=1
p0x,y

tem uma distribuição assintótica χ2 com d − 1 graus de liberdade, de acordo com a teoria assintótica
usual de variáveis multinomiais. Assim, a região crı́tica do teste dessa hipótese no nı́vel de significância
α consiste no conjunto pbx,y para o qual (2.20) é maior que o ponto de significância α da distribuição
χ2 com d − 1 graus de liberdade. Uma região de confiança do coeficiente de confiança α consiste no
conjunto de p0x,y para os quais (2.20) é menor que o ponto de significância α. O p0x,y no denominador
pode ser substituı́do por pbx,y .
px,y − p0x,y )2 para diferentes x são assintoticamente independentes, a expressão
Como as variáveis nx,y (b
em (2.20) para diferentes x são assintoticamente independentes e, portanto, podem ser adicionadas para
obter outras variáveis χ2 . Por exemplo, um teste para todos os px,y , x, y = 1, 2, · · · , d pode ser obtido
adicionando (2.20) sobre todo x, resultando em uma variável χ2 com d(d − 1) graus de liberdade.
O uso do teste χ2 de bondade de ajuste é discutido em Cochran (1952). Acreditamos que há uma
boa razão para adotar estes testes, que são análogos aos testes de qualidade de ajuste, descritos nesta
seção.
Exemplo 2.13 (Continuação do Exemplo 2.5)
No referido exemplo uma das suspeitas era que a matriz de probabilidades de transição tivesse uma
forma especı́fica. Para estimar uma matriz de probabilidade de transição de um ano, precisamos fazer
algumas suposições. Vamos supor que em um ano, a ponte só pode fazer a transição para o próximo
estado, o que significa que não há conserto. É claro que, quando entrar no estado número 5, ele
permanecerá lá. Assim, a Cadeia de Markov tem cinco estados transientes e um estado absorvente o
estado número 5. Com essas premissas e sob o princı́pio de que uma transição para o próximo estado
não depende do estado em que a cadeia está, a matriz de probabilidade de transição é semelhante à
apresentada abaixo:
1 2 3 4 5
 
1 1 − p1 p1 0 0 0
2 0 1 − p2 p2 0 0
b
P = 3 0 1 − p3 0·
6
0 p3
4 0 0 0 1 − p4 p4 
5 0 0 0 0 1
Como vemos, a matriz esta reflete todas as nossas suposições. Claro que no resto desta análise,
o A suposição sobre probabilidades de transição estacionárias ainda é válida.
116 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV

2.4 Cadeias de Markov multivariadas


Nesta seção, apresentamos modelos para Cadeias de Markov multivariadas possivelmente de ordem
superior. O objetivo é modelar múltiplas sequências categóricas com base nos modelos anteriormente
estudados. Assumimos que existem s sequências categóricas e cada uma tem d estados possı́veis, significa
que vamos considerar que as s sequências têm o mesmo espaço de estados S. Estes modelos foram
propostos por Raftery (1985), posteriormente estudados e implementados por Ching, Ng & Fung (2008).

2.4.1 Cadeias de Markov de ordem superior


Vamos considerar sequências {Xt } com espaço de estados S. No modelo proposto, assumimos que a
distribuição de probabilidade da sequência no tempo t depende da distribuição de probabilidade da
sequência no tempo t − 1, · · · , t − m.

Definição 2.2
Seja {Xn } uma sequência de variáveis aleatórias categóricas dependentes. Diz-se que a seqência
satisfaz a propriedade de Markov de ordem m se

P (Xn+1 = xn+1 |X0 = x0 , X1 = x1 , · · · , Xn = xn ) =


= P (Xn+1 = xn+1 |Xn−m = xx − m, Xn−m+1 = xn−m+1 , · · · , Xn = xn )·

Novamente consideramos somente sequência estacionárias, isto é, Cadeias de Markov nas quais a
probabilidade de transição não muda conforme o instante de tempo. Dito isto, definamos Cadeias de
Markov de ordem superior.

Definição 2.3 (Cadeias de Markov de ordem superior )


Seja {Xt } uma sequência de variáveis categóricas satisfazendo a propriedade de Markov de ordem
m. Dizemos que {Xt } é uma Cadeia de Markov de ordem m se satisfaz que


m
P (Xt = y|Xt−1 = x1 , · · · , Xt−m = xm ) = λh pxh ,y , (2.21)
h=1

com estados inciais x0 , x1 , · · · , xm−1 . Aqui, os pesos λh são números reais não negativos tais que
∑ m
h=1 λh = 1 e px,y as probabilidades de transição.

Resulta que a probabilidade condicional de observarmos Xt = y dado o passado é uma combinação


linear das contribuições de cada Xt−1 , · · · , Xt−m . Uma outra forma de escrever a probabilidade condi-
cional em (2.21) é como

m
xbt = bh P
λ bxbt−1 ,
h=1

bt é uma função de valores passados e é percebida como a probabilidade


onde a variável aleatória x
b
condicional e P matriz de probabilidades de transição da cadeia de primeira ordem. A propriedade
2.4. CADEIAS DE MARKOV MULTIVARIADAS 117

básica que deva satisfazer o modelo em (2.21) é a convergência à distribuição estacionária, resultado
este estabelecido no teorema a seguir.

Teorema 2.3
Suponhamos {Xt } seja uma Cadeia de Markov de ordem superior. Então

lim P (Xt = y|Xt−1 = x1 , · · · , Xt−m = xm ) = πy , y = 1, · · · , d·


t→∞

Demonstração : Distribuição estacionária.

Uma vez compreendido o modelo procedemos à descrição do procedimento estatı́stico utilizado na es-
timação. As estimativas de máxima verossimilhança dos parâmetros de (2.21) são obtidos maximizando-
se numericamente o logaritmo da verossimilhança, ou seja, fazendo uso de um programa de otimização
não-linear com restrições maximizamos a função


d (∑
m )
ℓ≈ nx,y1 ,··· ,ym log λh pyh ,x ,
x,y1 ,y2 ,··· ,ym =1 h=1

onde d é o número de estados e nx,y1 ,··· ,ym é a contagem das transições.


Para comparar modelos usamos um critério de informação, em vez de um procedimento de teste de
hipóteses múltiplas, porque os modelos não são aninhados. Alguns pesquisadores recomendam escolher
o modelo como aquele que minimize o AIC = −2ℓ+2k, onde k é o número de parâmetros independentes.
Entretanto, outros pesquisadores referem a alternativa de escolher o modelo que minimiza o BIC =
−2ℓ + k log(n) sendo n o tamanho da sequência porque (i) é um estimador consistente da ordem de
Cadeia de Markov, diferentemente do método AIC, (ii) é aproximadamente o como escolher o modelo
com maior probabilidade posterior, (iii) escolher modelos mais simples, e (iv) ter um bom desempenho
em um experimento de simulação.
Exemplo 2.14
Dados diários de precipitação na Ilha do Alofi (Avery & Henderson, 1999) foram registrados de 1ro.
de janeiro de 1987 até 31 de dezembro de 1989 e classificados em três estados: 0 (sem chuva), 1-5 (de
zero a 5 mm) e 6+ (mais de 5mm). Alofi forma parte da Ilha Niue no Oceano Pacı́fico. O conjunto
de dados correspondente é fornecido dentro do pacote markovchain:
> data(rain)
> fitHigherOrder(rain@rain, 2)
$lambda
[1] 0.5 0.5

$Q
$Q[[1]]
0 1-5 6+
0 0.6605839 0.4625850 0.1976285
1-5 0.2299270 0.3061224 0.3122530
6+ 0.1094891 0.2312925 0.4901186

$Q[[2]]
0 1-5 6+
0 0.6021898 0.4489796 0.3412698
118 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV

1-5 0.2445255 0.2687075 0.3214286


6+ 0.1532847 0.2823129 0.3373016

$X
0 1-5 6+
0.5000000 0.2691606 0.2308394

No Exemplo 2.14 devemos indicar que no vetor λ b = (0.5, 0.5) temos por resposta as corresponden-
tes estimativas de máxima verossimilhança do vetor λ em (2.21). Nas matrizes Q[[1]] e Q[[2]] temos
as estimativas das probabilidades de transição de primeira e segunda ordem, respetivamente. Estas
matrizes, por questões de implementação computacional são diferentes àquelas estudas até o momen-
tos, estas matrizes são definidas por colunas e não por linhas. Dessa forma, nelas temos somas 1
somente por colunas assim, a probabilidade de passarmos num passo do estado 1-5 ao estado 6+ é
P (Xt = 6 + |Xt−1 = 1 − 5, Xt−2 = y) = 0.2312925 e a probabilidade de passarmos do estado 6+ ao
estado 1-5 em dois passos é P (Xt = 1 − 5|Xt−1 = y, Xt−2 = 6+) = 0.3214286. O vetor X fornece a
distribuição estacionária e assim, condluı́mos que em 50% das observações a cadeia está no estado 0, em
27% no estado 1-5 e em 23% dos casos está no estado 6+.

2.4.2 Cadeias de Markov de ordem superior multivariadas


As principais referências sã o artigo de Ching et al. (2008) e o livro Ching, Huang, Ng & Siu (2013).
Suponha que existam sequências categóricas e cada uma possua estados em S. A n-ésima ordem
da distribuição multivariada do estado da sequência de tempo j-ésima no tempo t = r + 1 depende
da distribuição de probabilidade do estado de todas as sequências, incluindo a si mesma, nos tempos
t = r, r − 1, ..., r − n + 1, segundo a relação

(j)
s ∑
∑ n
(h) (k)
xr+1 = λjk Phjk xr−h+1 ,
k=1 h=1

∑s ∑n (h)
para j = 11, 2, · · · , s e r = n − 1, n, · · · . Temos por restrição que k=1 h=1 λjk = 1.
Exemplo 2.15 (Previsões de demanda de vendas)
Demonstraremos a eficácia do modelo de Cadeia de Markov multivariada de ordem superior aplicando-
o à sequência de demanda de vendas. Uma empresa de refrigerantes em Hong Kong (Ching, Fung &
Ng, 2002) enfrenta um problema interno de planejamento de produção e controle de estoque. Uma
questão urgente é o espaço de armazenamento de seu armazém central, que muitas vezes se encontra
no estado de transbordamento ou capacidade máxima próxima. A empresa está, portanto, em neces-
sidades urgentes para estudar a interação entre o requisito de espaço de armazenamento e a crescente
demanda de vendas. O produto pode ser classificado em seis estados possı́veis S = {1, 2, 3, 4, 5, 6}
de acordo com seus volumes de vendas. Todos os produtos são rotulados como 1 = nenhum volume
de vendas, 2 = muito lento (volume de vendas muito baixo), 3 = lento, 4 = padrão, 5 = rápido ou
6 = muito rápido (volume de vendas muito alto). Esses rótulos são úteis tanto do ponto de vista do
planejamento de produção quanto de marketing.
A empresa também gostaria de prever a demanda de vendas de um cliente importante, a fim de
minimizar a acumulação de estoque. Mais importante ainda, a empresa pode entender o padrão de
vendas desse cliente e depois desenvolver uma estratégia de marketing para lidar com esse cliente.
Mostramos a demanda de vendas de clientes de cinco produtos importantes da empresa por um ano.
Esperamos que as sequências de demanda de vendas geradas pelo mesmo cliente sejam correlacionadas
entre si. Portanto, explorando essas relações, pode-se obter um modelo de Markov multivariável
2.4. CADEIAS DE MARKOV MULTIVARIADAS 119

de ordem superior melhor para essas sequências de demanda, portanto, obter melhores regras de
predição.
Dados de séries temporais ocorrem com frequência em muitas aplicações do mundo real. Uma das
principais etapas importantes na análise de dados de séries temporais á seleção do modelo estatı́stico
apropriado para os dados, porque ajuda na previsão, no teste de hipa’oteses e na descoberta de regras.
O modelo de Cadeias de Markov é desenvolvido para modelar sequências de dados categóricos.
Nesta ilustração, nós escolhemos a ordem da cadeia arbitrariamente para ser oito, ou seja, k = 8.
Primeiro estimamos todas as matrizes de probabilidade de transição P usando o método proposto
nesta Seção e também temos as estimativas da distribuição estacionária dos cinco produtos, cujos
valores observados mostramos a seguir:
Producto A: 6 6 6 6 2 6 2 6 2 2 6 2 6 6 2 6 2 4 4 4 5 6 6 1 2 2 6 6 6 2 6 2 6 6 2 6 2 2 6 2 1 2 2
6 6 6 2 1 2 6 2 6 6 2 2 6 2 2 2 6 2 6 2 2 2 2 2 6 2 2 6 6 6 6 1 2 2 6 2 2 2 2 6 2 2 2 2 3 3 2 3 2
6 6 6 6 2 6 2 6 6 2 6 2 6 6 2 6 6 2 2 3 4 3 3 1 3 1 2 1 6 1 6 6 1 6 6 2 6 2 6 2 2 2 6 6 1 6 2 6 1
2 1 6 2 6 2 2 2 2 6 6 1 6 6 2 2 6 2 2 2 3 4 4 4 6 4 6 1 6 6 1 6 6 6 6 1 6 2 2 2 6 6 6 6 2 6 6 2 2
6 2 6 2 2 2 6 2 2 2 6 6 6 6 3 2 2 6 2 2 2 2 2 2 6 2 6 2 2 2 6 2 2 6 6 2 6 6 6 2 2 2 3 3 3 4 1 6 6
1 6 6 1 6 1 6 6 6 6 1 6 6 6 2 1 2 2 2 2 2 2 3 6 6 6 6 6 2 6

Producto B: 1 6 6 1 6 1 1 1 1 1 1 6 6 6 1 2 1 6 6 1 1 1 6 6 2 1 6 6 1 1 1 6 1 2 1 6 2 2 2 2 2 6 1
6 6 1 2 1 6 6 6 1 1 1 6 6 1 1 1 1 6 1 1 2 1 6 1 6 1 1 6 2 6 2 6 6 6 3 6 6 1 6 6 2 2 2 3 2 2 6 6 6
1 1 6 2 6 6 2 6 2 6 6 1 3 6 6 1 1 1 2 2 3 2 2 6 2 2 2 1 6 1 6 1 1 6 2 1 1 1 2 2 1 6 1 1 1 1 2 6 1
1 1 1 6 1 6 1 2 1 6 1 6 6 1 6 1 2 2 2 2 3 3 2 2 2 6 6 6 6 2 1 1 6 1 1 1 6 1 6 1 6 1 6 1 1 6 6 2 1
1 6 6 1 1 2 6 2 6 6 6 1 2 6 1 6 1 1 1 1 6 1 6 1 1 6 6 1 6 6 1 6 1 6 6 1 1 6 6 2 2 2 2 2 2 2 2 2 6
6 6 6 1 6 6 6 1 6 6 1 6 6 1 1 6 1 3 3 3 5 1 6 6 6 6 6 6 6 6

Producto C: 6 6 6 6 6 6 6 2 6 6 6 6 6 6 6 2 6 6 6 6 2 6 6 6 2 2 6 6 6 6 6 6 6 1 6 2 6 6 6 6 6 6 6
6 2 6 6 1 2 6 1 6 6 1 6 2 6 6 6 6 6 6 6 2 6 6 6 2 6 6 1 6 6 6 6 6 6 6 3 3 6 3 2 1 2 2 1 6 6 1 6 1
6 6 6 6 6 6 1 6 6 6 1 6 6 6 6 6 6 6 6 6 6 6 2 6 6 6 6 6 6 6 6 2 2 6 6 2 6 1 2 6 6 6 2 6 6 2 6 6 2
6 1 6 2 6 2 1 2 6 6 2 2 6 2 6 2 2 6 2 6 6 6 2 2 2 6 6 2 6 6 2 2 6 1 2 1 2 6 6 2 2 6 6 1 2 2 1 6 2
6 2 2 1 1 5 6 3 6 1 6 6 1 2 2 6 1 6 2 6 6 1 6 2 6 2 6 6 6 1 6 1 6 6 2 2 2 1 2 3 6 1 6 1 6 1 6 1 6
6 6 1 1 6 6 6 6 6 1 6 6 6 1 6 1 1 6 6 6 6 6 6 6 6 1 6 6 1 6

Producto D: 6 2 2 2 2 3 3 4 4 4 5 4 3 3 6 2 6 6 6 3 4 4 3 3 3 3 3 2 6 6 3 4 4 4 4 3 4 2 6 2 2 6 2
2 6 6 3 4 5 4 4 6 3 6 6 6 2 6 2 6 6 2 2 6 4 4 5 4 3 4 3 4 4 6 2 6 6 2 2 6 2 6 6 2 6 6 2 6 6 2 6 2
6 3 5 5 5 4 4 4 3 6 2 6 6 2 6 2 6 2 2 6 2 6 6 2 6 4 4 4 4 4 4 6 3 6 6 2 6 2 6 2 6 2 6 6 2 2 2 2 2
2 2 2 2 3 3 3 5 5 4 5 3 3 3 6 2 6 6 2 2 6 2 2 2 2 6 2 3 2 2 3 6 3 2 2 3 4 4 4 4 5 5 4 4 6 6 2 6 2
6 2 2 2 2 2 2 2 5 5 4 4 5 5 2 6 2 6 6 2 6 2 6 2 2 3 3 4 4 5 4 4 4 3 4 3 6 2 6 2 2 2 2 2 2 2 2 2 2
2 3 4 4 4 4 5 4 4 4 3 2 2 2 6 2 2 2 6 2 6 2 6 2 2 2 2 2 3 2

Producto E: 6 2 2 2 2 3 3 4 4 4 5 4 3 3 6 2 6 6 2 3 4 4 3 4 4 3 3 2 2 6 3 4 4 4 4 3 4 2 3 2 2 6 3
3 6 6 3 4 5 4 5 3 3 2 6 6 2 6 2 6 6 2 2 6 4 4 4 4 4 4 5 4 4 6 2 6 6 2 2 6 2 6 6 2 6 6 2 6 6 2 6 2
6 3 4 4 4 4 4 4 4 6 2 6 6 2 6 2 6 6 6 6 2 6 2 2 6 4 4 4 4 4 4 6 3 3 6 2 2 2 6 2 6 2 2 2 2 2 2 2 2
2 2 2 2 3 6 4 5 5 5 5 2 4 6 6 2 6 6 2 2 6 2 2 2 2 6 2 3 2 2 3 6 3 2 2 3 4 4 4 4 5 5 4 3 3 6 2 6 2
2 2 6 3 2 2 2 2 5 5 4 4 4 4 3 6 2 6 6 2 6 2 6 2 2 3 3 4 4 5 4 4 4 4 4 3 6 2 6 2 2 2 6 2 2 2 2 2 2
2 3 4 4 4 4 5 4 4 4 3 2 2 2 6 6 6 2 6 2 6 2 6 2 2 2 2 2 2 2

De acordo com o modelo de Markov multivariado construı́do da 8va. ordem, os produtos A e


B estão intimamente relacionados. Em particular, a demanda de vendas do Produto A depende
fortemente do Produto B. O principal motivo é que a natureza quı́mica dos Produtos A e B é a
mesma, mas eles têm embalagens diferentes para fins de marketing. Além disso, os Produtos B, C,
D e E estão intimamente relacionados. Da mesma forma, os produtos C e E têm o mesmo sabor
do produto, mas diferentes embalagens. Neste modelo, é interessante notar que tanto o Produto
D quanto o E dependem do Produto B na ordem de 8, esta relação dificilmente pode ser obtida
no modelo convencional de Markov devido a uma grande quantidade de parâmetros. Os resultados
mostram que o modelo de Markov multivariado de ordem superior é bastante significativo para
analisar a relação de demanda de vendas.
120 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV

> data(rain)
> modelo1 = markovchainFit(data=rain$rain)
> modelo1
$estimate
0 1-5 6+
0 0.6605839 0.2299270 0.1094891
1-5 0.4625850 0.3061224 0.2312925
6+ 0.1976285 0.3122530 0.4901186

$standardError
0 1-5 6+
0 0.03471952 0.02048353 0.01413498
1-5 0.03966634 0.03226814 0.02804834
6+ 0.02794888 0.03513120 0.04401395

$confidenceLevel
[1] 0.95

$lowerEndpointMatrix
0 1-5 6+
0 0.6034754 0.1962346 0.08623909
1-5 0.3973397 0.2530461 0.18515711
6+ 0.1516566 0.2544673 0.41772208

$upperEndpointMatrix
0 1-5 6+
0 0.7176925 0.2636194 0.1327390
1-5 0.5278304 0.3591988 0.2774279
6+ 0.2436003 0.3700387 0.5625151

$logLikelihood
[1] -1040.419

> modelo2 = fitHigherOrder(rain$rain, 2)


> modelo2
$lambda
[1] 0.5 0.5

$Q
$Q[[1]]
0 1-5 6+
0 0.6605839 0.4625850 0.1976285
1-5 0.2299270 0.3061224 0.3122530
6+ 0.1094891 0.2312925 0.4901186

$Q[[2]]
0 1-5 6+
0 0.6021898 0.4489796 0.3412698
1-5 0.2445255 0.2687075 0.3214286
6+ 0.1532847 0.2823129 0.3373016

$X
0 1-5 6+
0.5000000 0.2691606 0.2308394

A Cadeia de Markov é uma ferramenta essencial para a modelagem de muitos sistemas práticos,
2.4. CADEIAS DE MARKOV MULTIVARIADAS 121

como sistemas de filas, sistemas de manufatura e sequências de dados categóricos. Múltiplas sequências
de dados categóricos ocorrem em muitas aplicações, tais como controle de estoque, mineração de dados e
mercado financeiro. Em muitas situaçõs práticas, gostarı́amos de considerar várias sequências de dados
categóricos no mesmo perı́odo de tempo. A razão é que as sequências de dados podem ser correlacionadas
e, portanto, explorando seus relacionamentos podemos desenvolver modelos melhores.
122 CAPÍTULO 2. INFERÊNCIA EM CADEIAS DE MARKOV

Você também pode gostar