Você está na página 1de 222

CAPÍTULO 1

MODELOS DE PROBABILIDADES EM ENGENHARIA ELÉTRICA E


ENGENHARIA DE COMPUTAÇÃO

1.1 MODELOS MATEMÁTICOS COMO FERRAMENTA DE ANÁLISE E


PROJETO

Um modelo é uma representação aproximada de uma situação física.


Modelos matemáticos são usados quando o fenômeno observado tem propriedades
mensuráveis.
Um modelo simulado por computador consiste de um programa de computador que simula
a dinâmica de um sistema

Figura 1.1- Modelo de processo

1
1.2 MODELOS DETERMINÍSTICOS

Em modelos determinísticos a condição sobre o qual um experimento é levado em


consideração determina o resultado exato do experimento.

1.3 MODELOS PROBABILÍSTICOS

Definimos um experimento aleatório como sendo um experimento no qual o resultado varia


de uma maneira não prevista quando o experimento é repetido sobre certas situações.
Como exemplo de experimento, suponhamos que uma bola é selecionada de uma urna
contendo três bolas idênticas , identificadas como 0, 1, 2. A urna é primeiramente sacudida
para tornar aleatória a posição das bolas, e uma bola é selecionada. O número da bola é
anotado, e a bola é então retornada à urna. O resultado deste experimento é um número
aleatório de um conjunto S = { 0,1,2}. Chamamos o conjunto S de espaço amostral. A
Figura 1.2. mostra o resultado em 100 repetições ( testes ) da simulação deste experimento
com a urna. É claro que o resultado deste experimento não pode ser consistentemente
previsto corretamente.

Figura 1.2- Resultado do experimento da urna

2
Regularidade Estatística

Com o objetivo de ser útil, um modelo precisa permitir nos fazer previsões sobre o futuro
comportamento do sistema, e com o objetivo de prever, um fenômeno precisa exibir
regularidade. Muitos modelos probabilísticos em engenharia são baseados no fato que
médias obtidas ao longo da sequência de repetições ( testes ) de experimentos aleatórios
consistentemente produz o mesmo valor. Esta propriedade é chamada de regularidade
estatística

Suponhamos que o experimento de urna acima é repetido n vezes sobre situações idênticas.
Seja No(n), N1(n), e N2(n) o número de vezes que a bola 0, 1, e 2, são repetidas, e seja a
frequência relativa de cada resultado definida por

N k ( n)
fk  (1.1)
n

Pela regularidade estatística queremos dizer que fk(n) varia menos e menos quando o valor
n é feito grande, isto é ,

lim fk(n) = pk (1.2)


n

A constante pk é chamada probabilidade do resultado k. A Equação (1.2) estabelece que a


probabilidade de um resultado é uma proporção em longo-termo do tempo que aparece em
uma sequência longa de testes.

Propriedades da Frequência Relativa


Desde que o número de ocorrências de qualquer resultado em n testes é um número entre
zero e n, podemos ter
0  Nk(n)  n k =1,2,3,......K

3
Figura 1.3- Frequência relativa do experimento da urna.

Figura 1.4 Frequência relativa do experimento da urna.

4
e então dividindo a equação acima por n, achamos que a frequências relativas são números
entre zero e um:

0  fk(n)  1 para , =1,2,3,....K

A soma do número de ocorrências de todos os possíveis resultados precisa ser n:

N
k 1
k (n)  n.

Se dividimos ambos os lados da equação acima por n, achamos que a soma de todas as
frequências são iguais a um:

f
k 1
k ( n)  1 (1.4)

Algumas vezes estamos interessados na ocorrência de eventos associados com o resultado


de experimentos. Por exemplo, consideremos o evento “sair um número par na bola
selecionada” no experimento das urnas acima. Qual é a frequência relativa do evento ? O
evento ocorrerá se o número da bola for 0 ou 2. O número de experimentos no qual o
resulta que o número da bola é par é entretanto NE(n) = No(n) + N2(n). A frequência relativa
é então
N (n) N o (n)  N 2 (n)
f E (n)  E   f o (n)  f 2 (n)
n n

Approach Axiomático da Teoria das Probabilidades

A Eq. (1.2) sugere que definamos a probabilidade de um evento por sua frequência relativa
“longo-termo”. A teoria moderna das probabilidades começa com a construção de um
conjunto de axiomas que especificam que designações probabilísticas e precisam
satisfazer certas propriedades. Suponhamos que (1): um experimento tem sido definido, e o
conjunto S de todos os possíveis resultados tem sido identificado; (2) uma classe de
subconjuntos de S chamados eventos tem sido especificados; e (3) cada evento A tem sido
designado com um número, P[A], de tal maneira que os seguintes axiomas são satisfeitos:

1. 0  P[A]  1.
2. P[S] =1.
3. Se A e B são eventos que não podem ocorrer simultaneamente, então
P[A ou B] = P[A] + P[B]

5
1.4 UM EXEMPLO DETALHADO : UM PACOTE DE VOZ EM UM SISTEMA DE
TRANSMISSÃO

Suponhamos que um sistema de comunicações é exigido transmitir 48 conversações


simultâneas de uma cidade A para uma cidade B usando “pacotes” de informações de voz.
Considerando um sistema que transmite 48 pacotes em 10 ms. Quando se transmite um
sinal de voz a média de pacotes que possuem silencio é de 2/3, isto é não temos voz durante
este intervalo de tempo. Para o caso então teremos em 48 pacotes apenas 48/3= 16 possuem
voz ativa( não silêncio).

Figura 1.5 Transmissão de um pacote de voz.

Suponhamos que o nosso experimento observa o número de pacotes ativos. Seja A(j) o
resultado do j-ésimo experimento. Considerando que fazemos este experimento n vezes e
Nk(n) é o número de resultados os quais tem k pacotes ativos. A frequência relativa do
resultado k nas n trial é então,

6
a qual supomos que a frequência convirja para pk,

Figura 1.6 Probabilidade de pacote ativo em 48 locutores

No capítulo seguinte vamos derivar a expressão da probabilidade pk que k locutores estejam


ativos. A Fig. 1.6 mostra pk versus k. Pode se observar que os maiores valores para
locutores que estão ativos estão próximos de 16 e que os números de locutores ativos acima
de 24 é desprezado. O número médio de pacotes ativos em 10 ms é dado pela média
amostral dos pacotes ativos:

7
A primeira expressão adiciona o número de pacotes ativos produzidos na n trial. A segunda
expressão Quando n é grande a razão,
Nk/n aproxima de pk. Então o número médio de pacotes ativos produzidos em 10 ms
aproxima

A expressão da direita será definida como valor esperado de A, e pode ser determinado
conhecendo se pk. Para o caso E[A]=48/3 = 16. Esta média é chamada de média long-term.

1.5 OUTROS EXEMPLOS

Processamento Aleatório de Sinais

Como exemplo específico, suponhamos que observamos a forma de onda de uma voltagem,
Y(t) , a qual é a soma da forma de onda da voltagem de interesse, S(t) (sinal), e uma
voltagem não desejada, N(t) (ruído). Por exemplo em um gravador magnético, o sinal pode
ser o correspondente sinal musical, e o ruído pode ser o zumbido inerente do meio
magnético.

Compressão de Imagem

Por exemplo, suponhamos que estamos interessados em um sinal de música S(t). A técnica
de compressão de sinais envolve representação de sinais usando uma eficiente
representação preditiva do sinal, onde o próximo valor do sinal é previsto usando as
amostras dos valores passados. Somente o erro na predição, isto é, o valor previsto menos o
valor real será codificado.
Para trabalhar com predição de sinais é necessário ter conhecimento da estatística do sinal
para calcular a correlação do mesmo.

Comunicação sobre canais não confiáveis

Em um sistema de transmissão de informações se transmite os bits ‘0’ e ‘1’. O sinal ao


passar pelo canal poderá sofre interferência de um ruído proveniente de um motor elétrico,
relâmpago, etc. Ao chegar no receptor um processo de decisão poderá identifica-los as
vezes de maneira errada. Isto significa que o bit ‘0’ poderá ser erroneamente detectado
como bit ‘1’, e o bit ‘1’ poderá ser detectado como bit ‘0’.
Uma das maneiras para reduzir a taxa de erros é usar um código de correção de erro ao bit
original, ‘0’ e ‘1’. Um código simples é introduzir uma repetição de bits tal como

8
0 → 000

1 → 111

Figura 1.7 Modelo de um sistema de comunicação binária

Confiabilidade de Sistemas

Confiabilidade é de grande importância em projetos de sistemas de computação,


comunicações, energia etc.
Uma operação do sistema requer operações em todos os componentes. A Fig. 1.8(a) mostra
um sistema que funciona somente quando todos os componentes estão funcionando. A Fig.
1.8(b) mostra um sistema que funciona quando no mínimo um sistema funciona.
A teoria das probabilidades permite calcular o tempo médio de falha e a probabilidade que
um componente pode funcionar por um determinado intervalo de tempo.

9
Figura 1.8 Sistema com n componentes

Sistema de Compartilhamento de Recursos

Muitos sistemas envolve o compartilhamento de recursos que são sujeitos demandas


estáveis e aleatórias. Cliente necessitam de demandas por um curto período de serviço
entre longos períodos inativos. Um boa técnica é configurar sistemas que compartilham
recursos através de uma forma dinâmica.

Figura 1.9 Modelo de um sistema servidor Web simples

10
Sistemas de internet

Um dos maiores desafios é projetar sistemas de internet como servidor-cliente da Fig 1.9
que envolva sistemas distribuídos como na Fig. 1.10. A interação entre os usuários da
internet são bastante complexa. Por exemplo, um link na Web que liga a outra Web cria
uma vasta Web de documentos interconectados.

Figura 1.10 Uma grande comunidade de usuários interagindo através da internet.

PROBLEMAS

1.1.Um experimento consiste em selecionar duas bolas em sequência de uma urna contendo
duas bolas pretas e uma bola branca.
(a) Especifique o espaço amostral deste experimento.
(b) Suponha que o experimento é modificado tal que a bola é imediatamente reposta de
volta na urna após a primeira seleção. Qual é o espaço amostral agora ?
(c) Qual é a frequência relativa do resultado ( branca, branca) em um número grande de
repetições do experimento da parte a? Na parte b?

11
(d) Em ambos os casos do experimento o resultado da segunda retirada da urna depende
de alguma maneira do resultado da primeira retirada ?

1.2.Considere os três experimentos seguintes:


Experimento 1: lançar um moeda
Experimento 2: lançar um dado
Experimento 3: selecionar uma bola de uma urna contendo bolas numeradas de 0 a 9.
(a) Especifique o espaço amostral de cada experimento.
(b) Ache a frequência relativa de cada resultado em cada um dos experimentos em um
grande número de repetições do experimento. Explique sua resposta.

1.3.Um experimento aleatório tem espaço amostral S={1,2,3,4} com probabilidades:


p1=1//5, p2=1/4, p3=1/8, p4=1/8.
(a) Descreva como o espaço amostral pode ser simulado usando lançamentos de
moedas.
(b) Descreva como este experimento pode ser simulado usando um experimento com
urna.
(c) Descreva como este experimento pode ser simulado usando um deque de 52 cartas.

1.10. Suponha que o sinal 2cos(2πt) é amostrado em um instante de tempo.


(a) Ache a média amostral long-term.
(b) Ache a frequencia relativa long-term do evento “ voltagem positiva” , “
voltagem negartiva é menor do que -2” .
(c) As respostas da parte (a) e (b) mudam se os tempos de amostragens são
periódicos e assume valor τ?

1.11. Os seguintes dados são obtidos amostrando uma voltagem :


7, 3, -9 ,4,7,-2,-8,4,3,-5,5,4,1,-6,3,-7,1,-9,0.
(a) Ache a frequência relativa do evento “ voltagem é positiva”.
(b) Ache a média amostral e a variância dos dados.
(c) Desenhe a função distribuição empírica, definida por,

𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝑚𝑒𝑛𝑜𝑟 𝑑𝑜 𝑞𝑢𝑒 𝑥


𝐹(𝑥) = −∞<𝑥 <∞
𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠

1.12. Considere os dados chegando em um computador com interchegadas :


14, 3, 11, 4, 12, 10, 2, 3, 7, 8, 14, 1, 5, 16, 14, 10, 2, 3, 20, 12.
(a) Ache a média amostral e a variância dos dados.
(b) Ache a frequência relativa dos eventos “ o tempo de interchegada é maior do que
10 ms.
(c) Desenhe a função distribuição empírica definida pelo problema anterior.

12
CAPÍTULO 2
CONCEITOS BÁSICOS DA TEORIA DA PROBABILIDADE

2.1-Especificando um experimento aleatório

Um experimento aleatório é um experimento no qual o resultado varia de uma maneira não


previsível quando o experimento é repetido sobre certas condições. Um experimento
aleatório é especificado estabelecendo um procedimento de uma ou mais observações.

_______________________________________________________________
Exemplo 2.1
Experimento E1 : Selecione uma bola de uma urna contendo bolas numeradas de 1 até 50.
Experimento E2 : Selecione uma bola de uma urna contendo bolas numeradas de 1 até 4.
Suponha que a bola 1 e 2 são pretas e as bolas 3 e 4 são brancas. Anote o número e a cor da
bola que você retirou.
Experimento E3:Lance uma moeda três vezes e anote a sequência de cara e coroa.
Experimento E4: lance uma moeda três vezes e anote o número de caras.

Espaço Amostral

Definimos resultado ou ponto amostral de um experimento como um resultado que não


pode se decomposto em outros resultados. Os resultados são mutuamente exclusivos. O
espaço amostral S de um experimento é definido como o conjunto de todos os resultados
possíveis.

O espaço amostral S pode ser especificado compactamente usando a notação de conjunto.


Ele pode ser visualizado desenhando tabelas, diagramas, intervalos na reta real, ou regiões
no plano. Há duas maneiras de especificar um conjunto:

1. Listar todos os elementos, separados por vírgula, dentro de um colchete:


2.
A = {0,1,2,3},

3. Dando a propriedade que especifica os elementos do conjunto:

A={ 𝑥: 𝑥 é 𝑢𝑚 𝑖𝑛𝑡𝑒𝑖𝑟𝑜 𝑡𝑎𝑙 𝑞𝑢𝑒 0 ≤ 𝑥 ≤ 3}

Note que a ordem nos itens listados não muda o conjunto, isto é, {0,1,2,3} e {1,2,3,0,} são
o mesmo conjunto.

13
Exemplo 2.2
Um espaço amostral correspondente aos experimentos E1, E2, E3 e E4 são:
S1 = 1,2,3,4,.....50
S2 = (1,b),(2,b),(3,w),(4,w)
S3 = { HHH,HHT,HHT,HTH,HHT,HTT,TTH,TTT}
S4 = { 0,1,2,3}
S5={0,1,2,....N}
S6={1,2,3,...}
S7={𝑥: 0 ≤ 𝑥 ≤ 1} = [0 1]
S8={𝑡: 𝑡 ≥ 0} = [0, ∞)
S9= {𝑡: 𝑡 ≥ 0} = [0, ∞)
S10={𝑣: −∞ < 𝑣 < ∞}
S11={(𝑣1, 𝑣2 ) : − ∞ < 𝑣1 < ∞ 𝑒 − ∞ < 𝑣2 < ∞}
S12={(𝑥, 𝑦): 0 ≤ 𝑥 ≤ 1 𝑒 0 ≤ 𝑦 ≤ 1}
S13={(𝑥, 𝑦): 0 ≤ 𝑦 ≤ 𝑥 ≤ 1}

Figura 2.1- Espaço amostral dos experimentos E7, E9,E12.

_______________________________________________________________

Chamaremos S de um espaço amostral discreto se S é contável; isto é os resultados tem


uma correspondência um a um com os números inteiros positivos.
Chamaremos S de um espaço amostral contínuo se S não é contável.

Evento
Definiremos evento como um sub-conjunto de S. Dois eventos de interesse são : o evento
certo, S, o qual consiste de todos os resultados e então sempre ocorre, e o evento impossível

14
ou nulo, , o qual não contém nenhum resultado e então nunca ocorre.

Exemplo 2.3
Nos exemplos que seguem, Ak corresponde aos eventos dos experimentos Ek do exemplo
2.1.

E1 : “bolas pares” A1 = 2,4,6,.....50


E2 :” bolas pares e branca A2 “= (4,w)
E3: “ Os três lançamentos dão o mesmo resultado “: A3 = { HHH,TTT}.
E4: “ O número de caras é igual ao número de coroas “: A4 = .

O evento elementar é constituído de um único elemento.

Operações com conjunto

União de dois eventos A e B expressa por AB é definida como o conjunto de resultados
que está em A ou B, ou nos dois.

Interseção de dois eventos A e B expressa por  é definida como o conjunto de resultados


que está em A e B
Dois eventos são ditos mutuamente exclusivo a interseção dos dois é um evento nulo,
AB = .
O complemento de um evento A expresso por Ac é definido como o conjunto de
resultados que não estão em A.

Propriedades

Comutativa
AB = BA e AB = BA

Associativa
A(BC)= (AB)C e A(BC) = (AB)C

Distributiva
A(BC) = (AB)(AB)
A(BC) = (AB)(AC)

Leis de Morgan

(AB)c =AcBc e (AB)c = AcBc

15
Figura 2.2- Operações com conjuntos e relações de conjuntos

_______________________________________________________________

Exemplo 2.4
Para um experimento definido como a voltagem em um instante de tempo t1, os eventos A,
B e C são definidos como,
A =  v ; v  10
B = v : v  -5
C = v : v 0

Podemos verificar que


AB = { v: v < -5 ou v > 10 }
AB = { v : v < -10 }
Cc = { v : v  0 }

16
Axiomas da probabilidade

Probabilidade são números atribuídos à eventos que indicam a provável ocorrência dos
eventos. Uma lei de probabilidade para um certo experimento aleatório é uma regra que
designa probabilidade à eventos do experimento.

Axioma I 0  P[A]
Axioma II P[S] = 1
Axioma III Se AB =  então P[AB] = P[A] + P[B]
Axioma III’ Se A1, B2, ... forma uma sequência de eventos tais que AiAj =  para todos
i j , então,
 
P[  Ak ]   P[ Ak ]
k 1 k 1

Corolários

Corolário1 : P[Ac] = 1- P[A]

Pelo axioma III


Se AAc = , P[A] + P[Ac] = P[S] = 1, então
P[Ac] = 1 – P[A]

Corolário 2 : P[A]  1
P[A] = 1- P[Ac]  1 , pois pelo axioma I, P[Ac]  0

Corolário 3 : P[] = 0
Seja A = S,
Ac = , então pelo corolário 2
P[] = 1- P[S] = 0

 
Corolário 4 : P[  Ak ]   P[ Ak ]
k 1 k 1
Se A1.....A2 são mutuamente exclusivo

Corolário 5 : P[ AB] = P[A] + P[B] – P[AB]


Pela Fig.2.4
P[AB] = P[ABc] + P[AB] + P[AcB]
Mas
P[A] = P[ABc] + P[AB]
P[B] = P[AB] + P[AcB]
Substituindo, na primeira equação temos

P[ AB] = P[A] + P[B] – P[AB]

17
 
Corolário 6 : : P[  Ak ]   P[ A j ]   P[ A j  Ak ]  ....(1) n 1 P[ A1  .... An ]
k 1 j 1 j k

Corolário 7: Se A B então P[A]  P[B]

Figura 2.4- Decomposição de AB em três conjuntos disjuntos.

Figura 2.5- Se A  B então P[A]  P[B]

Espaço Amostral Discreto

Primeiro, suponhamos que o espaço amostral é finito S = { a1,a2,.......an}. Todos eventos


elementares distintos são mutuamente exclusivos, tal que pelo corolário 4 a probabilidade
de qualquer evento B = { a1´,a2´,... an´} , seja dada por

P[B] = P[{a1´,a2´....an´}] = P[{a1´}] + P[{a2´}] + ... P[{am´}]

18
Isto é, a probabilidade de um evento é a soma das probabilidades dos resultados no evento.
Se um espaço amostral possui n elementos, S = { a1, ....an}, uma probabilidade de particular
interesse é o caso de resultados igualmente prováveis. A probabilidade dos eventos
elementares é
P[{a1}] = P[{a2}] = .......... P[{an}] = 1/n.

_______________________________________________________________

Exemplo 2.6
Uma urna contém 10 bolas idênticas numeradas de 0,1, ....9. Um experimento
aleatório seleciona as bolas da urna. Ache a probabilidade dos eventos.

A = todas as bolas que são ímpares.


B = as bolas que são múltiplas de 3.
C = as bolas cujos números são menores do que 5.

A = { 1,3,5,7,9 }, B = { 3,6,9 }, C = { 0,1,2,3,4 }

P[A] = P[{1}] + P [{3}] + P[{5}] + P[{7}] + P[{9}] = 5/10


P[B] = P[{3}] + P[{6}] + P[{9}] = 3/10
P[C] = P[{0}] + P[{1}] + P [{2}] + P[{3}] + P[{4}] = 5/10

Mas como , AB = { 3,9}= 2/10, então

P[ AB] = P[A] + P[B] – P[AB] = 5/10 + 3/10 – 2/10 = 6/10


_______________________________________________________________

Exemplo 2.7
Suponhamos que uma moeda é lançada três vezes. Se observamos a sequência de
cara (H) e coroa (T), então haverá oito possibilidades S8 = { HHH, HHT, HTH, THH, TTH,
THT, HTT, TTT}. A probabilidade de sair duas caras será:

P[duas caras em três lançamentos ] = P[{HHT,HTH,THH}] = 3/8.

Suponhamos que a moeda é lançada três vezes e contamos no número de caras nos três
lançamentos em vez de observarmos a sequência de caras e coroas. O espaço amostral é
agora S4 = [ 0,1,2,3}.
_______________________________________________________________

Espaço Amostral Contínuo


Espaço amostral contínuo acontece em experimentos nos quais os resultados são números
que pode assumir valores contínuos, tal que o espaço amostral S assume valores na reta real
R.

19
_______________________________________________________________

Exemplo. 2.9
Consideremos um experimento “pegar um número x aleatório entre 0 e 1”. O
espaço amostral S para este experimento é o intervalo unitário [0,1], o qual é não contável
infinito.

P[[a,b]] = (b-a) para 0  a  b 1

_______________________________________________________________

Calculando Probabilidade usando métodos de contagem

Supondo que em um teste de múltiplas escolhas tem k questões e que para cada questão i o
estudante precisa selecionar uma das ni possíveis resposta. Qual é o número total de
maneiras de responder o teste inteiro? A resposta a questão i pode ser vista como
especificando o i-ésima componente das k-tuplas, tal que a questão acima é equivalente a:
Quantas diferentes k-tuplas (x1, .....xk) são possíveis se xi é um elemento do conjunto com
ni distintos elementos?
Considerando o caso de k=2. Se arranjamos todas as possíveis escolhas para x i e x2 ao
longo da tabela mostrada na Fig. 2.8, podemos ver que há n1n2 distintos pares ordenados.
Para uma tripla podemos arranjar n1n2 ao longo do lado vertical da tabela e n3 escolhas para
x3 ao longo do lado horizontal. Claramente, o número de possíveis triplas é n1n2n3.
Em geral, o número de k-tuples ordenadas distintas ( x1....xk) com componentes xi do
conjunto com ni elementos distintos é

Número de distintas k-tuplas = n1n2....nk

Figura 2.8- x1 assume n1 valores e n2 assume n2 valores com um total de n1n2 pares.

20
Amostrando com Reposição e Ordenamento

Supondo que escolhemos k objetos de um conjunto A que tem n distintos objetos com
reposição – isto é, após selecionando um objeto e notando sua identidade em uma lista
ordenada, o objeto é reposto de volta em no conjunto antes da próxima escolha se feita. O
conjunto A é chamado de “ população”.

O experimento produz uma k-tulples ordenada,

(x1.......xk) (2.19)

Sendo xi ϵ A e i=1,.....k. A Equação (2.19) com n1= n2=......nk=n implica que o número de
k-tuples distintas = nk.

Amostragem com Reposição e com Ordenamento

Supondo que escolhemos k objetos sequencialmente sem reposição da população A que


contém inicialmente n objetos distintos. Claramente, 𝑘 ≤ 𝑛. O número de possíveis
resultados na primeira retirada é n1= n: o número de possíveis resultados na segunda
retirada é n2 = n-1, isto é, todos os objetos menos aquele selecionado na primeira retirada; e
assim até nk = n – (k-1) no final das retiradas. A Equação (2.19) nos fornece

Número de k-tuplas distintas ordenadas = n(n-1).......(n-k+1)

21
Permutação de n Objetos Distintos

Considerando amostragem sem repetição com k=n. Isto é simplesmente retirar objetos de
uma urna contendo n distintos objetos até que que a urna fique vazia. Então, o número de
possíveis arranjos de n distintos objetos é igual a

Ao número de k-tuples ordenada em amostragem sem reposição com k=n. Da Equação


(2.21) temos
Número de permutações com n objetos = n(n-1)(n-2).....(2)(1) = n!

n! é o fatorial de n.
Para valores grandes de n

𝑛~√2𝜋𝑛𝑛+1/2 𝑒 −𝑛

Onde o sinal ~indica que razão dos dois lados tende a unidade quando 𝑛 → ∞.

Exemplo
Ache o número de permutações de três objetos. {1.2,3}. A Equação (2.22) dá 3! = 3.2.1=6.
As seis permutações são

22
123 312 231 132 213 321

2.4 Probabilidade condicional

Frequentemente estamos interessado em determinar se dois eventos A e B estão


relacionados no sentido que conhecendo sobre a ocorrência de um, digamos B, altera a
verosimilhança de ocorrência de outro, A. Isto exige que achamos a probabilidade
condicional, P[A/B], do evento A dado que o evento B ocorreu.
A probabilidade condicional é definida por

P[ A  B]
P[ A / B]  (2.24)
P[ B]

Se interpretamos a probabilidade como frequência relativa, então P[A/B] é a frequência


relativa do envento AB no experimento onde B ocorre.

n AB n AB / n P[ A  B]
 
nB nB / n P[ B]

Figura 2.11- Se B tem ocorrido então A pode ocorrer somente se AB ocorreu

Exemplo 2.21
Uma bola é selecionada de uma urna contendo duas bolas pretas, numeradas com 1
e 2, e duas bolas brancas, numeradas com 3 e 4. O número e cor das bolas é anotado.
tal que o espaço amostral é {(1,b),(2,b),(3,w),(4,w)}. Assumindo que os quatro resultados
são igualmente prováveis, ache P[A/B] e P[A/C], onde A, B e C são os seguintes eventos:

23
A = {(1,b),(2,b)}, “bolas pretas são selecionadas”
B = {2,b),(4,w)}, “ bolas com número par são selecionadas” e
C= {(3,w),(4,w)} , “ bolas com número superior à 2 “.

Desde que P[AB] = P [2,b] e P[AC] = P[] = 0, a equação (2.24) fornece

P[ A  B] 0,25
P[ A / B]    P[ A]
P[ B] 0,5

P[ A  C ] 0
P[ A / C ]    0  P[ A]
P[C ] 0,5
P[AB] = P[A]P[A/B] (2.25a)
e P[AB] = P[B]P[B/A] (2.25b)

_______________________________________________________________

Seja B1, B2, .....Bn eventos mutuamente exclusivo cuja união é igual ao espaço amostral S
como mostrado na figura 2.14. Identificamos estes conjuntos como uma partição de S.
Qualquer evento A pode ser representado pela união de eventos mutuamente exclusivos da
seguinte maneira:

A = A S =A(B1B2.......Bn)
= (AB1)(AB2)....(ABn)

(veja fig. 2.14.) Pelo corolário 4, a probabilidade de A é

P[A] = P[AB1] + P[AB2] + .......P[ABn]


Aplicando a Eq.(2.25 a] a cada dos termos do lado direito, obteremos o teorema da
probabilidade total:

P[A] =P[A/B1]P[B1] + P[A/B2]P[B2] + ...........P[A/Bn]P[Bn] (2.26)

Regra de Bayes

Seja B1, B2,.....Bn partições do espaço amostral S. Suponhamos que o evento A ocorre; qual
é a probabilidade do evento B1? Pela definição de probabilidade condicional temos

P[ A  B j ] P[ A / B j ]P[ B j ]
P[ B j / A]   n

 P{A / B ]P[ B ]
P[ A]
k k
k 1

24
onde usamos o teorema na probabilidade total para substituir P[A].

.
Figura 2.14- Uma partição de S em conjuntos disjuntos.

2.5 EVENTOS INDEPENDENTES

Se o conhecimento da ocorrência de um evento B não altera probabilidade de algum outro


evento A, então será natural dizer que o evento A é independente de B. Em termos de
probabilidade esta situação ocorre quando

P[ A  B]
P[ A]  P[ A / B] 
P[ B]
A equação acima tem um problema que o lado direito é definido quando P[B]=0

2.5 EVENTOS INDEPENDENTES

Definiremos que dois eventos A e B são independentes se

P[AB] = P[A]P[B]. (2.28)


A equação (2.28) então implica que

P[A/B] = P[A] (2.29a)


e,

P[B/A] = P[B] (2.29b)

_______________________________________________________________

25
Exemplo 2.28
Uma bola é selecionada de uma urna contendo duas bolas pretas, numeradas 1 e 2, e
duas bolas brancas, numeradas 3 e 4. Seja o evento A, B, e C definidos como:

A = {(1,b),(2,b)} “bolas pretas selecionadas”


B = {(2,b),(4,w)} “bolar com número par selecionadas”
C = {(3,w),(4,w)} “bolas brancas selecionadas”
São os eventos A e B independentes ? São os eventos A e C independentes ?
Primeiro, considere os eventos A e B. As probabilidades dadas pelas Eq. (2.28) são

P[A] = P[B] = ½ ,
e
P[AB] = P[{(2,b)}] = ¼,
Então
P[AB] = ¼ =P[A]P[B],
e os eventos A e B são independentes. A Eq. (2.29b) dá mais informação sobre o
significado de independência:

P[ A  B] P[{( 2, b)}] 1/ 4 1
P[ A / B]    
P[ B] P[{( 2, b), (4, w)}] 1 / 2 2

P[ A] P[{(1, b), (2, b)}] 1/ 2


P[ A]   
P[ S ] P[{(1, b), (2, b), (3, w), (4, w)}] 1

Estas duas equações implicam que P[A] = P[A/B] porque a proporção de resultados em S
que leva na ocorrência de A é igual a proporção de resultados em B que leva em A. Então o
conhecimento de B não altera a proporcionalidade de ocorrência de A.
Os eventos A e C não são independentes desde que P[AC] = P[] = 0 tal que

P[A/C] = 0  P[A] = 0,5


De fato A e C são mutuamente exclusivos desde que AC = , tal que a ocorrência de C
implica que A não tem definidamente ocorrido.
Em geral se dois eventos em probabilidade não nula e são mutuamente exclusivo, então
eles não podem ser independentes. Supondo que eles são independentes e mutuamente
exclusivos; então
0 = P[AB] = P[A]P[B],
o qual implica que no mínimo um dos eventos precisa ter probabilidade zero.
_______________________________________________________________

Exemplo 2.31
Suponha que uma moeda é lançada três vezes e observamos o resultado da
sequência cara e coroa. Ache a probabilidade dos eventos elementares.
O espaço amostral deste experimento é,
S = { HHH,HHT,HTH,THH,HTT,THT,TTH,TTT }

26
Assumindo que a moeda é justa e que os resultados são equiprováveis P[H]=P[T]=1/2.

P[HHH] =P[H]P[H]P[H] =1/8,


.
.
P[TTT] = P[T]P[T]P[T]= 1/8

_______________________________________________________________

2.6- SEQUÊNCIA DE EXPERIMENTOS

Lei de probabilidade Binomial

Um teste de Bernoulli envolve fazer um experimento uma vez e notar se um particular


evento A ocorra. O resultado do teste de Bernoulli é dito ter sucesso se A ocorre e falha
caso contrário. Neste experimento estamos interessados em achar a probabilidade de k
sucessos em n repetições independentes do teste de Bernoulli.

_______________________________________________________________

Exemplo 2.34

Suponhamos que uma moeda é lançada três vezes. Se assumirmos que os


lançamentos são independentes e a probabilidade de sair cara é p, então a probabilidade
para a sequência de caras e coroas é:

P[HHH] = P[{H}]P[{H}]P[{H}] =p3


P[HHT] = P[{H]]P[{H}]P[{T}] = p2(1-p)
.
.
P[TTT] = P[{T}]P[{T}]P[{T}] = (1-p)3

P[k=0] = P[{TTT}] = (1-p)3


P[k=1] = P[{TTH,THT,HTT}] = 3p(1-p)2
P[k=2] = P[{HHT,HTH,THH}] = 3p2(1-p)
P[k=3] = P[{HHH}] = p3

_______________________________________________________________

Teorema
Seja k o número de sucessos em n testes de Bernoulli independentes, então as
probabilidades de k são dadas pela lei da probabilidade binomial:

27
n
p n (k )    p k (1  p ) n  k para k = 0,....n, (2.32)
k
onde pn(k) é a probabilidade de k sucessos em n testes, e

n n!
  (2.33)
 k  k!( n  k )!

_______________________________________________________________

Exemplo 2.35
Verifique que a Eq. (2.32) nos fornece a probabilidade achada no Exemplo 2.34.

3
p3 (0)    p 0 (1  p) 30  (1  p) 3
0

3
p3 (0)    p 1 (1  p) 31  3 p(1  p) 2
1

3
p3 (2)    p 2 (1  p) 31  3 p 2 (1  p)1
2

3
p3 (3)    p 3 (1  p) 33  p 3
3

_______________________________________________________________

O s coeficientes binomiais são dados do cálculo

n
n
( a  b) n     a k b n  k (2.36)
k 0  k 
Se fazemos a = b= 1 então,

n
n n
2 n       N n (k )
k 0  k  k 0

Se fazemos a = p e b = 1-p na Eq. (2.36), obteremos

28
n n
1     p k (1  p) n  k   p n (k )
k k 0

_______________________________________________________________

Exemplo 2.36
Seja k o número de locutores ativos (não silêncio ) em um grupo de oito locutores
independentes. Suponhamos que os locutores são ativos com probabilidade 1/3. Ache a
probabilidade que o número de locutores ativos seja maior do que 6.

 8  1  7  2   8  1  8
P[k  7]  P[k  8]            0,00244  0,00015  0,00259
 7  3   3   8  3 
_______________________________________________________________

Exemplo 2.37
Um sistema de transmissão de informação binária sobre um canal introduz erros
aleatórios nos bits com probabilidade p=0,001. O transmissor transmite em cada
informação três bits, e o decodificador pega a maioria dos bits para decidir que bit foi
transmitido. Isto é se dois ou mais bits detectados forem ‘0’, a decisão será para o bit ‘0’.
Da mesma maneira se dois ou mais bits detectados forem ‘1’, a decisão será para o bit ‘1’.
Ache a probabilidade que o receptor fará uma decisão errada.
O receptor pode corrigir até um bit errado, mas ele fará uma decisão errada se o
canal introduzir dois erros. Se assumirmos que cada bit transmitido como o resultado de um
processo de Bernoulli no qual o sucesso corresponde a introdução de um erro, então a
probabilidade de termos dois ou três bits errados no processo de Bernoulli será,

3 3
P[k  2]   (0,001) 2 (0,999)   (0,001) 3  3(10) 6
2 3

_______________________________________________________________

PROBLEMAS

2.1- Um dado é lançado duas vezes e o número de pontos das faces para cima é contado
e anotado em ordem de ocorrência.
a- Qual o espaço amostral?
b- Qual é o conjunto A correspondente ao evento “número par de pontos da
face para cima”?
c- Ache o conjunto Ac e descreva o correspondente evento em palavras.

2.2- Um experimento tem espaço amostral = {a,b,c} . Suponha que P[{a,c}]= 5/8 e

29
P[{b,c}]= 7/8. Use os axiomas da probabilidade para achar a probabilidade dos
eventos elementares.

2.3- Um número x é selecionado de um intervalo aleatório {-1,1] . Seja os eventos


A={x<0}, B={|x-0,5|<1}, e C={x>0,5}.
(a) Ache as probabilidades de B, AB, e AC.
(b) Ache a probabilidade de AB, e AC, e ABC, primeiro avaliado
diretamente os conjuntos e suas probabilidades, segundo, usando os
axiomas e suas propriedades.

2.4- Mostre que


P[ABC] = P[A/BC]P[B/C]P[C]

2.5- Mostre que se A e B forem eventos independentes, então os pares A e Bc, Ac e B,


e Ac e Bc são também independentes.

2.6- Um bloco de 100 bits é transmitido sobre um canal binário com probabilidade de
erro do bit p = 10-3. Ache a probabilidade que o bloco contenha três ou mais erros.

2.7- Um dado é lançado e o número de pontos da face para cima é anotado.


(a) Ache a probabilidade do eventos elementares sob a condição que todas
as faces do dado são igualmente prováveis de cair com face para cima
no lançamento.
(b) Ache a probabilidade de que o evento A=[ mais que 3 pontos}:
B={número impar de pontos}.
(c) Ache a probabilidade de A∪B, A∩B, Ac.

2.8- Um experimento aleatório tem espaço amostral S={a,b,c,d}. Suponha que


P[{c,d}]=3/8, P[{b,c}]=6/8, P[{d}],=1/8, P[{c,d}]=3/8. Use os axiomas da
probabilidade para achar as probabilidades dos eventos elementares.

2.9- O número x é selecionado no aleatoriamente no intervalo [-1,2]. Seja o evento


A={x<0], B=[{|x-0.5|}], e C={x>0,75}.
(a) Ache as probabilidades de A,B,A∩ 𝐶
(b) Ache as probabilidades de 𝐴 ∪ 𝐵, 𝐴 ∪ 𝐶, 𝐴 ∪ 𝐵 ∪ 𝐶, primeiro, por direto
cálculo dos conjuntos e então por suas probabilidades, e segundo, usando
as propriedades dos axiomas e corolários.

2.10- A combinação de um cadeado é dado por tres número do conjunto {0,1......59}.


Ache o número de possíveis combinações.
Quantos números telefônicos são possíveis com com sete dígitos se não é permitido
que o primeiro número seja 0 ou 1?

30
2.11- Seja S={1,2,3,4} e A={1,2}, B={1,3}, C={1,4}. Assuma que os resultados são
equiprováveis. São A,B, e C independentes?

2.12- Um bloco de 100 bits é transmitido em um canal com probabilidade de erro p=10-2 .
(a) Se o bloco tem 1 ou menos erro então o bloco é aceito. Ache a
probabilidade que o bloco seja aceito.
(b) Se o bloco tem mais de um erro, então o bloco é retransmitido. Ache a
probabilidade que M transmissões seja feita.

2.13- Um sistema contém oito chips. O tempo de vida de cada chip segue a probabilidade
de Weibull : com parâmetros λ e k=2: 𝑃(𝑡, ∞) = exp(−𝑀𝑘 ). Ache a probabilidade
que no mínimo dois chips funcione após 2/λ segundos.

CAPÍTULO 3

VARIÁVEIS ALEATÓRIAS

3.1 ANOTAÇÃO DE UMA VARIÁVEL ALEATÓRIA

Uma variável aleatória X é uma função que atribui um número real, X(), a cada resultado
 no espaço amostral de um experimento aleatório.

31
Figura 3.1- Uma variável aleatória designa um número X() a cada resultado no espaço
amostra S de um experimento .

Exemplo 3.1
Suponhamos que uma moeda é lançada três vezes e a sequência de caras e coroas é
anotada. O espaço amostral para este experimento é S ={HHH, HHT, HTH, THH, HTT,
THT, TTH, TTT}. Agora seja  o número de caras em três lançamentos. X atribui cada
resultado  no espaço S um número de um conjunto Sx = {0, 1, 2, 3}. A tabela lista os oito
resultados de S e o correspondente valor de S:

 : HHH,HHT,HTH,THH,HTT,THT,TTH,TTT
X(): 3 2 2 2 1 1 1 0

X é então a variável aleatória assumindo valores no conjunto Sx = { 0, 1, 2, 3}


_______________________________________________________________

Exemplo 3.3
O evento { X = k} ( k caras em três lançamentos ) ocorre quando o resultado do
lançamento de uma moeda em um experimento contém k caras. A probabilidade de
ocorrência do evento { X = k ) é entretanto dada pela soma das probabilidades dos
resultados correspondentes ou eventos elementares. No exemplo 2.34, achamos a
probabilidade dos eventos elementares do lançamento de uma moeda. Então teremos

po = P[ X = 0 ] = P[{TTT}] = (1-p)3,

p1 = P [ X = 1] = P[{HTT}] + P[{THT}] + P[{TTH}] = 3(1-p)2p,

p2 = P[ X= 2] = P[{HHT}] + P[{HTH}] + P[{THH}] = 3(1-p)p2,


e
p3 = P[X = 3] = P[{HHH}] = p3
_______________________________________________________________

3.2 FUNÇÃO DISTRIBUIÇÃO ACUMULADA

A função distribuição acumulada (cdf) de uma variável aleatória X é definida como a


probabilidade do evento ( X  x );

Fx(x) = P[Xx] para -  x   (3.1)

Os axiomas da probabilidade e seus corolários implicam que a cdf tem as seguintes


propriedades:

i. 0  Fx(x)  1.
ii. lim Fx ( x)  1
x 

32
iii. lim Fx ( x)  0
x  

iii. Fx(x) é uma função não decrescente de x, isto é, se a < b, então Fx(x)  Fx(b).
v. Fx(x) é uma função contínua do lado direito, isto é, para h > 0,
Fx(b) = lim Fx (b  h)  Fx (b) .
h 0

vi. P[a<Xb] = Fx(b) – Fx(a).


vii. P[X=b] = Fx(b) – Fx(b-).

A função degrau unitário é definida como

0 x<0
u(x) =
1 x0

A função delta (t) é definida em termos da função degrau unitário pela seguinte equação:


u (t )    (t ).dt.


_________________________________________________________________________

Exemplo 3.4
A Fig. 3.3(a) mostra a cdf de uma variável aleatória X, a qual é definida como o
número de caras em três lançamentos de uma moda justa. Do exemplo 3.1 sabemos que X
assume apenas os valores 0, 1, 2 e 3 com probabilidades 1/8, 3/8, 3/8 e 1/8 respectivamente,
tal que Fx(x) é simples das probabilidades dos resultados de { 0, 1, 2, 3 } que são menores
ou iguais a x. O resultado da cdf é visto ter descontinuidade em 0, 1, 2, 3. A cdf pode ser
escrita compactamente em termos da função degrau unitário:

0 x<0
u(x) =
1 x0

Fx(x) = u(x)/8 + 3u(x-1)/8 + 3u(x-2)/8 + u(x-3)/8

33
Figura 3.3- Uma exemplo de uma variável aleatória discreta binomial com n=3, p=1/2.
Parte(a) é a função distribuição acumulada e parte (b) é a função densidade de
probabilidade.

Exemplo 3.5
O tempo de transmissão X de uma mensagem em um sistema de comunicações
obedece a probabilidade da lei exponencial com parâmetro , que é,
P[X > x ] = e-x x>0
Ache a cdf de X. Ache P[ T < X < 2T], onde T =1/.
A cdf de X é FX(x) = P[Xx] = 1- P[X>1]:

0 x<0
FX(x) =
1- e-x x  0

A cdf é mostrada na Fig. 3.4(a). Da propriedade (vi) temos que


P[T < X  2T] = 1-e-2 –(1-e-1) = e-1 – e-2  0,233
Nota-se que FX(x) é contínua para todo x. Nota-se também que sua derivada existe em todo
lugar exceto em x = 0:

0 x<0
F´X(x) =
e-x x≥0

34
F´X(x) é mostrado na Fig. 3.4(b).

Figura 3.4- Um exemplo de variável aleatória exponencial contínua. Parte(a) é função


distribuição acumulada e parte (b) é a função densidade de probabilidade.

_______________________________________________________________

Exemplo 3 6
O tempo de espera de X de um freguês em um sistema de fila é zero se ele achar o
sistema desocupado. Se o sistema estiver ocupado o sistema segue a distribuição
exponencial. A probabilidade que ele ache o sistema desocupado e ocupado são p e 1-p,
respectivamente. Ache a cdf de X.

A cdf de X é achada como segue:

FX(x) = P[X  x}= P[X  x/ desocupado]p + P[Xx/ocupado](1-p),


Onde na última igualdade foi usado o teorema da probabilidade total, Eq. (2.26). Nota-se
que P[Xx/desocupado] = 1 quando x0 e 0 para outros valores, temos:

0 x<0
FX(x) =
p + (1-p)(1-e-x) x  0.

_______________________________________________________________

Os três Tipos de Variáveis Aleatórias.

35
Uma variável aleatória discreta é definida como uma variável aleatória cuja cdf é
contínua lado-direito, função escada em x, com saltos em um número contável de conjunto
de pontos xo, x1, x2,........ A variável aleatória no exemplo 3.4 é um exemplo de variável
aleatória discreta.
Uma função massa de probabilidade ( pmf ) de X é um conjunto de probabilidades pX(xk)
= P[X=xk] dos elementos em SX.
A cdf de uma variável aleatória discreta pode ser escrita como a soma ponderada de
funções degraus unitários como no exemplo 3.4:

FX   p X ( xk )u ( x  xk ),
k

onde pX(xk) = P[X=xk] dá a intensidade dos saltos na cdf.

Uma variável aleatória contínua é definida como uma variável aleatória cuja cdf ( FX(x))
é contínua em todo espaço, e é suficientemente suave tal que ela pode ser escrita como
uma integral de alguma função não negativa f(x):

x
FX ( x)   f (t )dt.


Uma variável aleatória do tipo mista é uma variável aleatória com cdf que tem saltos em
um conjunto contável de pontos xo, x1, x2, ....mas também aumenta continuamente sobre
um intervalo mínimo de x. A cdf desta variável aleatória em a forma

FX(x) = pF1(x) + (1-p)F2(x),


Onde 0 < p < 1, e F1(x) é a cdf da variável aleatória discreta e F2(x) é a cdf da variável
aleatória contínua. A variável aleatória do exemplo 3.6 é do tipo mista.

3.3 FUNÇÃO DENSIDADE DE PROBABILIDADE

A função densidade de probabilidade (pdf) de X, se ela existe, é definida como a


derivada de FX(x):

dFX ( x)
f X ( x)  (3.7)
dx
i. fX(x)  0
b
ii. P[a  x  b)   f X( x)dx.
a

x
iii. FX ( x)   f X (t )dt (3.12)


36

iii. 1   f X (t )dt.


Figura 3.6- (a) A função densidade de probabilidade especifica o intervalo de probabilidade


com. (b) a probabilidade do intervalo [a,b] é a área sobre a pdf no intervalo.
_______________________________________________________________

Exemplo 3.7
A pdf da variável aleatória uniforme é dada por:

1/(b-a) a  x b (3.15a)
fX(x) =

0 x < a e x> b

e é mostrada na Fig. 3.7(a). A cdf é achada da Eq. (3.12):

0 x<0
FX(x) = (x-a)/(b-a) axx

1 x >b

A cdf é mostra na Fig. 3.7(b).

37
Figura 3.7- Variável aleatória uniforme. Parte (a) é a função densidade de probabilidade, e
parte (b) é a função distribuição acumulada.

_______________________________________________________________

Exemplo 3.8
A pdf das amostras da amplitude de um sinal de voz decai exponencialmente na
taxa , tal que a pdf é :

fX(x) = ce-|x| - < x <  (3.16)

Ache a constante c, e então a probabilidade P[|X| < v].

Usando a condição de normalização (iv) para achar c:

  2c
1   ce  | x| dx  2 ce x dx  .
 0 
Entretanto c = /2. A probailidade P[|X| < v] é achada por integração da pdf:

 v  v

2 2
P[| X | v]  e  | x| dx  2 e x
dx  1  e v
v 0

Relembrando da seção 3.2 que a cdf de uma variável aleatória discreta pode ser escrita
como a soma ponderada de funções degrau unitário:

38
FX ( x)   p X ( xk )u ( x  xk ), (3.19)
k
onde a função massa de probabilidade é px(xk) = P[X=xk]. Poderemos generalizar a
definição da fdp fX(x) tal que a Eq. (3.12) satisfaça para variáveis aleatórias discretas:

x
iii FX ( x)   f X (t )dt.

Isto sugere que definamos a pdf para uma variável aleatória discreta por

f X ( x)   p X ( xk ) ( x  xk ) (3.21).
k

Exemplo 3.9
Seja X o número de caras no lançamento de três moedas como no Exemplo 3.4.
Ache a pdf de X. Ache P[1 < X  2] e P[2  X < 3] por integração da pdf.
No exemplo 3.4 achamos que a cdf de X é dada por

Fx(x) = u(x)/8 + 3u(x-1)/8 + 3u(x-2)/8 + u(x-3)/8

Segue da Eq. (3.19) e (2.21) que

fX(x) = (x)/8 + 3(x-1)/8 + 3(x-2)/8 + (x-3)/8

2 3
P[1  X  2]   f X ( x)dx 
1 8
similarmente

3 3
P[2  X  3]   f X ( x)dx 
2 8
________________________________________________________

cdf e pdf condicionadas

A cdf condicionada pode ser definida de forma direta substituindo a probabilidade


na Eq. (3.1) pela probabilidade condicional. Por exemplo, se algum evento A concernente
a um dado X, então a cdf condicional para X dado A é definida por

P[{ X  x}  A]
FX ( x / A)  se P[A] > 0. (3.22)
P[ A]

A pdf condicional de X dado A é definida por

39
d
f X ( x / A)  FX ( x / A). (3.23)
dx

3.4 ALGUMAS VARIÁVEIS ALEATÓRIAS IMPORTANTES

Variáveis aleatórias Discretas

A Variável de Bernoulli

Seja A um evento relacionado com os resultados de algum evento de algum experimento


aleatório. A função indicadora para A é definida por

0 se  não está em A
IA() =

1 se  está em A

IA é uma variável aleatória desde que designamos um número à cada resultado de S. Ela é
uma variável aleatória com imagem SX = { 0, 1}, e sua pmf é

pI(0) = 1 –p e pI(1) = p

onde P[A] = p. IA é chamada de variável aleatória de Bernoulli desde que ela descreve o
resultado de um teste de Bernoulli se identificamos IA = 1 como ‘sucesso’.

A Variável Aleatória Binomial

Suponhamos que um experimento aleatório é repetido independentemente n vezes. Seja X o


número de vezes que um certo evento A ocorre nos n testes. X é então uma variável
aleatória com imagem SX = { 0, 1, 2, .....n}. Por o exemplo, X pode ser o número de caras
em n lançamentos de uma moeda. Se fazemos Ij uma a função identificadora para o evento
A no j-ésimo teste, então

X = I1 +I2 + ....... In,


isto é, X é a soma das variáveis aleatórias de Bernoulli associadas com cada um dos n
independentes teste.
Na seção 2.6, podemos achar que X tem a seguinte pdf:

40
n
P[ X  k ]    p k (1  p) n  k para, k = 0,1, ... n
k
A Variável Aleatória Geométrica

A variável aleatória binomial é obtida fixando o número de testes de Bernoulli e contando o


número de sucessos. Suponhamos que ao invés disto contamos o número M dos teste
independentes de Bernoulli até a primeira ocorrência de sucesso. M é chamada de variável
aleatória geométrica e ela assume valores de um conjunto { 1,2, .....}.

P[M=k] = (1-p)k-1p k = 1,2 ...,

Onde p = P[A] é a probabilidade de ‘sucesso’ em cada teste de Bernoulli.

Figura 3.8- Função densidade de probabilidade binomial (a) p=0,2 (b)


p=0,5.

41
42
43
A Variável Aleatória de Poisson

Em várias aplicações estamos interessado no número de ocorrências de um evento em um


certo intervalo de tempo ou em uma certa região do espaço. A pmf para a variável aleatória
de Poisson é dada por,

k
P[ N  k ]  e  k = 0, 1, 2, ....
k!

onde P[N=k] é a probabilidade de termos k ocorrências do evento e  é a média do número


de ocorrência de eventos em um determinado intervalo de tempo especificado ou uma
região.

Mostraremos futuramente que se n for grande e p for pequeno, com α=np

n k nk  k 
p k    p (1  p)  e ; k=0,1...
 
k k !

44
Figura 3.10- Função densidade de probabilidade Poisson. (a)  =
0,75 (b) =3 (c) =9.

45
_______________________________________________________________

Exemplo 3.11
A probabilidade de um bit errado em uma linha de comunicações é 10-3. Ache a
probabilidade que um bloco de 1000 bits tenha cinco ou mais erros.
A probabilidade de k erros em 1000 bits transmitidos é então dada pela probabilidade de
binomial com n= 1000 e p= 10-3. A aproximação de Poisson para a probabilidade binomial
usa o parâmetro  = np = 1000(10-3) = 1. Então

4
k  1 1 1 1
P[N  5]  1  P[N  5]  1   e  1  e 1{1     }  0,00366
k 0 k! 1! 2! 3! 4!

_______________________________________________________________

Variáveis Aleatórias Contínuas

Variável Aleatória Uniforme


Foi dada no exemplo 3.7

Variável Aleatória Exponencial

0 x<0
fX(x) =
e-x x0

Variável Aleatória Gaussiana( normal)

1 / 2 2
f X ( x)  e ( x  m )
2

- < x < ,
2 
A cdf da variável aleatória Gaussiana é dada por

1 

/ 2 2
P[ X  x]  e ( x '  m )
2
dx' (3.38)
2  

Para mudar de variável t = (x´-m)/

1 ( xm) / 
FX ( x)   e t
2
/2
dt =
2 

46
 xm
=   (3.39)
  
onde (x) é a cdf da variável aleatória Gaussiana com m = 0 e  = 1:

1 x
 ( x)   e t
2
/2
dt (3.40)
2 

Exemplo 3.14
Mostre que a integral da pdf Gaussiana é igual a 1.

2
 1   1   1  
 e x  e x dx  e  y   e ( x  y2 )
dx   dy 
2 2 2 2
/2 /2 /2
 2 2
dxdy
 2 
    

Fazendo x = rsen() e y = cos() e fazendo mudança de coordenadas cartesianas para


polares obteremos:

1  2 
  e r rdrd    re  r dr  [e  r /2 
] 1
2 2 2
/2 /2

2
0
0 0 0

47
Figura 3.13- Função densidade de probabilidade Gaussiana.

Em engenharia elétrica é costume trabalhar com a função Q, a qual é definida por,

1 
Q( x)  1   ( x)   e t
2
/2
dt (3.2)
2 x

Q(x) a probabilidade da calda da pdf. A simetria de Q(x) implica que

Q(0) = ½ e Q(-x) = 1 – Q(x)

A integral da Eq. (3.40) não tem expressão em forma fechada. Tradicionalmente a integral
pode ser calculada por uma tabela da função Q(x) ou usando aproximações conhecidas em
métodos numéricos. Recentemente expressão tem sido usada com boa aproximação para
Q(x) sobre o intervalo 0 < x < :

 1  1  x2 / 2
Q( x)    e (3.44)
 (1  a) x  a x  b  2
2

onde a = 1/ e b = 2. A tabela 3.3 mostra Q(x) e os valores dados pela aproximação. No
exemplo, estamos interessados em achar o valor de x para Q(x) = 10-k. A tabela 3.4 dá os
valores para k= 1,.....10.

48
Variável Aleatória Gamma

49
 (x) 1 e x
f X ( x)  0 < x < ,
( )
onde [] é a função gamma, que é definida pela integral


( )   x z 1e  x dx z>0
0

A função gamma tem as seguintes propriedades:

1
( )  
2

( z  1)  z( z ) para z > 0, e

(m  1)  m! para m inteiro não negativo.

Figura 3.14- Função densidade de probabilidade gamma.

_______________________________________________________________

Exemplo 3.16
Mostre que a integral da pdf da função variável aleatória gamma é igual a 1.

_______________________________________________________________

50
3.5 FUNCÕES DE VARIÁVEIS ALEATÓRIAS

Seja X uma variável aleatória e seja g(x) uma função real definida na linha real. Definamos
Y = g(X), tal que, Y é determinada calculando a função g(x) no valor assumido pela
variável aleatória X. Então Y é também uma variável aleatória.

Exemplo 3.23
Seja uma variável aleatória definida por

Y = aX + b,

Onde a é uma constante não nula. Supondo que X tem cdf FX(x), ache FY(y).
O evento { Y  y } ocorre quando A = {aX + b  y } ocorre. Se a > 0, então A = {
X  (y-b)/a} ( veja fig. 3.16), e então

FY(y) =P[X  (y-b)/a] = FX((y-b)/a) a > 0.

Por outro lado, se a < 0, então A={ X  (y-b)/a}, e

FY(y) = P[X  (y-b)/a] = 1- FX((y-b)/a) a<0

Podemos obter a pdf de Y por diferenciação com respeito a y. Para fazer isto necessitamos
de usar a regra da diferenciação

dF dF du

dy du dy ,
onde u é o argumento de F. Sendo neste caso u = (y-b)/a e usando a rega da diferenciação,

FY(y) = FX(u)

dFY ( y ) dFX (u ) dFX (u ) du 1 dFX (u ) 1 1 y b


    f X (u )  f X ( )
dy du du dx a du a a a

então,
1 y b
f Y ( y)  fX ( ) a>0
a a
e

1 y b
f Y ( y)  fX ( ) a < 0.
a a
Os dois resultados acima podem ser escritos compactamente

51
1 y b
f Y ( y)  fX ( )
|a| a

_______________________________________________________________

Figura 3.16- O evento equivalente para { Y  y} é o evento {X(y-b)/a . Se a0.

_______________________________________________________________

Exemplo 3.24
Seja X um variável aleatória de uma pdf Gaussiana com média zero e desvio
padrão :

1 / 2 2
f X ( x)  e ( x  m )
2

- < x < ,
2 
Seja Y = aX + b, ache a pdf de Y.

Substituindo a Eq. (3.50) em (3.49) produz

1 / 2 ( a ) 2
f Y ( y)  e ( y b  am)
2

2 | a |

Nota-se que Y tem uma distribuição Gaussiana com média b+am e desvio padrão |a|σ.

52
_______________________________________________________________

Exemplo 3.25
Seja uma variável aleatória y definida por

Y = X2
Onde X é uma variável aleatória contínua. Ache a cdf e a pdf de Y.
O evento { Y  y } ocorre quando { X2  y } ou equivalentemente quando {
 y  y  y }para y não negativo: veja 3.17. O evento é nulo quando y é negativo.
Então

0 y<0
FY(y) =
FX ( y )  FX ( y ) y>0

e diferenciando com respeito a y,

fX ( y) f X ( y )
f Y ( y)   y>0
2 y 2 y

fX ( y) f X ( y )
 
2 y 2 y

53
Figura 3.18- O evento equivalente de { y < Y < y+dy } é {x1 < X< x1+dx1 }{ x2+dx2 < X<
x2}{x3 < X < x3+dx3}

3.6 VALOR ESPERADO DE UMA VARIÁVEL ALEATÓRIA

O Valor Esperado de X

O valor esperado ou valor médio de um variável aleatória X


E[ X ]   tf X (t )dt (3.57)


_______________________________________________________________

Exemplo
Para a função densidade de probabilidade da variável aleatória X dada abaixo,
calcular a média

2e-2x x>0
f(x) =
0 x<0

E[X]=
   e 2 x e 2 x  1
 xf ( x)dx   x(2e )dx)  2 xe
2 x 2 x
dx  2[( x)  (1) ] |0 
 0 0 2 4 2
_______________________________________________________________

Exemplo 3.29
A média de uma variável aleatória uniforme é dada por

b ab
E[ X ]  (b  a) 1  tdt 
a 2
_______________________________________________________________

54
Exemplo 3.31
O tempo X entre a chegada de fregueses em uma estação de serviço tem uma pdf
exponencial com parâmetro . Ache a média do tempo de interchegadas.

Substituindo a Eq. (3.34) na Eq. ( 3.57) obteremos


E[ X ]   te t dt
0

Nos calculamos a integral usando a integração por parte (  udv  uv   vdu ), com u = t e
dv = e dt:-t

  1
E[ X ]  t e t   e t dt 
0 0 
_______________________________________________________________

Se X for uma variável aleatória discreta, substituindo a Eq. (3.21) na Eq. (3.57) produz

n
E[ X ]   x k p X ( x x ) (3.58)
k 1

onde n é o número de valores assumido pela variável aleatória

Exemplo
Seja uma variável aleatória X, definida como a face de um dado, calcular a média
Para o caso do dado

xk = k , pX( xk ) = 1/6, n= 6 faces

1 1 1 1 1 1 21
E[ X ]  1( )  2( )  3( )  4( )  5( )  6( )   3,5
6 6 6 6 6 6 6

As seguintes expressões são usadas quando X é uma variável aleatória não negativa:


E[ X ]   (1  FX (t ))dt se X é contínua e não negativa
0


E[ X ]   P[ X  k ] se X é não negativa e com valores
k 0
inteiros

55
_______________________________________________________________

Valor Esperado de Y= g(X)


E[ X ]   g ( x) f X ( x)dx


Figura 3.21- Dois intervalos infinitesimais

_______________________________________________________________

Exemplo 3.33
Seja Y = acos(t +) onde a,, e t são constantes,  é uma variável aleatória
uniforme no intervalo (0,2). A variável aleatória Y resulta da amostragem em amplitude
da senoide com fase aleatória . Ache o valor esperado de y e o valor esperado de Y e Y2.

2 d 2
E[Y ]  E[a cos( wt  )]   cos(t   )  a sen(t   ) 0
0 2 0

Variância de X
A variância de uma variável aleatória contínua X é definida como a média-quadrática
E[D2=(X-)2] da variação:

56

2 = VAR[X] = E[(X-)2] =  ( x   ) 2 f X ( x)dx


VAR[X] = E[X2 – 2X + 2]


= E[X2] –2E[X] + E[2]
= E[X2] – 22 + 2 = E[X2] - 2
o desvio padrão é definido como .

Exemplo
Para a função densidade de probabilidade da variável aleatória com média  = ½,
X dada abaixo, calcular a variância.

2e-2x x0
fX(x) =
0 x<0

E[X2]=
  e 2 x e 2 x e 2 x 8 1

x 2 f X ( x)dx  2 x 2 e 2 x dx  2[( x 2 )(
0 2
)  (2 x)(
4
)  (2)
8
)] |0 
2

2 = E[X2] - 2 = ½-1/4 = ¼.

Exemplo 3.36
Calcular a variância de uma variável aleatória X que é uniformemente distribuída no
intervalo[a,b].

1 b ab 2
VAR[ X ]  
ba a
(x 
2
) dx

Seja y= [x-(a+b)/2],

1 (ba ) / 2 2 (b  a) 2
b  a (ba ) / 2
VAR[ X ]  y dy 
12

57
_______________________________________________________________

A variância de uma variável aleatória discreta X é dada por

n
   ( xk   ) 2 p X ( xk )
2

k 1

onde n é o número de valores assumidos pela variável aleatória.

Exemplo
Seja uma variável aleatória discreta X, definida como a face de um dado, calcular a
variância.
Para o caso do dado

xk = k , pX( xk ) = 1/6, n= 6 faces,  = 3,5

1 1 1 1 1 1
 2  (1  3,5) 2  (2  3,5) 2  (3  3,5) 2  (4  3,5) 2  (5  3,5) 2  (6  3,5) 2  2,916
6 6 6 6 6 6

O n-ésimo momento central de uma variável aleatória X é definida por

n = E[(X-)n]

- Quando X for contínua temos,



 n  E[( X   ) n ]   ( x   ) n f X ( x)dx


- Quando X aleatória discreta, temos,

n
 n  E[( X   ) n ]   ( xk   ) n p X ( xk )
k 1

onde n é o número de valores assumido pela variável aleatória X

O n-ésimo momento de uma variável aleatória X é definida por:

58
- Quando X for contínua,


E[ X ]   x n f X ( x)dx
n


- Quando X for discreta,

n
E[ X ]   xk p X ( xk )
n n

k 1

3.7 DESIGUALDADE DE MARKOV

A desigualdade de Markov então estabelece que

E[ X ]
P[ X  a]  (3.72)
a
para X não negativa obtemos pela Eq. (3.72):

a   
E[ X ]   tf X (t )dt   tf X (t )dt   tf X (t )dt   af X (t )dt  aP[ X  a]
0 a a a

A desigualdade de Chebyshev estabelece que

2
P[| X  m | a] 
a2
onde m é a média e 2 é o desvio padrão.
_______________________________________________________________

Exemplo

Para a função densidade de probabilidade da variável aleatória X dada abaixo cuja


média é  =1/2 , e variância 2 = 1/4

2e-2x x>0
f(x) =
0 x<0

59
a- Calcular P[|X-|>1]
b- Use a desigualdade de Chebyshev para obter a cota superior de P[|X-|>1] e compare
com o resultado em (a)
(a)
3/ 2
P[|X-1/2|<1] = P[ |-1/2 < X < 3/2] = 
0
2e 2 x dx  1  e 3

P[| X  1 / 2 | 1]  1  (1  e 3 )  0,04979

(b) Pela desigualdade de Chebyshev

O valor de a = 1, então
2
P(| X  1 / 2 | 1)   0,25
a2
Comparando (a) com (b), vemos que a cota fornecida pela desigualdade de Chebyshev é
bem superior ao valor da probabilidade.

MÉTODOS DAS TRANSFORMADAS

Transformada de Fourier

Dada uma função no domínio do tempo f(t), definimos sua transformada de


Fourier por


F ( )   f (t )e  jt dt

e sua transformada inversa por


1 
f (t )  
2 
F ( )e jt d

60
Calcularemos agora a transformada de Fourier de algumas funções
importantes:

- sinal exponencial e-atu(t)

f(t) = e-atu(t)

  1
F ( )   e atu (t )e jt dt   e ( a  j )t dt 
 0 a  j
-
função exponencial bilateral e-a|t|

f(t) = e-a|t|

  2a
F ( )   e  a|t |e jt dt   e( a  j )t dt   e  ( a  j )t dt 
0

  0 a2   2

- função porta

1 |t| < /2


f(t) =
0 |t|> /2

 /2 A j / 2 sen( / 2
F ( )   Ae jt dt  (e  e  j / 2 )  A  AS a ( / 2)
 / 2 j  / 2

onde Sa é chamada de função amostragem

- função impulso

f(t) = (t)


F ( )    (t )e  jt dt  1


- função cosseno
61
f(t) = cos(ot)

pode-se demonstrar que

F() = [(-o) + (+o)]

- função seno

f(t) = sen(ot)

pode-se demonstrar que

F() = j[(-o) - (+o)]

A transformada de Fourier representa um sinal no domínio da frequência, e é


largamente usada em telecomunicações.

Função Característica
A função característica de uma variável aleatória X é definada por


 X ( )  E[e jX ]   f X ( x)e jx dx (3.76)


Se () é vista como a Transformada de Fourier da pdf f(x) com sinal


invertido, então temos pela fórmula da transformada inversa que a pdf de X é
dada por

1 
f X ( x) 
2 

 ( )e  jx d (3.77)

Exemplo 3.47
A função característica parauma variável aleatória exponencial com
parâmetro  é dada por
 
( )   e x e jx dx   e (  j ) x dx
0 0

62
= /(-j)
_______________________________________________________________

Se X p é uma variável aleatória discreta, a substituição da Eq. (3.21) na


definição de X() nos fornece,

 X ( )   p X ( xk )e jxk variável aleatória discreta


k

Na maioria das vezes encontramos variáveis aleatórias discretas que assume


valores inteiros. A função característica é então

 X ( )  p
k  
X (k )e jk variáveis aleatória discreta com valores
inteiros

A fórmula seguinte nos permite recuperar as probabilidades a partir de X():

1 2
p X (k ) 
2 
0
 X ( )e  jk d k=0,+1,-1,+2,-2,.......

Exemplo 3.48
A função característica da variável aleatória geométrica é dada por

 
p
 X ( )   pq e k jk
 p (qe j ) k 
k 0 k 0 1  qe j

_______________________________________________________________

O teorema do momento estabelece que o momento de X é dado por

1 dn
E[ X ]  n
n
 X ( ) | 0 (3.80)
j d n
para mostrar isto, primeiramente expandimos e-jx em série de potências na
definição de ():

63
 ( jX ) 2
 X ( )   f X ( x){1  jX   .........}dx
 2!

Assumindo que todos os momentos de X são finitos e que a série pode se


integrada termo à termo

( j ) 2 E[ X 2 ] ( j ) n E[ X n ]
( )  1  jE[ X ]   ............ ...............
2! n!

Se diferenciamos a expressão acima uma vez e calculamos o resultado em 


=0 no obteremos

d
 X ( ) | 0  jE[ X ]
d

Se diferenciamos n vezes e calculamos em  = 0, finalmente

d
 X ( ) | 0  j n E[ X n ]
d n

a qual produz Eq.(3.80)

Exemplo 3.49
Para achar a média de uma variável aleatória com distribuição
exponencial, derivamos X() = (-j) e obteremos

j
 'X ( ) 
(   j ) 2
O teorema do momento então implica que E[X] = ´X(0)/j = 1/.

PROBLEMAS

64
2. Uma fonte de informação produz símbolos na forma aleatória a partir de
cinco letras do alfabeto: S = { a,b,c,d,e }. As probabilidades dos símbolos são:

p(a) = ½, p(b)= ¼, p(c) = 1/8, p(d) = p(e) = 1/16


Um sistema de compressão de dados codifica as letras em binário como segue:

a 1
b 01
c 001
d 0001
e 0000
Seja a variável aleatória Y igual o número de bits alocados para cada letra de
saída. Especifique o espaço amostral de Y, SY, e a probabilidade dos seus
valores.

16. Uma variável aleatória contínua X tem cdf


0 x  -/2
FX(x) = c(1+sen(x)) -/2  x  /2
1  /2  x

a Ache c
b. Plote FX(x)

44. Seja X uma variável aleatória Gaussiana com média m e variância 2 .


Ache as seguintes probabilidades:

P[X < m ] e P[|X-m| > k] para k = 1,2,3,4, e 5


P[X > m + k] para k = 1,28; 3,08; 4,26; 5,20.

62. Ache Y = a tanX, onde X é uniformemente distribuídos no intervalo (-


,). Mostre que Y é uma variável aleatória de Cauchy.
80. Ache o n-ésimo de X se X é uniformemente no intervalo[0,1]. Repita para
um intervalo arbitrário [a,b].
89. Ache a função característica da variável aleatória de Laplace. Ache a
média e variância de X aplicando teorema do momento.

65
CAPÍTULO 4

VARIÁVEIS ALEATÓRIAS MÚLTIPLAS

4.1 VETOR DE VARIÁVEIS ALEATÓRIAS

Um vetor de variáveis aleatórias é uma função que designa um vetor de


números reais a cada resultado  do espaço amostral S.
_______________________________________________________________

Exemplo 4.1
Seja um experimento consistindo da seleção de nomes de estudantes de
uma urna. Seja  o resultado deste experimento, e definimos as três funções
seguintes:

H() = a altura do estudante em polegadas


W() = o peso do estudante em libras,
A() = a idade do estudante em anos.
O vetor (H(),W(),A()) é o vetor de variáveis aleatórias

_______________________________________________________________

Exemplo 4.4
Consideremos uma variável aleatória bidimensional X = (X,Y). Ache a
região do plano correspondente aos eventos

A = { X + Y  10}
B = { min(X,Y)  5}
C = {X2 + Y2  100 }
As regiões correspondentes ao evento A e C são mostradas na Fig. 4.1. O
evento b é achado observando que {min(X,Y)  5} = { X5}{Y5}, que é,
o mínimo valor de X e Y que é menor ou igual a 5.

66
Figura 4.1- Exemplo de eventos em duas dimensões

Para uma variável aleatória n-dimensional X = ( X1,X2,......Xn), estamos


particularmente interessados em eventos que tenha a forma de produto.

A  X 1 em A1  X 2 em A 2    X n em A n , (4.1)

onde Ak é um evento unidimensional ( isto é, um subconjunto na reta real )


que envolve somente Xk. O evento A ocorre quando todos os eventos { Xk em
Ak } ocorrem conjuntamente. A Figura 4.2 mostra alguns eventos
bidimensionais na forma de produto.

O problema fundamental em modelar um sistema com um vetor variável


aleatória X envolve em especificar a probabilidade do evento da forma-
produto

PA  PX 1 in A1   X 2 in A 2     X n in A n 
 PX 1 in A1 ,  , X n in A n  (4.2)

67
Figura 4.2 Eventos bidimensionais forma-produto

Exemplo 4.5
Nenhum dos eventos no Exemplo 4.4 são da forma-produto. O evento
B é a união de dois eventos na forma-produto.

B = { X  5 e Y   }  {X > 5 e Y  5}.

A Fig. 4.3 mostra os eventos A e C são aproximados por retângulos de largura


infinitesimal. Isto sugere que expressaremos a probabilidade dos eventos pela
integral da densidade sobre a região correspondente.
_______________________________________________________________

A probabilidade de um evento da não-forma-produto B pode ser achado como


segue: primeiro B é aproximado pela união dos eventos forma-produto
disjuntos, digamos, B1, B2, .....Bn; o produto é então aproximado por

PB ~
 P  Bk    PBk 
 k  k

A aproximação torna exata no limite quando os Bk´s tornam arbitrariamente


finos.

Independência

Se A1 é qualquer evento que envolve apenas X, e A2 é evento que envolve


apenas Y, então

PX in A1 , Y in A 2   PX in A1 PY in A 2 

No caso geral variáveis aleatórias, podemos dizer que as variáveis aleatória


X1, X2, .....são independentes se

68
PX 1 in A1 , , X n in A n   PX 1 in A1  P X n in A n , (4.3)

4.2 PAR DE VARIÁVEIS ALEATÓRIAS DISCRETAS

Seja um vetor de variáveis aleatórias X = (X,Y) que assume valores na forma


de um conjunto contável S = {(xj,yk), j = 1,2,......., k = 1,2.....}. A função
massa de probabilidade (pmf) conjunta de X especifica a probabilidade do
evento forma-produto { X = xj}{Y = yk}:


p X ,Y ( x j , y k )  P X  x j  Y  y k  
 PX  x , Y  y 
j k j  1,2,  k  1, 2,  (4.4)

A probabilidade de qualquer evento A é a soma da pmf sobre os resultados em


A:

PX in A   p X ,Y ( x j , yk ) (4.5)
 
x j , yk in A

O fato de que a probabilidade de um espaço amostral S ser 1 fornece

 


j 1 k 1
p X ,Y ( x j , y k )  1
(4.6)

Estamos agora interessados na probabilidade dos eventos envolvendo cada


uma das variáveis aleatórias isoladas. Isto pode ser achado em termos de
função massa de probabilidade marginal

69
 
pX (x j )  P X  x j
 PX  x , Y  qualquer 
j

 PX  x e Y  y  X  x
j 1 j e Y  y 2    (4.7)

  p X ,Y ( x j , y k ),
k 1

e similarmente,

pY ( y k )  PY  y k 

  p X ,Y ( x j , y k ) (4.7a)
j1
_______________________________________________________________
Exemplo 4.6
Um experimento consiste no lançamento de dois dados “carregados” e
anotando o par de números (X,Y) com face para cima. A pmf conjunta pX,Y
(j,k) para j = 1,....6 e k = 1,....6 é :

k
1 2 3 4 5 6
1 2/42 1/42 1/42 1/42 1/42 1/42
2 1/42 2/42 1/42 1/42 1/42 1/42
j 3 1/42 1/42 2/42 1/42 1/42 1/42
4 1/42 1/42 1/42 2/42 1/42 1/42
5 1/42 1/42 1/42 1/42 2/42 1/42
6 1/42 1/42 1/42 1/42 1/42 2/42

6
( x j , y k )  PX  1 
2 1 1 1
PX(xj =1) = p
k 1
XY 
42 42
 
42 6

_______________________________________________________________

70
A cdf conjunta de X e Y

A construção básica de blocos para eventos envolvendo variáveis


aleatórias de duas dimensões é o retângulo semi-infinito definido por {(x,y): x
 x1 e y  y1}, como mostrado na Fig. 4.4.
A função distribuição conjunta acumulada de X e Y é definida como a
probabilidade da forma-produto do evento { X  x1}{Y  y1} :

FX ,Y ( x1 , y1 )  PX  x1 , Y  y1 

Figura 4.4 - Função distribuição acumulada conjunta é definida como a


probabilidade de um retângulo semi-infinito definido pelo ponto (x1,y1).

A cdf conjunta é não decrescente na direção “nordeste”, isto é:

(i) FX,Y(x1,y1) < FX,Y(x2,y2) if x1 < x2 e y1 < y2

(ii) FX,Y(- , y1) = FX,Y(x1, - ) = 0

(iii) FX,Y(, ) = 1.

(iv) FX(x) = FX,Y(x, ) = P[X < x, Y < ] = P[X < x]

FY(y) = FX,Y(, y) = P[Y < y]

(v) lim FX ,Y ( x, y )  FX ,Y (a, y )


x a 

71
lim FX ,Y ( x, y )  FX ,Y ( x, b)
x b 

_______________________________________________________________

Exemplo 4.8
A cdf conjunta para um vetor de variáveis aleatórias X = ( X, Y) é dada
por

(1  e x )(1  e  y ) x  0, y  0


FX ,Y ( x, y)  
0 caso contrário

Ache a cdf marginal.


As cdf´s marginais são obtidas fazendo uma das variáveis aproximar do
infinito:

FX ( x)  lim FX ,Y ( x, y)  1  ex x0


y 

FY ( y)  lim FX ,Y ( x, y)  1  e  y y0
y 

Então X e Y individualmente tem distribuição exponencial com parâmetro  e


 respectivamente.
_______________________________________________________________

A cdf pode ser usada para achar a probabilidade de eventos que pode ser
expressa como a união e interseção de retângulos semi-infinito. Por exemplo,
consideramos a tira definida por { x1 < X  x2 e Yy1}, denominada pela
região B na Fig. 4.6(a). O retângulo semi-infinito definido por (x2,y1) é igual a
união do semi-infinito definido por (x1,y1) e a região B. Então pelo terceiro
axioma das probabilidades temos que

FX,Y(x2, y1) = FX,Y(x1, y1) + P[x1 < X < x2, Y < y1]

O produto da tira semi-infinita é entretanto

72
P[x1 < X < x2, Y < y1] = FX,Y(x2, y1) - FX,Y(x1, y1)

Considerando o próximo retângulo { x1 < X  x2, y < Y y2} denominado pela


região A na Fig. 4.6(b). O retângulo semi-infinito definido por ( x2,y2) é igual
a união da região A, B, e do retângulo semi-infinito definido por (x1,y2).
Entretanto

FX,Y(x2, y2) = P[x1 < X < x2, y1 < Y < y2]


+ FX,Y(x2, y1) - FX,Y(x1, y1) + FX,Y(x1, y2)

A probabilidade do retângulo é então

(vi) P[x1 < X < x2, y1 < Y < y2]


= FX,Y(x2, y2) - FX,Y(x2, y1) +- FX,Y(x1, y2) + FX,Y(x1,y1)

_______________________________________________________________

Exemplo 4.9
Ache a probabilidade dos eventos A = { X  1, Y  1}, B = {X > x, Y>
y}, onde x > 0 e y > 0, e D = (1< X 2, 2<Y5} no exemplo 4.8.

A probabilidade do evento A é dada diretamente pela cdf :

P[A] = P[X < 1, Y < 1] = FX,Y(1, 1) = (1 – e-)(1 – e-)

A probabilidade de B requer mais trabalho. Considerando Bc:

Bc = ({X > x}  {Y > y})c = {X < x}  {Y < y}

Pela regra de DeMorgan. O corolário 5 dea seção 2.2 dá a probabilidade da


união dos eventos:

P[Bc] = P[X < x] + P[Y < y] – P[X < x, Y < y]


= (1 – e-x) + (1 – e-y) – (1 – e-x) (1 – e-y)
= 1 – e-x e-y

Finalmente obteremos a probabilidade de B:

73
P[B] = 1 – P[Bc] = e-x e-y

A probabilidade do evento D é achada aplicando a propriedade vi da cdf


conjunta:

P[1 < X < 2,2 < Y < 5]


= FX,Y(2,5) - FX,Y(2,2) - FX,Y(1,5) + FX,Y(1,2)
= (1 – e-2) (1 – e-5) – (1 – e-2) (1 – e-2)
- (1 – e-) (1 – e-5) + (1 – e-) (1 – e-2)

_______________________________________________________________

A pdf Conjunta de duas Variáveis Aleatórias Contínuas

Dizemos que as variáveis aleatórias X e Y são contínuas conjuntamente se a


probabilidade dos eventos envolvendo (X,Y) pode ser expressa como a
integral de uma função densidade de probabilidade. Em outras palavras há
uma função não negativa fX,Y(x,y), chamada função densidade de
probabilidade conjunta, que é definida no plano real tal que para cada evento
A, um subconjunto do plano,

PX in A   f X ,Y ( x, y )dxdy  (4.9)


A

Quando A é o plano inteiro, a integra precisa se igual a 1:

 
1   f X ,Y ( x, y )dxdy  (4.10)
- -

A cdf conjunta pode ser obtida em termos da pdf conjunta de variáveis


aleatórias contínuas pela integral sobre o retângulo semi-infinito definido por
(x,y):

74
x y
FX ,Y ( x, y)    f X ,Y ( x, y )dxdy 
- -
(4.11)

a pdf pode ser obtida a partir da cdf pela diferenciação:

Figura 4.7- Probabilidade de A é a integral de fX,Y(x,y) sobre a região definida


por A

 2 FX ,Y ( x, y )
f X ,Y ( x, y ) 
xy
(4.12)

A probabilidade da região retangular é obtida fazendo A = {(x,y): a 1 < x  b1 e


a2 < y b2} na Eq. (4.9) :

Pa1  X  b1 , a 2  Y  b2   
b1 b2

a1  a2
f X ,Y ( x , y )dx dy  (4.13)

Com isto então segue que a probabilidade de um retângulo infinitesimal é o


produto da pdf e a área do retângulo:

Px  X  x  dx, y  Y  y  dy   
x  dx y  dy

x  y
f X ,Y ( x , y )dx dy 
(4.14)
~- f X, Y ( x, y )dx dy

75
A Equação (4.14) pode ser interpretada que a pdf conjunta especifica a
probabilidade dos eventos forma-produto

{x < X < + dx}  {y < Y < y + dy}

A pdf marginal fX(x) e fY(y) são obtidas pegando a derivada da dcd marginal
correspondente, FX(x) = FX,Y(x,) e FY(y) = FX,Y(,y).

f X ( x) 
d
dx
 

-

f X ,Y ( x , y )dy  dx 
 (4.15a)
 f X ,Y ( x, y )dy 
-
similarmente

f Y ( y)   f X ,Y ( x, y)dx (4.15b)
-

Figura 4.9- Interpretação da pdf marginal


_______________________________________________________________

Exemplo
A função densidade de probabilidade de duas variáveis aleatórias X e Y
contínuas é
76
cxy , 0<X<4 , 1<Y<5
f(x,y)=
0 , caso contrário

a- determinar o valor da constante c


b- determinar P[ 1  X  2, 2  Y  3]
c- determinar P[X  3,Y  2]

a) Devemos ter a probabilidade total igual a 1, isto é,



f XY ( x, y)dx  1

4 4 5 4 xy 2 5 4 25 x x 4
x 0
cxydxdy  c  [  xydy]dx  c 
x 0 y 1 x 0 2
| y 1 dx  c  (
x 0 2
 )dx  c  12 xdx  96c  1
2 x 0

concluímos que c=1/96

b) Utilizando o valor de c obtido em(a), temos

2 3 xy 1 2 xy 2 3 1 2 5x 5
P[1  X  2,2  Y  3]    dxdy   | y 2 dx   dx 
x 1 y  2 96 96 x 1 2 96 x 1 2 128
c)

4 2 xy 1 4 3x 7
P[ X  3, Y  2]  
x 3 y 1 96 
dxdy  dx 
96 x  3 2 128

|______________________________________________________________
Exemplo 4.10
Um ponto (X,Y) aleatoriamente escolhido no quadrado unitário tem pdf
conjunta dada por

1 0  x 1 e 0  y 1
f X ,Y ( x, y )  
0 elsewhere

77
Ache a cdf conjunta.

1. Se x<0 e y<0, a pdf é zero e a Eq. (4.12) implica que

FX,Y(x,y) = 0

2. Se (x,y) está dentro do intervalo unitário,

x y
FX ,Y ( x, y)    1dxdy  xy
0 0

Figura 4.9- Regiões que necessitam ser consideradas separadamente no


cálculo da cdf do exemplo 4.10.

3. Se 0  x  1 e y>1,

x 1
FX ,Y ( x, y)    1dxdy  x
0 0

4. Similarmente, se x > 1 e 0  y  1,

FX,Y(x,y) = y

5. finalmente, se x > 1 e y > 1,

1 1
FX ,Y ( x, y)    1dxdy  1
0 0

_______________________________________________________________

78
Exemplo 4.11
Ache a constante normalizada c e a pdf marginal da seguinte pdf
conjunta:

ce -x e  y 0yx
f X, Y (x, y)  
0 elsewhere

a pdf é não zero na região sombreada mostrada na Fig. 4.10(a). A constante c


é achada da condição de normalização especificada pela Eq. (4.10) :

1 

0 
x

0
ce  x e  y dy dx  

0
 
ce  x 1  e  x dx 
c
2

Entretanto c=2. As pdfs marginais são achadas calculando as Eqs. (4.15a) e


(4.15b):

 x
f X ( x)   f X ,Y ( x, y)dy   2e  x e  y dy  2e  x (1  e  x ) 0x
0 0

 
f Y ( y)   f X ,Y ( x, y )dx   2e  x e  y dx  2e  2 y 0y
0 y

79
Figura 4.10- A variável aleatória X e Y no Exemplo 4.11 e 4.12 tem uma pdf
que é não zero na região sobreada na parte(a).

_______________________________________________________________
__________

Exemplo 4.12
Ache no exemplo P[X + Y  1] no exemplo 4.11

PX  Y  1  
5 1- y

0  y
5

0

2e  x e  y dx dy   2e  y e  y  e 1 y  dy 
 1 - 2e -1

_______________________________________________________________

Exemplo 4.13
A pdf conjunta de X e Y, mostrada na Fig. 4.11,

e  x   
1  2 xy  y 2 / 2 1  2
f X ,Y ( x, y )  -   x, y  
2

2 1   2

(4.16)

Dizemos que X e Y são Gaussianas conjuntas. Ache a pdf marginal.

80
Figura 4.11- pdf de duas variáveis aleatórias conjuntas Gaussiana

A pdf marginal de X pela integração de fX,Y(x,y) sobre y:

ex
2

/ 2 1  2 
e  y   dy


 2 xy / 2 1  2
f X ( x) 
2

2 1   2 -

Completamos o quadrado do argumento da exponencial somando e subtraindo


x2, que é y2-2xy +2x2 - 2x2 =(y- x)2 - 2x2.

ex
2

/ 2 1  2 
e  y  x    x / 2 1  dy


2
f X ( x) 
2 2 2

2 1   2 -

e x e  y  x  / 2 1  
2 2 2
/2


2
 -
2 1   2

dy

2
e -x /2

2
A ultima integral é igual a unidade desde que o integrando e uma Gaussiana
com media ρx e variância 1-ρ2.

_______________________________________________________________

4.3 INDEPENDÊNCIA D DUAS VARIÁVEIS ALEATÓRIAS

X e Y são duas variáveis aleatórias independentes se qualquer evento A 1


definido em temos de X é independente de qualquer outro evento A 2 definido
em temos de Y; isto é ,

P[X in A1, Y in A2] = P[X in A1] P[Y in A2] (4.17)

Se A1 = { X= xj} e A2 = { Y = yk}, então a indepedência de X e Y implica que


81
pX,Y(xj,yk) = P[X = xj, Y = yk]
= P[X = xj] P[Y = xk]
(4.18)
= pX(xj) pY(yk) for all xj e yk

Entretanto, se X e Y são independentes, variáveis aleatórias discretas, então a


pmf conjunta é igual ao produto da pmf marginal.
Suponhamos agora que não conhecemos se X e Y são independentes, mas
conhecemos que a pmf satisfaz a Eq.(4.18). Seja A = A1A2 um evento
forma-produto como acima, então

PA    p X ,Y ( x j , y k )
x j in A1 y k in A 2

  
x j in A1 y k in A 2
p X ( x j ) pY ( y k )

 
x j in A1
pX (x j ) 
y k in A 2
pY ( y k ) (4.19)

 P[A 1 ] PA 2 ,

_______________________________________________________________
Exemplo 4.15
É a pmf no exemplo 4.6 consistente com um experimento que consiste de
lançamentos independentes de dois dados?
A probabilidade de cada face no lançamento de um dado é 1/6. Se dois dados
justos são lançados e se os lançamentos são independentes, então a
probabilidade de qualquer par de faces, digamos j e k, é :

PX  j , Y  k   PX  j  PY  k  


1
36

_______________________________________________________________

Em geral, pode se mostra que variáveis aleatórias X e Y são independentes se


e somente sua cdf conjunta é igual ao produto de suas cdf´s marginais:

82
FX,Y(x,y) = FX(x) FY(y) for all x e y
(4.20)

Similarmente, se X e Y são contínuas e conjuntas, então X e Y são


independentes se e somente se sua pdf é gual ao produto das pdf´s marginais:

fX,Y(x,y) = fX(x) fY(y) for all x e y


(4.21)

_______________________________________________________________

Exemplo 4.18
São as variáveis aleatórias X e Y no exemplo 4.13 independentes ? O
produto das pdf´s marginais de X e Y no exemplo 4.13 é

1  x 2  y 2  / 2
f X ( x) f Y ( y )  e -   x, y  
2
Por comparação com a Eq. (4.16) vemos que o produto das marginais é igual
ao produto da pdf conjunta se e somente se  = 0. Entretanto variáveis
aleatórias X e Y são independentes se e somente se ρ=0. Veremos que ρ é o
coeficiente de correlação entre X e Y.

_______________________________________________________________

Exemplo 4.19
São as variáveis aleatórias X e Y independentes no exemplo 4.8? Se
multiplicamos as cdf´s marginais achadas no exemplo 4.18 achamos

FX(x) FY(y) = (1 – e-x) (1 – e-y) = FX,Y(x,y) for all x e y

Entretanto Eq. (4.20) é satisfeita tal que X e Y são independentes.

_______________________________________________________________

83
4.4 PROBABILIDADE CONDICIONAL E ESPERANÇA
CONDICIONAL

A definição da probabilidade condicional na seção 2.4 fornece a fórmula para


calcular a probabilidade que Y está em A dado que conhecemos o valor exato
de X,

PY in A, X  x 
PY in A X  x  
PX  x  (4.22)

Se X é discreta, então a Eq. (4.22) pode ser usada para obter a cdf
condicional de Y dado X = xk :

PY  y, X  x k 
FY ( y / xk )  , for PX  x k 
PX  xk  (4.23)

A pdf condicional de Y dado X = xk, se a derivada existe é dada por

d
fY ( y / xk )  FY ( y xk ) (4.24)
dy

A probabilidade do evento A dado X = xk é obtida pela integração da pdf


condicional:

PY in A X  x k    f Y ( y / xk )dy (4.25)


y in A

Note que se X e Y são independentes, P[Yy,X=x] = P[Yy]P[X=xk] tal que


FY(y/x) = FY(y) e fY(y/x) =fY(y).
Se X e Y são discretas, então a pdf consistirá de funções deltas com massa de
probabilidade dada pela pmf condicional de Y dado X = xk:

84
PX  xk , Y  y1  p x , y ( xk , y j )
pY ( y j / xk )  PY  y1 X  xk   
PX  xk  p X ( xk )
(4.26)

para xk tal que P[X=xk] > 0. Em particular, a probabilidade de qualquer


evento A dado X = xk é achada somando a pmf sobre todos eventos:

P[Y in A/xk ]  
y1 in A
pY ( y j xk ) (4.27)

Note que se X e Y são independentes, então

pY ( y j xk ) 
PX  xk  P Y  y j   PY  y   p ( y )
PX  x k 
j Y j

_______________________________________________________________

Exemplo 4.20
Seja X a entrada e Y a saída de uma canal de comunicações discutido no
Exemplo 4.14. Ache a probabilidade que Y seja negativa dado que X é +1.
Se X é +1, então Y é uniformemente distribuída no intervalo [-1,+3], tal que,

1
 -1  y  3
f Y ( y / 1)   4
0 elsewhere

85
então

PY  0 X  1  
0 dy 1

-1 4 4

_______________________________________________________________

Definimos cdf condicional de Y dado X= x pela seguinte procedimento do


limite:

FY ( y x)  lim FY ( y x  X  x  h)
h0

PY  y, x  X  x  h
FY ( y x  X  x  h) 
Px  X  x  h
y x h


  - x
f X ,Y ( x , y )dx dy 
x h
 x
f X ( x )dx 
y


 -
f X ,Y ( x, y )dy h
f X ( x)h
(4.29)

Como fazemos h aproximar de zero, Eqs. (4,28) e (4.29) implica que

F ( y / x) 
 -
f X ,Y ( x, y)dy
Y
f X ( x)

86
(4.30)

Figura 4.12- Interpretação da pdf condicional

A pdf condicional de y dado X = x é obtida tomando a derivada de FY(y/x)


com respeito a y:

d f ( x, y)
f Y ( y x)  FY ( y / x  X ,Y (4.31)
dy f X ( x)

Note que se X e Y são independente, então

f X ,Y ( x, y)  f X ( x) f Y ( y) e f Y ( y x)  f Y e FY ( y x)  FY ( y)

_______________________________________________________________

Exemplo 4.21
Seja X e Y variáveis aleatórias introduzidas no exemplo 4.11. Ache fX(x/y)
e fY(y/x).
Usando a pdf marginal obtida no exemplo 4.11, temos que

87
2e  x e  y  x  y 
f X ( x y)   e for x  y
2e 2 y
e
2e  x e  y e y
f Y ( y / x)   x  for 0  y  x

2e 1  e  x 1  e  x 
_____________________________________________________________

Se multiplicamos Eq.(4.26) por P[X=xk], achamos a probabilidade conjunta


em termos do produto de uma probabilidade condicional e uma probabilidade
marginal:

P[X = xk, Y = y1] = P[Y = yj|X = xk] P[X = xk] (4.32)

Suponhamos que estamos interessados na probabilidade que Y esteja em A:

PY in A   p X ,Y x k , y j 
all x k y j in A

 
all x k y j in A
pY ( y j x k ) p X ( x k )

 
all x k
p X ( xk ) 
y j in A
pY ( y j x k )

PY in A   PY in A X  x p
all x k
k X ( xk ) (4.33)

Se X e Y são contínuas, multiplicamos a Eq.(4.31) por fX(x) para obter

fX,Y(x,y) = fY(y|x)fX(x) (4.34)

Se substituímos a somatória pela integral e as pmf´s com pdf´s, o mesmo


argumento que nos forneceu a Eq. (4.33) nos fornece

PY in A   PY in A X  x  f X ( x)dx


-
(4.35)

88
Esperança Condicional

A esperança condicional de Y dado X= x é definida por


E[Y x]   yf Y ( y x)dy (4.36a)
-

No caso especial onde X e Y são ambas discretas temos:

E Y x   y j pY ( y j x) (4.36b)
yj

Em particular no provamos que

E[Y] = E[E[Y|X]] (4.37)

Onde o lado direito é

EEY X    EY x f X ( x)dx



X contínuo
-
e

EEY X    EY xk p X ( xk ) X discreto


xk

Provaremos que a Eq.(4.37) par o caso onde X e Y são contínuas


conjuntamente então,

E E Y X    E Y x  f X ( x)dx

-
 
  yf Y ( y x)dyf X ( x)dx
- -
 
  y f X ,Y ( x, y )dx dy
- -

  yf Y ( y )dy  E E 

-

89
4.5 VARIÁVEIS ALEATÓRIAS MÚLTIPLAS

4.6 FUNÇÕES DE DIVERSAS VARIÁVEIS ALEATÓRIAS

Seja uma variável aleatória Z definida como uma função de diversas variáveis
aleatórias:

Z = g(X1, X2, . . . , Xn) (4.51)

A cdf de Z é achada achando primeiramente o evento equivalente de { Zz},


tal que o conjunto Rz = { x =(x1,....xn) tal que g(x)z}, então


FZ ( z )  P X in R g 
   fX , X 1 n ( x1' , , x n' )dx1'  dx n' (4.52)
x in R g

A pdf de Z é então achada derivando FZ(z)

Exemplo 4.31
Seja Z = X + Y . Ache FZ(z) e fZ(z) em termos da pdf conjunta de X e Y.

 z - x
FZ ( z)    f X ,Y ( x, y )dy dx
-  -

Se X e Y são variáveis aleatórias independentes, então pela Eq. ( 4.21) a pdf é


dada pela integral convolução da marginal pdf de X e Y:

d 
f Z ( z)  FZ ( z )   f X ,Y ( x , z  x )dx  (4.53)
dz -

90
Figura 4.13 – P[Z z] = P[X + Y  z]

_______________________________________________________________
Exemplo 4.32
Ache a pdf da soma Z = X + Y de duas variáveis aleatórias Gaussianas
com médias não nulas e variâncias unitárias, com coeficiente de correlação
ρ=-1/2.


f Z ( z)   f X ( x) f Y ( z  x)dx (4.54)
-


f Z ( z)   f X ,Y ( x , z  x )dx 
-

e x   dx 
1 
 2 x  z  x   z  x 2 / 2 1  2

 

2

2 1 -  2 1/ 2 -

e  x 
1 
 xz  z 2 / 2 3 / 4 
  dx 
2

2 3/4 
1/ 2 -

Após completar o quadrado do argumento no expoente obteremos

ez
2
/2
f Z ( z) 
2
_______________________________________________________________

91
Transformação Linear de pdf

A pdf conjunta de Z pode ser achada diretamente em termos da pdf conjunta


de X achando os eventos equivalentes de retângulos infinitesimais. Nos
consideramos primeiramente a transformação linear de duas variáveis:

V  aX  bY V  a b  X
W  cX  eY
0u W   c e Y
     

x  -1 v 
 y   A  w
   
(4.56)

Figura 4.15- Imagem de um retângulo infinitesimal sobre uma transformação


linear

A duas áreas infinitesimais precisam ser iguais,

𝑓𝑋,𝑌 (𝑥, 𝑦)𝑑𝑥𝑑𝑦 = 𝑓𝑉,𝑊 (𝑣, 𝑤)𝑑𝑃

Sendo dP a área do paralelograma.


A pdf conjunta de V e W então é dada por

f X ,Y ( x, y )
f V ,W (v, w) 
dP (4.57)
dx dy

92
Pode se mostrar que dP = (|ae-bc|)dxdy, tal que

dP ae  bc dx dy 
  ae  bc  A
dx dy dx dy 
O resultado acima é válido para uma transformação linear geral de n variáveis
aleatórias. Seja um vetor n-dimensional Z dado por

Z = AX

f X1,, X n ( x1,, xn ) f X ( A 1 Z )
f Z ( z ) f Z 1,,Zn ( z1,, z n )  x  A1Z
 (4.58)
A A

_______________________________________________________________

Exemplo 4.36

Seja X e Y variáveis aleatórias conjuntas introduzidas no exemplo 4.13.


Seja V e W obtidas de (X,Y) por

V  1  1 1 X X 
W    1 Y
 A Y 
  2 - 1  

Ache a pdf conjunta de V e W.


O determinante da matriz é |A| = 1, e a inversa é dada por

X  1 1 - 1 V 
Y   
  2 1 1 W
 

tal que X = ( V – W)/ 2 e Y = (V + W ) / 2

93
 v  w v  w
f V ,W (v, w)  f X ,Y  , 
 2 2 
onde

1  2 xy  y 2 ) / 2 (1  2 )
f X ,Y ( x, y )  e ( x
2

2 1   2

substituindo x e y, pelo argumento da exponencial temos

v  w2 / 2  2  v  wv  w / 2  v  w2 / 2  v2



w2
21   2  21    21   

então

e v  
1 / 2 1    w2 / 2 1  
f V ,W (v, w) 
2


2 1   
2 1/ 2

Podemos observar que a transformada V e W são independentes, Gaussiana


com média zero e variâncias 1-ρ e 1+ρ, respectivamente.

_______________________________________________________________

Transformação Geral de pdf

Seja agora uma variável aleatória V e W definida por duas funções lineares de
XeY:

V = g1(X,Y) e W = g2(X,Y) (4.59)

94
Figura 4.16- Contorno de igual valores da pdf Gaussiana conjunta de definida
no exemplo 4.36.

O Jacobiano da transformação

 v v 
 x y 
( x, y )  det  
 w w 
 x y 

 x x 
 v w 
(v, w)  det  
 y y 
 v w 

Pode mostrar que

v, w 
1
x, y 

Concluímos que a pdf conjuta de V e W pode ser achada usando qualquer das
seguintes expressões:

95
f X ,Y (h1 (v, w), h2 (v, w))
f V ,W (v, w)  (4.61a)
( x, y )
 f X, Y (h1 (v, w), h2 (v, w)) (v, w) (4.61b)

4.7 VALOR ESPERADO DE FUNÇÕES DE VARIÁVEIS


ALEATÓRIAS

O problema em achar o valor de duas funções de duas variáveis ou mais


aleatórias é similar ao de achar o valor esperado de uma de uma única variável
aleatória.

   g ( x, y ) f ( x, y )dx dy
- -
X, Yconjuntam ente contínuas
EZ   
X ,Y

 g xi , yn  p X ,Y ( xi , yn ) X, Ydiscretas


 i n
(4.64)

_______________________________________________________________

Exemplo 4.39
Seja Z = X + Y . Ache E[Z].

EZ   EX  Y 
 
  x  y f x, ydx dy
- -
X ,Y

   
   xf x, ydx dy    yf x, ydx dy
X ,Y X ,Y
(4.65)
- - - -

  xf ( x)dx   yf ( y)dy  EX   EY 


 
X Y
- -

_______________________________________________________________

96
Pelo resultado no exemplo 4.39 e por indução podemos mostrar que o valor
esperado da soma de n variáveis aleatórias é igual a soma dos valores
esperados :

E X 1  X 2    X n   E X 1     E X n  (4.66)

A Correlação e Covariância de duas Variáveis Aleatórias

O jk-ésimo momento conjunto de duas variáveis aleatórias X e Y é definido


por

   x j y k f ( x, y )dx dy
 -  -
X, Yconjuntam ente contínuas
 
X ,Y
E X jY k 
 xi y n p X ,Y ( xi , y n )
j k
X, Ydiscretas
 i n
(4.68)

Se j = k = 1, o momento, E[XY] é chamado de correlação de X e Y.

Se E[XY] = 0, então dizemos que X e Y são ortogonais.


O jk-ésimo momento central de X e Y é definido como o momento conjunto
das variáveis aleatórias X – E[X] e Y-E[Y]:


E  X  EX  Y  EY 
j k

A covariância de X e Y é definida como o momento central quando j=k=1.

COV ( X , Y )  E X  EX Y  EY  (4.69)

COV ( X , Y )  EXY  XEY   YE X   EX EY 


 EXY   2 EX EY   EE EY  (4.70)
 EXY   EX EY 
_______________________________________________________________

Exemplo 4.41

97
Seja X e Y variáveis aleatórias independentes. Ache sua covariâncias

COV ( X , Y )  E X  EX Y  E Y 


 EX - EX E Y  EY 
=0

onde a segunda igualdade surge do fato que X e Y são independentes. E a


terceira igualdade segue do fato que E[X-E[X]] = E[X] – E[X] = 0.
Entretanto pares de variáveis aleatórias independentes tem covariância nula.

_______________________________________________________________

O coeficiente de correlação de X e Y é definido por

COV ( X , Y ) E XY   E X E Y 
 X ,Y   (4.71)
 X Y  X Y

X e Y são ditas não correlacionadas se XY = 0. Se X e Y são independentes,


então COV(X,Y) = 0, tal que XY = 0. Então se X e Y são independentes X e
Y são não correlacionadas.
_______________________________________________________________

Exemplo 4.42
Seja  distribuída uniformemente no intervalo (0,2). Seja

X  cos  e Y  sen 

mostraremos que X e Y são não correlacionadas

E XY   E sen  cos  


1 2

2  0
sen  cos  d

1 2

4  0
sen 2 d  0

98
Desde que E[X] = E[Y] = 0, Eq.(4.70) implica que X e Y são não
correlacionadas
_______________________________________________________________

Função Característica Conjunta

A função característica conjunta de n variáveis aleatórias é definida como


 X1, X 2 ,, X n (1 ,  2 ,,  n )  E e j 1 X1 2 X 2  n X n   (4.73a)
Consideremos


 X ,Y (1 , 2 )  E e j 1 X 2Y   (4.73b)

Se X e Y são variáveis aleatórias contínuas e conjuntas, então

 
 X ,Y (1 ,  2 )    f X ,Y ( x, y)e j 1x2 y  dx dy (4.73c)
- - 

A Eq. ( 4.73c) mostra que a função característica conjunta é uma transformada


de Fourier bidimensional da pdf conjunta X e Y.
_______________________________________________________________

Estimador Linear Mínimo MSE

A estimitiva para X é dada pela função de observação 𝑋̂ = 𝑔(𝑌). Em geral o


erro estimado, 𝑋 − 𝑋̂ = 𝑋 − 𝑔(𝑌), é não nulo, e há um custo associado com o
erro, c(X-g(Y)). Estamos usualmente interessado em achar a função g(Y) que
minimiza o valor esperado do custo, E[c(X-g(Y))].
O erro médio quadrático e dado por,

Primeiro, considere o problema de estimação da variável por uma constante tal


que a media e minimizada,
99
O melhor valor de a é achado tomando a derivada com respeito a valor de a, e
fazendo o rusultado igual a zero, determinando a. O resultado fica,

Considerando agora a estimativa de X por uma função linear g(Y) = aY+b,

A Podemos imaginar a a Eq. anterior como uma aproximacao de X-aY por b.


Esta aproximação e minimizada com,

Substituindo a é dado por,

O melhor coeficiente a fica,

100
Sendo 𝜎𝑌 = √𝑉𝐴𝑅(𝑌) e 𝜎𝑋 = √𝑉𝐴𝑅(𝑋). Entretanto, o erro quadrático médio
mínimo do estimador linear de X em termos de Y é,

Exemplo Predição de segunda ordem da voz


Seja X1,X2 ..... sequência de amostras do sinal da voz, e supondo que as
amostras alimenta um preditor de segunda ordem conforme a Fig. 6.3. Ache
os coeficientes preditores a e b que minimiza o valor médio quadrático do
erro do preditor quando Xn é estimada por aXn-1 + bXn-1.
Modelando a voz tendo média zero e variância σ2

A equação para os coeficientes do preditor ótimo linear torna,

Da Eq.(**)

101
Pelo problema (**) pode se mostrar que,

PROBLEMAS

5. Ache as pmf´s marginais para os pares de variáveis aleatórias com a


indicada pmf conjunta.

X
Y -1 0 1
-1 1/6 0 1/6
0 0 1/3 0
1 1/6 0 1/6

X
Y -1 0 1

102
-1 0 0 1/3
0 0 1/3 0
1 1/3 0 0

9. Seja X e Y a amplitude dos ruídos em duas antenas. O vetor variável


aleatória ( X,Y) e tem pdf conjunta

f ( x, y)  axeax / 2byeby
2 2
/2
x > 0, y > 0, a > 0, b > 0.

A .Ache a cdf conjunta


b. Ache P[X > Y]
c. Ache as pdf´s marginais

10- O vetor variável aleatória (X,Y) tem pdf conjunta

f ( x, y )  k( x  y ) 0  x  1,0  y  1
a- Ache k
b- Ache a cdf conjunta de (X,Y)
c- Ache a pdf marginal de X e Y

11. Uma vetor de variável aleatória (X,Y) é uniformemente distribuída ( isto


é, f(x,y) = k) dentro das regiões mostradas na Fig. 4.1 e zero fora.

a. Ache o valor de k para cada caso


b. Ache a pdf marginal de X e Y para cada caso.

31- Ache

fY ( y / x )

para a pdf dada no problema 5.

76- Seja X e Y variáveis aleatórias gaussianas com pdf

103
1  12( 43 x2 163 y 2 8 xy3 8 x 16 y 16 )
f X ,Y ( x, y )  e
2
Ache E[X],E[Y],VAR[X],VAR[Y], e COV(X,Y)

CAPÍTULO 5

SOMA DE VARIÁVEIS ALEATÓRIAS

5.1 SOMA DE VARIÁVEIS ALEATÓRIAS

Seja X1, X2, ...... Xn uma sequência de variáveis aleatórias e Sn a sua soma:

Sn = X1 + X2 + ............ Xn (5.1)

Média e Variância da Soma de Variáveis Aleatórias

De acordo com a secão 4.7 o valor esperado da soma de variáveis aleatórias


não importando a suas estatísticas é igual a soma dos valores esperados,

E[X1 + X2 + ............ Xn ] = E[X1] + E[X2] + ............ E[Xn] (5.2)

Exemplo 5.1
Ache a variância de Z = X+ Y

Da Eq.(5.2), E[Z] = E[X+Y] = E[X] + E[Y]. A variância de Z é entretanto

VAR(Z) = E[(Z-E[Z])2

O resultado do Exemplo 5.1 pode ser generalizado para o caso de n variáveis


aleatórias

104
n

VAR  X 1  X 2   X n   E   X j  E X  j  n  X k  EX k 
 j 1 k 1 
n n
  E Xj E X   j  X k  EX k 
j1 k 1

  VAR X k     COV X j , X k
n n n
 
k 1 j 1 k 1
 
j k
(5.3)

Então em geral, a variância da soma de variáveis aleatórias não é igual a soma


das variâncias individuais. Se X1, X2,....Xn são independentes , então
Cov(Xj,Xk) = 0,

VAR(X1 + X2 + . . . + Xn) = VAR(X1) + . . . + VAR(Xn)


(5.4)

Exemplo 5.2
Ache a média e a variância da soma de n independentes e
identicamente distribuídas (iid) variáveis aleatórias, cada com média  e
variância 2.

A média de Sn é obtida da Eq. (5.2):

E[Sn] = E[X1] + . . . + E[Xn] = n

A covariância de um par de variáveis aleatórias independentes é igual a zero,

VAR[Sn] = n VAR[Xj] = n2

Desde que VAR[Xj] = 2 for j = 1, . . . ,

105
pdf da Soma de variáveis Aleatórias independentes

Seja X1,X2,... Xn n independentes variáveis aleatórias. Nesta seção


mostraremos como o método da transformada pode ser usado para achar a pdf
de Sn = X1 + X2 .....Xn.
Primeiramente consideremos o caso de n = 2, Z = X + Y, onde X e Y
são independentes variáveis aleatórias. A função característica de Z é dada
por

 
 Z ( )  E e jZ
 Ee 
j (X  Y)

 Ee jX
e jY

 Ee Ee 
jX jY (5.5)

  X    Y  

Onde a quarta igualdade segue do fato que funções de variáveis aleatórias


independentes são também variáveis aleatórias independentes, como discutido
no Exemplo 4.40. Então a função característica de Z é o produto de funções
características individuais de X e Y.

No Exemplo 4.31, vimos que a pdf de Z = X + Y é dada pela convolução das


pdf´s de X e Y:

fZ(z) = fX(x) * fY(y) (5.6)

Relembrando que Z() pode também ser visto como a transformada de


Fourier da pdf de Z:
Z() = {fZ(z)} (5.7)

Equacionando a transforma da Eq. (5.6) para (5.5) obteremos,

Z() = {fZ(z)} = {fX(x) * fY(y)} = X() Y()

106
Agora consideremos a soma de n independentes variáveis aleatórias:

Sn = X1 + X2 +.......Xn

A função característica de Sn é

 sn ( )   X1 ( )...... X n ( )

Exemplo 5.4
Ache a pdf da soma de n variáveis aleatórias independentes com função
característica

Xk() = X() for k = 1, . . . , n

Equacionando (5.8) imediatamente implica que a função característica de Sn é

Sn() = {X()}n (5.10)

Então a pdf de Sn pode ser achada pela inversa da transformada de Fourier do


produto de funções características individuais de Xj´s.

Exemplo 5.5
Ache a pdf da soma de n variáveis aleatórias independentes
exponencialmente distribuídas, todos com parâmetros .
A função característica da variável aleatória da variável aleatória exponencial
é

 X   
  j

Do exemplo anterior teremos que

107
n
  
 Sn     
  j 

5.2 MÉDIA AMOSTRAL E LEI DOS GRANDES NÚMEROS

Seja uma variável aleatória com média, E[X] = , desconhecida. Seja X1,
X2,.....Xn, n medida independentes de X; isto é, as Xj´s são independentes,
identicamente distribuídas variáveis aleatórias (iid) com a mesma pdf em X.
A média amostral da sequência é usada para estimar E[X]:

1 n
Mn   X j (5.15)
n j 1

O valor esperado da média amostral é dada por

1 n  1 n
 
EM n   E   X j    E X j   (5.17)
 n j 1  n j 1

A Eq. ( 5.17) implica que o erro médio quadrático da média amostral em sobre
de  é igual a variância de Mn, que é

E[(Mn - )2] = E[(Mn – E[Mn])2]

Note que Mn = Sn/n, onde Sn = X1 + X2+ .......Xn. Da Eq. (5.4), VAR(Sn) =n


VAR(Xj)= n2, desde que as Xj´s são variáveis aleatórias iid. Então

108
n 2 2
VARS n  
1
VAR[ M n ]   (5.18)
n2 n2 n

A Eq. ( 5.18) estabelece que a variância da média amostral aproxima de zero


quando o número de amostra aumenta. Isto implica que a probabilidade da
média amostral é próxima da média verdadeira quando n torna um número
grande. Podemos formalizar esta declaração usando a desigualdade de
Chebyshev,

VARM n 

P M n  EM n     
2

Substituindo E[Mn] e VAR[Mn], obteremos

2

P Mn     (5.19)
n 2

Se consideramos o evento complementar na Eq. ( 5.19), obteremos

2
P M n       1  2 (5.20)
n

LEI FRACA DOS GRANDES NÚMEROS

Seja X1,X2,.....Xn uma sequência de variáveis aleatórias iid com finita média
E[X] =, então para  >0,

109

lim P M n      1
n 
 (5.21)

P  lim M n     1
n 

LEI FORTE DOS GRANDES NÚMEROS

Seja X1,X2,....uma sequência de variáveis aleatórias iid com média finita E[X]
= , e variância finita, então

P  lim M n     1
n  (5.22)

Exemplo 5.10
Para estimar a probabilidade de um evento A, a sequência de Bernoulli pode
ser feita e a frequência relativa de A é observada. Qual o valor de n para ter
uma probabilidade que a frequência relativa está dentro de 0,01 para p = P[A].
Pela Eq. (5.19),

2
P f A ( n)  p    
1

n 2 4n 2

A ocupação desejada é  = 0,01 e a probabilidade desejada é

1
1  0.95 
4 n 2
Obteremos n= 50.000.

110
5.3 TEOREMA DO LIMITE CENTRAL

Seja X1, X2,.... sequência de variáveis aleatórias iid com média finita  e
variância finita 2, e seja Sn a soma das primeiras n variáveis na sequência:

Sn = X1 + X2 + . . . + Xn (5.25)

Definindo a variável aleatória

S n  n
Zn  (5.26)
 n

então,

lim PZ n  z  
1 2 /2
e x
z
n  2
 dx
(5.27)

(5.21)

111
112
Exemplo 5.11
Suponhamos que os pedidos em um restaurante são uma variável aleatória
com média  = $8 e desvio padrão  = $2. Estime a probabilidade que os 100
primeiros fregueses gastam um total de mais que $840. Estima a
probabilidade que os 100 primeiros fregueses gastam entre $780 e $820.
Seja Xk o gasto do kth freguês

S100 = X1 + X2 + . . . + X100

S100  800
Z 100 
20
Então
 840  800 
PS100  840   P Z 100  
 20 
_ Q(2)  2.28(10
~
-2
)

onde usamos a tabela 3.3 para calcular Q(2). Similarmente,

P[780 < S100 < 820] = P[-1 < Z100 < 1]


~ 1 – 2Q(1)
=0,682

Exemplo 5.12

No Exemplo, após quantos pedidos podemos com 90% de certeza que o gasto
total dos fregueses é superior à $1000?

O problema aqui é achar o valor de n para o qual

P[Sn > 1000] = 0,90

Sn tem média 8n e variância 4n. Procedendo como no exemplo anterior,


teremos,

 1000  8n 
PS n  1000  P  Z n    0,90
 2 n 

113
Usando o fato que Q(-x) = 1 – Q(x), a tabela 3.4, implica que n precisa
satisfazer,

1000  8n
 1,2815
2 n

o qual produz a equação

8n  1,2815(2) n  1000  0
cuja solução é
n=128,6.

5.4 Intervalo de confiança.

Fazendo ,
1 n
Mn   X j (5.33)
n j 1

A variância da média,

Vn2 
1 n

 X j Mn
n  1 j 1
2 (5.34)

Caso 1: Xj´s são Gaussianas; com média desconhecida e variância


conhecida

Suponhamos que Xj’s são variáveis aleatórias Gaussianas com média


desconhecida  e variância conhecida 2. Do exemplo 5.3 e Eqs (5.17) e
(5.18), Mn é então uma variável aleatória com média  e variância /n, então,

 M  
1  2Q( z )  P  z  n  z
 / n 
 z z 
 P M n     Mn  
 n n

114
Esta equação estabelece que o intervalo contém  M n  z / n , M n  z / n 
contém
 com probabilidade 1-Q(z). Seja z/2 tal que =2Q(z/2), então

M n  z / 2  / n , M n  z / 2  / n  (5.37)

O intervalo de confiança na Eq. (5.37) depende da média amostral Mn a


variância 2 dos Xj’s números de medidas n, e o nível de confiança 1-. A
tabela 5.1 mostra os valores de z/2 correspondente aos valores típicos de .

Tabela 5.1

1-  ,90 ,95 ,99


z/2 1,645 1,960 2,576

Exemplo 5.15

Uma tensão X é dada por,

X=v+N
Onde v é uma constante não conhecida e N uma variável aleatória que tem
uma pdf Gaussiana com média zero e variância de 1V. Ache o intervalo de
confiança de 95% para v se a tensão X é medida 100 vezes e a média amostral
é de 5,25 V.

O intervalo de confiança é dado pela Eq. (5.37) com z/2 = 1,96:


(5.36)
 1,96 (1) 1,96 (1) 
 5,25  , 5,25    (5,05, 5,45)
 10 10 

115
Caso 2: Xj’s ; média e variância desconhecida

Suponhamos que as Xj’s são variáveis aleatórias Gaussianas com média


desconhecida  e variância desconhecida , e que estamos interessados em
achar o intervalo de confiança para a média .

 zV zV 
Mn  n , Mn  n 
  (5.38)
 n n 

A probabilidade do intervalo na Eq. (5.38) é

 M    zV zV 
P  z  n  z   P M n  n    M n  n  (5.39)
 Vn / n   n n

A variável aleatória envolvendo a Eq. (5.39) é


Mn  n (M n   ) / 
W 
Vn n Vn / 
M n    /  / n  (5.40)

n  1Vn2 /  2 /n  11 / 2
No Exemplo 4.38 mostramos que W tem distribuição t de Student com grau de
liberdade n-1,
n / 2
 ( n / 2)  y 2 
f n 1 ( y )   1
n  1 / 2  n  1  n  1 
(5.41)

Seja Fm-1(y) a correspondente cdf de fn-1, então a probabilidade na Eq. (5.39) é


dada por


 zV 
z
zV
P M n  n    M n  n   f n 1 ( y )dy
 n n z (5.42)
 1 - 2Fn -1 ( z )

116
O intervalo de confiança (1-)x100% para a média  é dada por

M n  z / 2, n -1V n / n , M n  z / 2, n -1V n / n  (5.43)

Tabela 5.2

1-
n–1 ,90 ,95 ,99
1 6,314 12,706 63,657
2 2,920 4,303 9,925
3 2,353 3,182 5,841
4 2,132 2,776 4,604
5 2,015 2,571 4,032
6 1,943 2,447 3,707
7 1,895 2,365 3,499
8 1,860 2,306 3,355
9 1,833 2,262 3,250
10 1,812 2,228 3,169
15 1,753 2,131 2,947
20 1,725 2,086 2,845
30 1,697 2,042 2,750
40 1,684 2,021 2,704
60 1,671 2,000 2,660
 1,645 1,960 2,576

Exemplo 5.16
O tempo de vida de um certo dispositivo tem uma distribuição Gaussiana .
Oito dispositivos são testados e a média amostral e a variância do tempo de
vida são 10 dias e 4 dias. Ache o intervalo de confiança de 99% para o tempo
médio de vida do dispositivo.
Para um intervalo de confiança com 99 % e n-1=7, a tabela 5.2, é dada por
z/2,7=3,499. Então o intervalo de confiança é dado por,

117

10 
3,499 (2) , 10  3,499 (2)   7,53, 12,47 
 
 8 8 

PROBLEMAS

1. Seja W = X + Y + Z, onde X, Y e W possuem média zero, e variância


unitária com COV(X,Y) = ¼ e COV(Y,Z) = -1/4 e COV(X,Z) = 0.
a. Ache a média e a variância de W
b. Repita a parte (a) assumindo que X, Y, e Z são variáveis aleatórias não
correlacionadas.

2. Seja X1, X2,.....Xn variáveis aleatórias com a mesma média  e função


covariância :

2 se i = j
COV(X,Y) = 2 se |i-j| = 1
0 outros

onde || <1. Ache a média e variância de Sn = X1 + X2 + .........Xn.

17. Um dado é lançada 1000 vezes. Use a equação (5.20) para limitar a
probabilidade total do número de pontos entre 300 e 400.

22. Uma moeda é lançada 1000 vezes. Estime a probabilidade que o número
de caras esteja entre 400 e 600. Estime a probabilidade que o número de caras
esteja entre 500 e 550.

24. Um dado é lançada 100 vezes. Use o teorema do limite central para
estimar o número total de pontos entre 300 e 400. Compare com a resposta do
problema 17.

118
CAPITULO 6

PROCESSOS ALEATÓRIOS

6.1 DEFINIÇÃO DE PROCESSOS ALEATÓRIOS

Consideremos um experimento aleatório especificado pelo resultado  de um


espaço amostral S, pelos eventos de S, e pela probabilidade destes eventos.
Suponhamos que para todo resultado   S, designamos uma função no tempo
pela regra:

X(t,) t  I.

O gráfico das funções X(t,) versus t, para um  fixo, é chamado de


realização, caminho amostral, ou função amostral do processo aleatório.
Por outro lado para qualquer tk de um conjunto indexado I, X(tk,) é uma
variável aleatória ( veja Fig. 6.1). Assim então temos criado uma família
indexada de variáveis aleatórias, { X(t,), t I }. Esta família é chamada de
processo aleatório ou estocástico. Suprimiremos  e usaremos X(t) para
identificar o processo aleatório.

119
Figura 6.1- Diversas realizações de um processo aleatória.

Exemplo 6.2

Seja  selecionada de forma aleatória no intervalo [-1,1]. Definimos um


processo aleatório contínuo X(t,) por

X(t,) = cos(2t) - < t < .

A realização deste processo aleatório são senoides com amplitude , como


mostrado na Fig. 6.2(a).

120
Figura 6.2a- Senoide com amplitude aleatória

Figura 6.2b- Senoide com fase aleatória

Exemplo 6.4
Ache a pdf para Xo = X(to,) e Y(to,) para o Exemplo 6.2.

121
Desde que to é tal que cos(2to) = 0 , então X(to,) = 0 e a pdf de X(to) é uma
função delta unitária em x = 0. Por outro lado X(to,) é uniformemente
distribuída no intervalo(-cos2to, cos2to) desde que  é uniformemente
distribuída em [-1,1] ( veja Fig. 6.3a). Nota-se que a pdf de X(to,) depende de
t.
A aproximação usada no exemplo 3.28 pode ser usada para mostrar que
Y(to,) tem distribuição arcoseno:

1
f Y ( y)  , y 1
 1 y 2

(veja a Fig. 6.3a).

Figura 6.3- (a) pdf de uma senoide com amplitude aleatória. (b) pdf de uma
senoide com fase aleatória.

6.2 ESPECIFICANDO UM PRCESSO ALEATÓRIO

Seja X1,X2, ......... Xk k variáveis aleatórias obtidas pela amostragem do


processo aleatório X(t,) nos instantes de tempo t1,t2,......tk:

X1 =(t1, ), X2=X(t2, ), ... .........., Xk = X(tk, )

como mostrado na Fig. 6.1. O comportamento conjunto do processo aleatório


nestes instantes de tempo é especificado pela distribuição conjunta do vetor de
variáveis aleatória (X1,X2,......Xk). Um processo aleatório é especificado pela
coleção da função distribuição de ordem k-ésima:

122
FX1 ,, X k ( x1 , x 2 ,, x k )  PX 1  x1 , X 2  x 2 ,, X k  x k , (6.1)

Para qualquer k e qualquer escolha do instante de amostragem t1,t2, ...... tk.


Se o processo aleatório é discreto, então a coleção das funções massa de
probabilidade podem serem usadas para especificar o processo aleatório.

p X1 ,, X k ( x1 , x 2 ,, x k )  PX 1  x1 , X 2  x 2 ,, X k  x k . (6.2)

Se o processo estocástico é contínuo, então a coleção de funções densidade de


probabilidade pode serem usadas para especificar o processo aleatório.

f X1 ,, X k ( x1 ,, x k ) (6.3)

Exemplo 6.5
Seja uma sequência de variáveis aleatórias de Bernoulli com p = ½. A
pmf conjunta para qualquer k amostras no tempo é então:

P[X1 = x1, X2 = x2, , Xk = xk] = 2-k x1  {0, 1} for all i

Este processo aleatório binário é equivalente ao discutido no exemplo 6.1.

|______________________________________________________________|

Em particular veremos que dois processos, o de Poisson e o processo de


Wiener pertence à seguinte classe de processos. Um processo X(t) é dito ter
incrementos independentes se para qualquer k e qualquer escolha do instante
de amostragem t1 < t2 < ....tk, as variáveis aleatórias são independentes.

X(t2) – X(t1), X(t3) – X(t2), ... , X(tk) – X(tk-1)

123
Um processo X(t) é dito ser de Markov se o futuro o processo dado o presente
é independente do passado; isto é, para qualquer k e qualquer escolha dos
instantes de amostragens t1, t2, ........tk e qualquer x1, x2, xk,

f X (tk ) ( x k X (t k 1 )  x k 1 ,, X (t1 )  x1 )


 f X(t k ) ( x k X (t k 1 )  x k 1 )
se X(t) é contínuo, e

P[ X (t k )  x k X (t k 1 )  x k 1 , , X (t1 )  x1 ]
 PX(t k )  x k X (t k 1 )  x k 1 

se X(t) for discreto.

Média, e as funções autocorrelação, autocovariância

Os momentos das amostras no tempo de um processo aleatório podem ser


particularmente especificados pelo processo aleatório porque ele sumariza a
informação contida na cdf conjunta. A média de um processo aleatório X(t)
pode ser definida por

m X (t )  EX (t )  

xf X (t ) ( x)dx (6.4)
-

Onde fX(t) é a pdf de X(t). Em geral, mX(t) é função do tempo.

A função autocorrelação RX(t1,t2) de um processo aleatório X(t) é definido


como um momento conjunto de X(t1) e X(t2)

RX (t1 , t 2 )  EX (t1 ) X (t 2 )  


 

-  -
xyf X (t1 ) X (t2 ) ( x, y)dx dy, (6.5)

Onde fX(t1),X(t2)(x,y) é a pdf de segunda ordem de X(t). Em geral, a função


autocorrelação é função de t1 e t2.
124
A função autocovariância CX(t1,t2) de um processo aleatório X(t) é definido
como a covariância de X(t1) e X(t2):

CX(t1,t2) = E[{X(t1) – mX(t1)}{X(t2) – mX(t2)}]


(6.6)

Da Eq. (4.70 ), a autocovariância pode ser expressa em termos da


autocorrelação e da média:

CX(t1,t2) = RX(t1,t2) – mX(t1) mX(t2)


(6.7)

Nota-se que a variância pode ser obtida de CX(t1,t2):

VAR[X(t)] = E[(X(t) – mx(t))2] = CX(t, t)


(6.8)

O coeficiente de correlação de X(t) é definido como o coeficiente de


correlação de X(t1) e X(t2) ( veja Eq. 4.71):

C X (t1 , t 2 )
 X (t1 , t 2 ) 
C X (t1 , t1 ) C X (t 2 , t 2 )
(6.9)

Exemplo 6.6
Seja X(t) = Acos(2t), onde A é uma variável aleatória ( veja Fig. 6.2a).
A média de X(t) é achada usando Eq. (3.61):

mX(t) = E[A cos2t] = E[A] cos2t

Nota-se que a média varia com t. Em particular, nota-se que o processo é


sempre zero para valores de t onde cos(2t) = 0.
A autocorrelação é

RX(t1, t2) = E[A cos2t1 A cos 2t2]

125
=E[A2] cos 2t1 cos 2t2

e a autocovariância é então

CX(t1, t2) = RX(t1, t2) – mX(t1) mX(t2)


= {E[A2] – E[A]2} cos 2t1 cos 2t2
= VAR[A] cos 2t1 cos 2t2

Exemplo 6.7
Seja X(t) = cos(t + ), onde  é uniformemente distribuída no
intervalo (-,) (veja Rig. 6.2b). A média de X(t) é achada usando a Eq.
(3.61):

1 
m X (t )  E[cos(t  )] 
2 
-
cos(t   )d  0

A autocorrelação e a autovovariância são dadas por

CX(t1, t2) = RX(t1, t2) = E[cos(t1 + ) cos(t2 + )]

C X (t1, t2)  R X (t1, t2)  E[cos(t 1  ) cos(t 2  )]


1 
cos t1  t 2   cos t1  t 2   2 d
2 -

 cos t1  t 2 
1
2

Onde usamos a identidade cos(a)cos(b) = cos(a+b)/2 +cos(a-b)/2. Nota-se que


mX(t) é uma constante e que CX(t1,t2) depende somente de |t1-t2|.

Processos Aleatórios Múltiplos


Os processo X(t) e Y(t) são independentes se o vetor de variáveis aleatórias
(X(to),......X(tk)) e (Y(t´1),......Y(t´j)) são independentes para todo k e j, e
todos os valores escolhidos de t1,.....tk e t´1,...... t´j

126
A correlação cruzada RX(t1,t2) de X(t) e Y(t) é definida por

RX,Y(t1,t2) = E[X(t1)Y(t2)]
(6.12)

Os processos X(t) e y(t) são ortogonais se

RX,Y(t1,t2) = 0 for all t1 and t2 (6.13)

A covariância cruzada CXY(t1,t2) de X(t) e Y(t) é definida por

CX,Y(t1, t2) = E[{X(t1) – mX(t1)} {Y(t2) – mY(t2)}]


= RX,Y(t1, t2) – mX(t1) mY(t2)
(6.14)

Os processos X(t) e Y(t) são não correlacionados se

CX,Y(t1, t2) = 0 for all t1 and t2


(6.15)

Exemplo 6.9
Seja X(t) = cos(t + ) e Y(t) = sen(t + ), onde  é uma variável
aleatória uniformemente distribuída em [-,]. Ache a covariância cruzada de
X(t) e Y(t).
Do Exemplo 6.7 sabemos que X(t) e Y(t) tem média zero. Da Eq. (6.14), a
covariância cruzada é igual a correlação cruzada,

R X ,Y (t1 , t 2 )  Ecost1   sen t 2   


 1 
 E - sen  t1  t 2   sen  t1  t 2   2 
1
 2 2 
 - sen  t1  t 2 
1
2
desde que E[sen((t1+ t2) + ) = 0.

127
Exemplo 6.10
Suponha que observamos o processo Y(t), o qual consiste do sinal
desejado mais ruído:

Y(t) = X(t) + N(t)

Ache a correlação cruzada entre o sinal observado e o sinal desejado


assumindo que X(t) e Y(t) são variáveis aleatórias independentes.

Da Eq. (6.12) temos que

RX,Y(t1, t2) = E[X(t1) Y(t2)]


= E[X(t1) {X(t2) + N(t2)}]
= E[X(t1) X(t2)] + E[X(t1) N(t2)]
= RX(t1, t2) + E[X(t1)] E[N(t2)]
= RX(t1, t2) + mX(t1) mN(t2)

onde a terceira igualdade segue do fato que X(t) e Y (t) são independentes.

6.3 EXEMPLOS DE PROCESSOS ALEATÓRIOS DISCRETOS

Exemplo 6.11
Seja In uma sequência de variáveis aleatórias discretas. In é então um
processo iid que assume valores no conjunto {0,1}. Uma realização de tal
processo é mostrada na fig.6.4(a). Par o exemplo, In pode ser uma função
indicadora para o evento “luz falha e é resposta no dia n”.
Desde que In é uma variável aleatória de Bernoulli, ela tem uma média e
variância dada por

128
m(In) = p ; VAR[In] = p(1 – p)
A independência dos I n´s faz com que o cálculo das probabilidades seja fácil.
Por exemplo, a probabilidade que os primeiros 4 bits na sequência seja 1001 é

P[I1 = 1, I2 = 0, I3 = 0, I4 = 1]
= P[I1 = 1] P[I2 = 0] P[I3 = 0] P[I4 = 1]
= p2(1 – p)2
Similarmente, a probabilidade que o segundo bit seja 0 e o sétimo seja 1 é

P[I2 = 0, I7 = 1] = P[I2 = 0] P[I7 = 1] = p(1 – p)

Exemplo 6.12
Seja Dn = 2In-1, onde In é um processo de Bernoulli, então

 1 if I n  1
Dn  
 1 if I n  0
Por exemplo, Dn pode se representar a mudança na posição de uma partícula
que move ao longo de uma linha reta com saltos de  1 em cada unidade de
tempo. Uma realização de Dn é mostrado na Fig.6.5(a). A média de Dn é

m(Dn) = E[Dn] = E[2In – 1] = 2E[In] – 1 = 2p – 1


A variância de Dn é achada pela Eq.(3.69) e (3.70):

129
VAR[Dn] = VAR[2In – 1] = 22VAR[In] = 4p(1 – p)
A probabilidade dos eventos envolvendo Dn são calculados no exemplo 6.11.

Soma de Processos: Contagem binomial e Processo aleatório Walk


Vários processos interessantes aleatórios são obtidos pela soma de uma
sequência de variáveis aleatórias iid, X1,X2,......:

Sn = X1 + X2 +  + Xn n = 1, 2, 
= Sn – 1 + Xn, (6.20)

Figura 6.6- O processo soma Sn = X1 + X2 + .....Xn, pode ser gerado desta


maneira.

130
Onde So = 0 . Chamamos de Sn de processo soma. A pdf ou pmf de Sn é
achada usando a convolução ou o método da equação característica
apresentado na seção 5.1.

Exemplo 6.13
Seja In uma sequência de Bernoulli de variáveis aleatórias
independentes no Exemplo 6.11, e Sn a soma correspondente ao soma . Sn é
então o processo de contagem que dá o número de primeiro sucesso em n
testes de Bernoulli. A função amostra para Sn corresponde à uma particular
sequência das In´s é mostrada na Fig.6.4(a). Se In indica que a lâmpada falha e
é reposta no dia n, então Sn representa o número de lâmpadas que falharam até
o dia n.
Desde que Sn é a soma de variáveis aleatórias de Bernoulli, Sn é uma variável
aleatória binomial com parâmetros n e p = P[I=1]:
 n
P[ S n  j ]    p j (1  p) n  j for 0  j  n
 j

e zero para outros casos. Então Sn tem média np e variância np(1-p). Nota-se
que a média e variância deste processo cresce linearmente com o tempo.

Exemplo 6.14
Seja Dn processo iid de uma variável aleatória assumindo valores  1 no
Exemplo 6.12, e seja Sn um processo correspondente ao processo soma. Sn é
então a posição de uma partícula no instante de tempo n. O processo Sn é um
exemplo de um processo “walk” de unidimensional . A função amostra de S n é
mostrada na Fig. 6.5(b).

A pmf de Sn é achada como segue: Se há k+1s nos primeiros n testes, então


haverá n-k-1s, e Sn = k –(n-k) = 2k. Sj = j se o número de +1s é k = (j + n)/2.
Se (j +n ) não é um inteiro, então a soma Sn não pode ser igual a j. Então

 n
PS n  2k  n    p k (1  p) n k for k 0,1,, n
k
131
Um processo soma tem incrementos independentes em intervalos de tempo
que não superpõem. Para ver isto consideremos intervalos de tempo : n 0 < n
<n1 e n2 < n < n3, sendo n1 < n2. Os incrementos de Sn neste intervalos de
tempo disjuntos são dados por:

Os incrementos acima não tem nenhum valor de X comum, tal que a


independência de X implica em incrementos ( Sn1-Sn0) e (Sn3 –Sn2)
independentes variáveis aleatórias.

Para 𝑛′ > 𝑛, o incremento 𝑆𝑛′ − 𝑆𝑛 é a soma de de variáveis aleatórias iid, tal


que ela tem a mesma distribuição de 𝑆𝑛′−𝑛 , a soma dos primeiros 𝑛′ −
𝑛 valores de X.

O fato que o processo tem incrementos independentes e estacionários é fácil


calcular a pdf/pmf conjunta em qualquer instante de tempo.

Pela propriedade da independência,

Finalmente, a propriedade de incrementos estacinários implica,

132
_________________________________________________________
Exemplo 6.16
Ache a pmf conjunta de um processo de contagem binomial nos tempos n 1 e
n2.

Ache a probabilidade

Isto é, as n1 primeiras tentativas falham e as restantes tentativas, todas tem


sucesso.

Pelo exposto acima,

A probabilidade então é dada por,

__________________________________________________________

__________________________________________________________

Exemplo 6.17
Seja uma sequência de variáveis aleatórias Gaussinas Xn com média zero e
variância 𝜎 2 . Ache a pdf conjunta da soma do processo no tempo n1 e n2.

O processo soma Sn também é Gaussiano com média zero e variância 𝑛𝜎 2 . A


pdf conjunta de Sn nos intantes de tempo n1 e n2 é dada por,

133
_________________________________________________________

Desde que o processo é a soma de n variáveis iid, a média e variância são


dadas por,

A autocovariância de Sn é ( supondo n<k) ,

Desde que Sn e Sk –Sn são independentes

Pois E[Sn-nm]=0.

O processo de Poisson
Consideremos a situação em que eventos ocorrem em instantes de
tempo em uma média de  eventos por segundo. Por exemplo, um evento que
representa a chegada de clientes em uma estação de serviços. Seja N(t) o
número de ocorrência de eventos em um intervalo de tempo [0,t]. N(t) é então
um processo não decrescente, com valores inteiros, mostrado na Fig. 6.8.
134
Suponhamos que o intervalo de tempo [0,t] é divido em n subintervalos de
curta duração  = t/n. Assuma que duas as seguintes condições são
estabelecidas:

1. A probabilidade de mais do que um evento ocorra no subintervalo é


desprezado comparado com a probabilidade de observação de um ou mais
eventos.

2. A ocorrência de um evento em um dado subintervalo é independente dos


outros subintervalos.

Se a probabilidade de ocorrência em um subintervalo é p, então o número


esperado de eventos no intervalo [0,t] é np. Desde que os eventos ocorram na
taxa de  eventos poe segundo, o número médio de eventos no intervalo [0,t] é
também t. Então precisamos ter

t = np

Se temos que n  ( isto é   0) e p  0 enquanto np = t permanece fixo,


então da Eq. (3.31) a distribuição binomial aproxima da distribuição de
Poisson com parâmetro t. Entretanto concluímos que o número de ocorrência
de eventos N(t) no intervalo[0,t] tem uma distribuição de Poisson com média
t:

P[ N (t )  k ] 
t k t
e for k  0, 1,  (6.30)
k!

Por esta razão N(t) é chamado de processo de Poisson.

A distribuição para o número de ocorrência em qualquer intervalo de tempo t


é dada pela Eq. (6.30) . A propriedade da independência e incrementos
estacionários permite nos escrever a pmf conjunta para N(t) em qualquer
número de pontos. Por exemplo, para t1 < t2,

135
PN (t1 )  i, N(t 2 )  j   PN (t1 )  i PN (t 2 )  N (t1 )  j  i 
 PN(t1 )  i PN (t 2  t1 )  j  i 
(6.31a)

t1  e
i t1
 t 2  t1  j i
e  t 2 t1 

i! ( j  i )!

A propriedade de incrementos independentes permite nos calcular a


autocovariância de N(t). Supondo que t1  t2, então

CN(t1, t2) = E[(N(t1) - t1) (N(t2) - t2)]


= E[(N(t1) - t1) {N(t2) – N(t1) - t2 + t1 + (N(t1) - t1)}]
= E[N(t1) - t1] E[N(t2) – N(t1) - (t2 – t1)] + VAR[N(t1)]
(6.31b)
= VAR[N(t1) = t1
=  min(t1, t2)

Onde usamos o fato que E[N(t1) = t1.

Considerando o tempo entre ocorrência de eventos no processo de Poisson.


Supondo que no intervalo de [0,t] é dividido em n subintervalos de tamanho 
= t/n. A probabilidade que o interevento de tempo T excede t segundos é
equivalente à não ocorrência do evento no tempo de t segundos ( ou nos n
testes de Bernoulli).

P[T  t ]  Pno events in t seconds 


 (1 - p) n
 t 
n

 1 -  (6.32)
 n
 e -t as n  

A Eq. (6.32) implica que T é uma variável aleatória exponencial com


parâmetro .
Concluímos que os intereventos de tempo em um processo de Poisson forma
uma sequência iid de variáveis aleatórias exponenciais com média 1/.

136
Exemplo 6.22
Considerando um processo aleatório X(t) que assume valores  1
Supondo que X(0) =  com probabilidade ½, e supondo também que X(t)
então muda de polaridade à cada ocorrência de um evento no processo de
Poisson na taxa . A fig.6.9 mostra a função amostra de X(t).
A pmf de X(t) é dada por

P[X(t) =  1] = P[X(t) =  1|X(0)=1] P[X(0) = 1]


+ P[X(t) =  1 |X(0) = - 1] P[X(0) = -1]
(6.35)

As pmf´s condicionais são achadas observando que X(t) terá a mesma


polaridade que X(0) somente quando um número par de eventos ocorrerem
no intervalo (0,t]. Então

PX (t )  1 X (0)  1  PN (t )  even integer 



t 2 j t
e
j 0 2 j !

 e -t
2

1 t
e  e t  (6.36)


1
2

1  e  2t 

X(t) e X(0) serão diferentes em sinais se o número de eventos for impar:

137
PX (t )  1 X (0)  1  
t 2 j 1 t

e

j 0 2 j  1 ! 
 e -t
2

1 t
e  e t 
(6.37)


1
2

1  e  2t 
Obteremos a pmf de X(t) substituindo na Eq. (6.35):

PX (t )  1 
11
22

1  e 2t 
11
22
 
1  e  2t 
1
2

PX (t )  1  1  PX (t )  1 


1
(6.38)
2
O sinal telegráfico aleatório é igualmente provável para os valores de  1 em
qualquer instante de tempo t > 0. A média e variância de X(t) são

mX(t) = 1 P[X(t) = 1] + (-1) P[X(t) = - 1] = 0

VAR[X(t)] = E[X(t)2] = (1)2 P[X(t) = 1]


+ (-1)2 P[X(t) = - 1] = 1
A autocovariância de X(t) é achada como segue:

C X (t1 , t 2 )  EX (t1 ) X (t 2 )


 1P[X(t 1 )  X (t 2 )  (1) P[X(t 1 )  X (t 2 )]


1
2
  2 t t 1
 
 2 t t
1 e 2 1  1 e 2 1
2
 (6.39)

- 2 t 2 t1
e

138
Exemplo 6.23
O processo de Poisson é zero em t= 0 e aumenta de uma unidade em
tempos de chegadas aleatórias Sj, j=1,2,..... Então o processo de Poisson pode
ser expresso como a soma de funções degrau deslocadas aleatoriamente:


N (t )   u (t  S i ) N(0)  0
i 1

onde Si são os tempos de chegadas.


Desde que a integral da função delta (t-S), podemos ver N(t) como resultante
da integração de um trem de funções delta que ocorrem nos tempos S n, como
mostra a Fig. 6.10(a):


Z (t )    (t  S i )
i 1

6.4 PROCESSO ALEATÓRIO ESTACIONÁRIO

Um processo aleatório contínuo ou discreto X(t) é estacionário se sua função


distribuição de probabilidade conjunta de qualquer conjunto de amostras não
depende da posição de probabilidade do tempo. Esto significa que a cdf de
X(t1), X(t2), .....X(tk) é a mesma para X(t1+), X(t2+),....X(k+):

FX (t1 ),, X (tk ) ( x1 ,, x k )  FX (t1  ),, X ( tk  ) ( x1 ,, x k ) (6.48)

para todo  e k.

A cdf de primeira ordem um processo estacionário precisa ser independente


do tempo, desde que pela Eq. (6.48),

FX(t)(x) = FX(t + )(x) = FX(x) all t,  (6.49)

Isso implica que a média e variância de X(t) são constantes e independentes


do tempo:

mX(t) = E[X(t)] = m for all t (6.50)

139
VAR[X(t) = E[(X(t) – m)2] = 2 for all t
(6.51)

A cdf de segunda ordem de um processo aleatório pode ser dependente


somente da diferença de tempo entre as amostras e não instante de tempo
das amostras, desde que pela Eq. ( 6.48 ):

FX ( t1 ), X (t2 ) ( x1 , x 2 )  FX ( 0 ), X (t2 t1 ) ( x1 , x 2 ) for all t 1 , t 2 (6.52)

Isto implica que a autocorrelação e autocovariância de X(t) depende somente


de t2-t1

RX(t1, t2) = RX(t2 – t1) for all t1, t2


(6.53)

CX(t1, t2) = CX(t2 – t1) for all t1, t2


(6.54)

Processo de Wiener e Movimento Brawniano

Supondo um processo walk simétrico p =1/2, de passo ±ℎ a cada intervalo de


tempo 𝛿. No intervalo de tempo t o processo tem 𝑛 = 𝑡⁄𝛿 saltos. Podemos
construir um processo 𝑋𝛿 (𝑡) que é a soma do deslocamentos,

A média e a variância de 𝑋𝛿 (𝑡) é dada por,

Mas vimos que,

quando, p =1/2.

Para o caso quando 𝛿 → 0 𝑒 ℎ → 0, com


140
ℎ2
( 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒) = 𝛼
𝛿
Sendo X(t) o processo resultante, então,

Podemos observar que a variância aumenta com o tempo.

Quando 𝛿 → 0 teremos um número infinito de variáveis aleatórias

Pelo teorema do limite central,

Como resultado a pdf conjunta é dada por,

6.5 EXEMPLOS DE PROCESSOS ALEATÓRIOS CONTÍNUOS


Processo Gaussiano

141
Um processo aleatório X(t) é um processo Gaussiano se X1 =X(t1), X2=X(t2),
........Xk(tk) são variáveis aleatórias Gaussianas conjuntas para todo k e todo t1,
t2,.....tk. A pdf conjunta é dada por,

O vetor médio e matriz covariância são dados por:

Caso Gaussiano e iid

Seja um processo discreto no tempo Xn uma sequência de variáveis aleatórias


com média m e variância 𝜎 2 . A matriz covariância para os tempos n1 ,.....nk é
dada por,

142
A pdf é dada por,

Processo Estacionário no Sentido Amplo

Em várias situações não podemos determinar se um processo é estacionário,


mas podemos determinar se a média é constante:

mX(t) = m para todo t, (6.55)

e se sua autocovariância ( ou equivalentemente autocorrelação ) é uma função


apenas de t1-t2:

CX(t1,t2) = CX(t1 – t2) para todo t1,t2. (6.56)

Um processo X(t) discreto ou contínuo no tempo é estacionário no sentido


amplo ( WSS) se satisfaz as Eqs. ( 6.55) e (6.56).
Quando X(t) é estacionário no sentido amplo, podemos escrever

CX(t1,t2) = CX() e RX(t1,t2) = RX()

Onde  = t1-t2.

Deduziremos alguns resultados que nos habilita a deduzir algumas


propriedades do processo WSS a partir das propriedades de sua função
autocorrelação.
Primeiramente, a função autocorrelação em  = 0 dá potência média (
segundo momento) do processo:

143
RX(0) = E[X(t)2] for all t
(6.57)

Segundo, a função autocorrelação é uma função par de  desde que

RX() = E[X(t + ) X(t)] = E[X(t)X(t + )] = RX(-)

(6.58)

Terceira, a autocorrelação é a medida da taxa de mudança do processo


aletório no seguinte sentido. Considerando a mudança no processo de t até t+τ
:

Sendo usado a desigualdade de Marcov. A equação acima estabelece que se


RX(0) – RX(τ) é pequena, isto é RX(τ) cai lentamente, então a probabilidade de
grande mudança em X(t) em τ segundos é pequena.

Quarto, a função autocorrelação é máxima em τ =0. Podemos usar a


desigualdade de Cauchy-Schwarz,

Para qualquer valor de X e Y. Se aplicarmos a equação para X(t+τ) e X(t),


obteremos,

144
Exemplo 6.30
A Fig. 6.12 mostra diversas funções autocorrelação. A Fig. 6.12(a)
mostra a função autocorrelação para o sinal telegráfico X(t) ( veja Eq. 6.39) :

RX() = e-2|| for all 

Onde X(t) tem média zero e RX(t)  0, quando ||  .


A Fig. 6.12(b) mostra a função autocorrelação para a senoide Y(t) com
amplitude a e fase aleatória ( veja exemplo 6.7):

a2
RY ( )  cos2f 0  for all 
2

145
Figura 6.12- (a) função autocorrelação do sinal telegráfico.(b) função
autocorrelação de uma fase senoidal. (c) função autocorrelação de um
processo com média não nula.

146
PROBLEMAS

3. Um processo aleatório Xn é definido como segue. Uma moeda é lançada.


Se o resultado for cara, Xn = 1 para qualquer n; se o resultado for coroa,
Xn, = -1 para qualquer n.
a- Desenhe alguma realização do processo
b- Ache a pmf para Xn
c- Ache a pmf conjunta de Xn e Xn+1.
d- Ache a média e autocovariância de Xn

14. Seja X(t) um processo aleatório Gaussiano com média zero e função
autocorrelação dada por

CX(t1,t2) = 2e-|t1-t2|
Ache a pdf conjunta de X(t) e X(t+s).

18. Seja X(t) = Acos(t) + Bcos(t), onde A e B são variáveis aleatórias


Gaussianas iid com média zero e variância 2.
a- Ache a média e a autocovariância de X(t)
b- Ache a pdf conjunta de X(t) e X(t+s).

147
CAPÍTULO 7

ANÁLISE E PROCESSEMENTO DE SINAIS ALEATÓRIOS

7.1 DENSIDADE ESPECTRAL DE POTÊNCIA

Processos Contínuos no Tempo

Seja um processo aleatório contínuo WSS com média mX(t) e função


autocorrelação RX(t). A densidade espectral de potência X(t) é dada pela
transformada de Fourier da função autocorrelação:

S X ( f )  R X ( )

 R X ( )e  j 2f d
-
(7.1)
Para um processo com valores reais, a função autocorrelação é uma função par
de 

RX() = RX(-) (7.2)

Substituindo na Eq.(7.1) implica que


SX ( f )   R X ( )cos 2f  jsen2f d
-
 (7.3)
 R X ( ) cos 2f d
-

desde que a integral do produto de uma função par( RX()) por uma função
impar(sen2f) é zero. A Eq. (7.3) implica que SX(f) é uma função par com
valores reais em f. No final desta seção mostraremos que SX(f) é não negativa;

SX(f) > 0 for all f (7.4)

A função autocorrelação pode ser recuperada da densidade espectral de


potência aplicando a inversa da transformada de Fourier da Eq.(7.1)

148
R X ( )   1 S X ( f )

 S X ( f )e j 2f df (7.5)
-

Em engenharia elétrica é muito comum chamar o segundo momento de X(t)


como potência média.

 
E X 2 (t )  R X (0)  

-
S X ( f )df (7.6)

A Eq.(7.6) estabelece que a potência média de X(t) é obtida integrando, SX(t)


na frequência. Isto é consistente com o fato de que SX(f) é a “densidade de
potência” de X(t) em função da frequência f.
Desde que as funções autocorrelação e autocovariância são relacionadas por
R X ( )  C X ( )  m X2 , a densidade espectral de potência é dada por ,


S X ( f )   C X ( )  m X2 
 C X ( )  m X2  ( f )
(7.7)

onde usamos o fato que a Transformada de Fourier de uma constante é a


função delta. Dizemos que mX(t) é a componente DC de X(t).

SX,Y(f) = {RX,Y()} (7.8)

onde RX,Y() é a função correlação cruzada entre X(t) e Y(t):

RX,Y() = E[X(t + ) Y(t)] (7.9)

Em geral, SX,Y(f) é uma função complexa de f se X(t) e Y(t) são ambas reais.

Exemplo 7.1
Ache a densidade espectral de potência do sinal telegráfico.
No exemplo 6.22, a função autocorrelação do sinal telegráfico foi achada
como sendo

149
RX() = e-2||

Onde  a taxa de transição média do sinal. Entretanto, a densidade espectral


de potência do processo é

0 
SX ( f )   e 2
e  j 2f
d   e  2 e  j 2f d
- 0

1 1
 
2  j 2f 2  j 2f
4

4 2  4 2 f 2
(7.10)

Figura 7.1- Densidade espectral de potência do sinal telegráfico

150
Exemplo 7.2
Seja X(t) = acos(2f0t +), onde  é distribuída uniformemente no
intervalo (0,2). Ache SX(f).
Do Exemplo 6.7, a função autocorrelação de X(t) é

a2
R X ( )  cos 2f 0
2
Então a função densidade espectral de potência é

a2
SX ( f )  cos 2f 0 
2
a2 a2
   f  f0     f  f0 
4 4
(7.11)
onde usamos a tabela da transformada de Fourier. O sinal tem potência média
RX(0) = a2/2. Toda a potência está concentrada na frequência  f0, tal que a
densidade de potência nesta frequência é infinita.

Exemplo 7.3
A densidade espectral de potência de um processo ruído branco WSS
cujas componentes de frequência estão no intervalo –W  f  W é mostrado na
Fig. 7.2(a). O processo é dito ser “branco” em analogia a luz branca, a qual
contém todas as frequências. A potência média neste processo é obtida da
Eq.(7.6):

151
Figura 7.2 – Ruído branco limitado em faixa: (a) densidade espectral de
potência, (b) função autocorrelação.

w N0
E[ X 2 (t )]   df  N 0W (7.12)
-w 2
A autocorrelação do processo é obtida da Eq.(7.5):

152
1 w
RX ( )  N 0  e j2f df
2 -w

1 e - j2w  e j 2w
 N0
2  j 2 (7.13)
N sen2W 
 0
2

RX() é mostrada na Fig. 7.2b. Nota-se que X(t) e X(t+) são não
correlacionadas em =  k/2W, k=1,2....
O termo ruído branco usualmente referencia ao processo W(t) cuja densidade
espectral de potência é N0/2 para todas as frequências:

N0
Sw ( f )  for all f (7.14)
2
A Eq.(7.2) com W =  mostra que o processo precisa ter potência média
infinita. Fazendo W   na Eq. (7.13), achamos que a autocorrelação de tal
processo aproxima de

N0
Rw ( )     (7.15)
2
Exemplo 7.4
Ache a densidade espectral de potência de Z(t) = X(t) + Y(t), onde X(t)
e Y(t) são processos WSS conjuntos.

RZ() = E[Z(t + ) Z(t)] = E[(X(t + ) + Y(t + )) (X(t) + Y(t))]


= RX() + RYX() + RXY() + RY()

A densidade espectral de potência é então

SZ(f) = {RX() + RYX() + RXY() + RY()}


= SX(f) + SYX(f) + SXY(f) + SY(f) (7.16)

153
Processos Aleatórios Discretos no Tempo

Seja Xn um processo aleatório WSS discreto no tempo com média mX e


autocorrelação RX(k). A densidade espectral de potência é definida pela
transformada de Fourier da sequência autocorrelação.

S X ( f )  RX (k )

 R
k 
X (k )e  j 2fk (7.21)

A transformada inversa aplicada na Eq. (7.21) pode ser dada pela equação,

1/2
R X (k )   S X ( f )e j 2fk df (7.22)
-1/2

A densidade espectral de potência de SX,Y(f) de dois processos WSS conjuntos


discretos no tempo Xn e Yn é definido como

SX,Y(f) = {RX,Y(k)} (7.23)

Onde RX,Y(k) é a correlação cruzada entre Xn e Yn:

RX,Y(k) = E[Xn + kYn] (7.24)

Exemplo 7.5
Seja Xn uma sequência de variáveis aleatórias não correlacionadas com
média zero e variância 2. Ache SX(f).
A autocorrelação deste processo é

 X2 k 0
R X (k )  
0 k 0

A densidade espectral de potência é achada substituindo RX(k) na Eq. (7.21)

154
1 1
S X ( f )   X2 -  f  (7.25)
2 2
Este processo Xn contém todas as possíveis frequências com iguais potências.

Exemplo 7.6 Seja um processo Yn definido como,

𝑌𝑛 = 𝑋𝑛 + 𝛼𝑋𝑛−1

Sendo Xn um processo ruído branco do exemplo 7.6. Ache SY(f).


Pode se mostrar que a média e autocorrelação são dadas por,

𝐸[𝑌𝑛 ] = 0

A densidade espectral de potência é dada por,

Figura 7.3 Densidade espectral de potência

155
Exemplo 7.7 Seja uma observação Zn dada por,

𝑍𝑛 = 𝑋𝑛 + 𝑌𝑛

Sendo Xn o sinal que desejamos observar. Yn é um ruído branco com potência


𝜎𝑋2 , e Xn e Yn são independentes. Supondo que Xn = A para todo n, sendo A
uma variável aleatória com média zero e variância 𝜎𝑋2 .
A média e autocorrelação de Zn são:

Então Zn é um processo WSS.

A densidade espectral de potência é dada por.

Densidade espectral de potência como média no tempo

Seja Xo, ....Xk-1, k observações discretas no tempo de um processo X o que é


WSS. Seja x( f ) a transformada de Fourier deste processo:

k 1
x( f )   X m e  j 2 fm (7.26)
m0

O quadrado do valor absoluto de x( f ) representa a energia em uma dada


freqüência f. Se dividirmos a energia pelo tempo total k obteremos a potência
na freqüência f :

156
1
p( f ) 
2
x( f ) (7.27)
k
p( f ) é chamado de periodograma estimado.

Considerando o valor médio do periodograma estimado:

1
E[ p( f )  E[ xk ( f ) x* ( f ) (7.28)
k

ou
k 1 
 m 
'

E[ p( f )   1   X
R ( m '
)e  j 2 fm'
(7.29)
m'  ( k 1)  k 
 

E[ pk ( f )]  S X ( f ) quando k   (7.30)

7.2 RESPOSTA DE UM SISTEMA LINEAR AO SINAL ALEATÓRIO

Sistemas Contínuos no Tempo

Considerando um sistema no qual um sinal de entrada x(t) é mapeado em um


sinal de saída y(t) pela transformada

y(t) = T[x(t)] (7.31)

O sistema é linear se há superposição, isto é,

T[x1(t) + x2(t)] = T[x1(t) ]+ T[x2(t)] (7.32)

157
Onde x1(t) e x2(t) são entradas arbitrárias, e  e  são constantes arbitrárias.
Seja y(t) uma resposta à entrada x(t), então o sistema é dito ser invariante no
tempo se à resposta x(t-) é y(t-). A resposta impulsiva h(t) de um sistema
linear é definida por

h(t)= T[(t)] (7.33)


onde (t) é a função delta unitário aplicado no instante t=0. A resposta do
sistema à uma entrada arbitrária x(t) é então,

 
y (t )  h(t ) * x(t )   h(s) x(t  s)ds   h(t  s) x(s)ds
 
(7.34)
Entretanto um sistema linear e invariante no tempo é completamente
especificado pela resposta impulsiva. A resposta impulsiva pode também ser
especificada pela transformada de Fourier do sistema:

 h(t )e
 j 2ft
H ( f )  {h(t ))  dt. (7.35)


o sistema é dito causal se a resposta no tempo t depende somente dos valores


passados da entrada, tal que, se h(t) = 0 para t0.
Se a entrada de sistema linear, invariante no tempo é um processo aleatório
X(t) como mostrado na Fig. 7.4, então a saída do sistema é um processo
aleatório dado por,

 
Y (t )   h(s) X (t  s)ds   h(t  s) X (s)ds
 
(7.36)

Figura 7.4- Filtro linear

Assumimos que a integral existe no sentido da média quadrática como


discutido na Seção 6.6. Mostraremos que se X(t) é um processo estacionário
no sentido amplo, então Y(t) é também estacionário no sentido amplo.
158
A média de Y(t) é dada por,

  
E[Y (t )]  E   h( s ) X (t  s )ds    h( s ) E[ X (t  s )]ds (7.37)
   
Agora mX(t) = E[X(t-)] desde que X(t) é estacionário no sentido amplo, tal
que


E[Y (t )]  m X  h( )d  m

X H (0) (7.38)

onde H(0) é a função de transferência do sistema. Então a média da saída é a


constante mY=H(0)mX.
A função autocorrelação de Y(t) pode ser dada por

 

E[Y (t )Y (t   )]  E   h( s) X (t  s)ds  h(r ) X (t    r )dr 
   
  

  h(s)h(r ) E[ X (t  s) X (t    r )dsdr   h(s)h(r ) R


  
X (  s  r )dsdr ,

(7.39)

onde temos usado o fato que X(t) é estacionário no sentido amplo. A


expressão do lado direito da Eq. (7.42) depende somente de . Então a
autocorrelação de Y(t) depende somente de , e desde que E[Y(t)] é constante,
podemos concluir que Y(t) é um processo estacionário no sentido amplo.
Estamos agora prontos para calcular a densidade espectral de potência da
saída de um sistema linear e invariante no tempo. Calculando a transformada
de RX() como dada pela Eq. (7.42), obteremos,


SY ( f )  R

Y ( )e  j 2f d

  
    h( s ) h( r ) R
  
X (  s  r )e  j 2f dsdrd

Mudando de variável, fazendo u=+s-r

159
  
SY ( f )     h( s ) h( r ) R
  
X (u )e  j 2f ( u  s  r ) dsdrdu

  

 h ( s )e ds  h(r )e dr  R X (u )e  j 2fu du
j 2fs  j 2fr

   (7.40)
 H * ( f ) H ( f )S X ( f )
 H ( f ) SX ( f )
2

sendo que usamos a definição da função de transferência. A Eq. (7.40)


relaciona a densidade de potência da entrada e da saída com a função de
transferência.
Nota-se que RY() pode ser achado calculando a Eq. (7.40) e então fazendo
sua transformada inversa de Fourier.

Sistema discreto no tempo

Seja a resposta à amostra unitária hn de um sistema discreto no tempo, linear,


invariante no tempo, à entrada de uma amostra unitária  n

1 𝑛=0
𝛿𝑛 = { (7.41)
0 𝑛≠0

A resposta a uma entrada arbitrária Xn é dada por,

 
Yn  hn * X n  hX
j 
j n j  h
j 
n j Xj (7.42)

A função de transferência de tal sistema é dada por,


H( f )   he
i 
i
 j 2 f i
(7.43)

160

my  mX h
j 
j  mX H (0) (7.44)

A função autocorrelação é dada por,

 
RX (k )   h h R
j  i 
j k X (k  j  1) (7.45)

SX ( f )  H ( f ) SX ( f )
2
(7.46)

Exemplo 7.8 – Processo autoregressão de primeira ordem

Um processo auto-regressão de primeira ordem (AR) Yn com média zero é


definido por,

Sendo Xn é um processo aleatório de entrada ruído branco com média zero e


potência média 𝜎𝑋2 . Note se que Yn pode ser visto como saída do sistema da
Fig. para uma entrada Xn iid. Ache a densidade espectral de potênca e a
função autocorrelação de Yn.

A resposta a amostra unitária é determinada pela Eq(**),

Note que é exigido que |𝛼| < 1. Entretanto a função de transferência é

161
O sistema é dito estável se

∑|ℎ𝑛 | < ∞
𝑛
A resposta de um sistema estável para qualquer entrada limitada é também
limitada.

Figura 7.5 Processo Autorregressão

A Eq.(7.46) dá,

162
A Eq.(7.45) dá,

Exemplo 7.9- Processo Aleatório ARMA

Um processo auto regressivo moving average ( ARMA) é definido como,

Sendo Wn é um processo ruído branco de entrada, WSS. Yn pode ser visto


como saída de um sistema recursivo na Fig.**(b) para entrada X n. Pode
mostrar que a função de transferência do sistema linear definida pela Eq.
acima é,

A densidade espectral de potência do processo Arma é,

163
7.4 –SISTEMA ÓTIMO LINEAR

Vários problemas podem ser postos da seguinte maneria como segue.


Observamos um processo Xm em um certo intervalo I={t-a,......t+b}, e usamos
as a+b+1 observações (Xt-a, ....Xt,.......Xt+b) para obter o valor estimado Yt de
um outro processo Zt . O valor estimado de Yt é exigido ser linear como
mostrado na Fig abaixo,

Figura 7.6 Filtro estimador de sinal

t b a
Yt  h
 t  a
t  X   h X
  b
t  (7.47)

O erro de estimação de Yt para Zt,

𝑒𝑡 = 𝑍𝑡 − 𝑌𝑡

A figura de mérito do estimador é o valor médio quadrático do erro,

E[e2 (t )  E[( Z t  Yt )] (7.48)

164
Procuramos um filtro ótimo, que é caracterizado pela resposta impulsiva que
minimiza o erro médio quadrático.

Condição de ortogonalidade

O filtro ótimo precisa satisfazer a condição de ortogonalidade ( veja Eq 4.98a


e 4.98b), que estabelece que o erro et precisa ser ortogonal a todas as
observações de Xn, isto é,

0  E[et X  ]  E[(Zt  Yt ) X  ]  0 (7.49)

Ou de maneira equivalente,

E[ X t X  ]  E[Yt X  ] (7.50)

a
E[ Z t X  ]  E[  h X t   X  ] 
  b
a


 h E[ X X  ] 
 b
t (7.51)
a
  h R
  b
X (t     )

A Eq. acima mostra que E[ZtZα] depende somente de t-α e Xα e Zt são


processos estacionários no sentido amplo. Entretanto a Eq. acima pode ser
escrita,

a
RZ , X (t   ) 

 h R
 b
X (t     ) t  a   t b (7.52)

165
Finalmente, fazendo m=t-α, obtemos a equação,

a
RZ , X (m) 

 h R
 b
X (m   ) b  m  a (7.53)

O filtro ótimo linear precisa satisfazer um conjunto de a+b+1 equações dadas


em (7.72).
Para o caso contínuo o valor estimado de Z(t) é dado por Y(t) como segue,

(7.54)

Pode então mostrar que o filtro que minimiza o erro médio quadrático é
especificado por,

(7.55)

Exemplo 7.10- Suponha que estamos interessados em estimar o sinal Zn a


partir de p+1 mais recentes ruidosas observações :

X   Z  N   I  {n  p,....n  1, n}. (7.56)

Ache um conjunto de equações lineares para o filtro ótimo se Z e N são


duas variáveis aleatórias independentes.
Para esta escolha de observações, Eq. (7.53) torna
p
RZ , X (m)   h RX (m   ) m  {0,1,.... p} (7.57)
 0

166
O termo correlação cruzada na Eq. (7.76) é dado por,

RZ , X (m)  E[ Z n X n  m ]  E[ Z n ( Z n  m  N n  m )]  RZ (m)

O termo auto correlação é dado por,

RX (m   )  E[ X n   X n  m ]  E[( Z n    N n   )( Z n  m  N n  m )]
 RZ (m   )  RZ , N (m   )
 RN , Z (m   )  RN (m   )
 RZ (m   )  RN (m   ),
Zα e Nα são processos aleatórios independentes. Então a Eq(7.57) fica,

p
RZ (m)   h {RZ (m   )  RZ (m   )} m {0,1..... p} (7.58)
 0

Predição

O problema de predição linear aparece em várias aplicações. No exemplo 4.53


do capítulo 4, já discutimos o preditor linear para sinais da fala. Em geral
desejamos um preditor Zn em termos de Zn-1 , Zn-2, ......Zn-p:

p
Yn   h Z n   . m  {1,.... p} (7.59)
 1

Para este problema X  Z , tal que a equação (7.53) torna,

p
RZ   h RZ (m   ) (7.60a)
 1
Na forma matricial torna

167
 RZ (1)   RZ (0) RZ (1)..............RZ ( p  1)   h1 
 R (2)   R (1) R (0)..............R ( p  2)   h 
 Z   Z Z Z  2 
.   .  . 
     (7.60b)
.   .  . 
 RZ ( p)   RZ ( p  1)...............RZ (1) Rz (0)   hp 
    

As equações (7.60a) e (7.60b) são chamadas de equações de Yule-Walker.

A equação para o erro medo quadrático fica,

p
E[e ]  RZ (0)   h RZ (  ).
2
n (7.61)
 1

Algorítimo de Levinson

Inicializa : E[eo ]  RZ (0)


2
(7.62)

Para i=1 até i=p,

i 1
[ RZ (i )   h(j i 1) RZ (i  j )
j 1
ki  (7.63)
E[ei21 ]

hi( i )  ki 1  j  p

hij  h(ji 1)  ki hi(i j j ) 1  j  i 1 (7.64)

E[ei2 ]  (1  ki2 ) E[ei21 ] (7.65)

Os preditores ótimos de primeira ordem são

168
hj  h(j p ) (7.66)

Estimação usando a inteira realização do processo observado.

Suponha que Zt é estimado pela função linear Yt da realização inteira de Xt,


isto é, a=b=∞, a Eq.(7.42) fica,

(7.67)

No caso contínuo,

(7.68)

O filtro ótimo precisa obedecer as Eq.(7.53) e Eq.(7.54), que tornam,

A transforma de Fourier das equações acima fornece,

(7.69)
Então,

(7.70)

169
Estimação usando filtro causal

Suponhamos que Zt é estimado usando somente as amostras passadas e a


presente de Xα, isto é, I={-∞, t}. As Eq. 7.53 e Eq.7.54, tornam,

(7.71) , (7.72)

As equações acima são chamadas de equações de Wiener-Holf, e são similares


as Eq.(7.88a) e Eq.(7.88b).
Primeiramente vamos considerar o caso especial onde o processo observado é
branco, isto é, para o caso discreto

𝑅𝑋 (𝑚) = 𝛿𝑚 (7.73)

A Eq.(7.53) é então,

(7.74)

Então neste caso especial, o filtro ótimo causal tem coeficiente dados por,

(7.75)

A função de transferência é dada por,

170
(7.76)

Entretanto H(f), pode ser obtida também a partir de SZ,X(f) por,


ℎ𝑚 = 𝐹(SZ,X(f)), mantendo a parte causal ( isto é, ℎ𝑚 𝑝𝑎𝑟𝑎 𝑚 ≥ 0) e zerando
a parte não causal a 0.

Mostraremos que a solução acima do caso especial ( processo branco) pode


ser usada para resolver o caso geral. Pode se mostrar que sob condições bem
gerais, a densidade espectra de potência de um processo aleatório pode ser
fatorada na forma,

(7.77)

Sendo G(f) e 1/G(f) são filtros causais. Isto sugere que podemos achar um
filtro ótimo em dois passos, como mostrado na Fig. abaixo. Primeiramente
passamos o processo observado por um filtro ´whitening’ com função de
transferência W(f) = 1/G(f) para produzir um processo ruido branco 𝑋𝑛′ , desde
que

(7.78)

Segundo, achamos a melhor estimação de Zn usando as observações do


processo 𝑋𝑛′ dado pela Eq.(7.76)). O filtro que resulta da combinação do filtro
whitening e filtro estimador é solução das equações de Wiener-Hopf.
A função de transferência do segundo filtro na Fig. 7.2 é dado pela Eq. (7.76),

(7.79)

Para calcular a Eq.(7.79) precisamos achar,

171
(7.80)

Sendo ωi a resposta impulsiva do filtro whitening. A transforma de Fourier da


Eq (7.80) é uma expressão mais fácil de trabalhar:

(7.81)

Figura 7. 7– Filtro de Wiener

A tranformada de Fourier da Eq(7.80) produz o valor desejado de 𝑅𝑍,𝑋 ′ (𝑘),


que pode ser substituida na Eq.(**) para obter H2(f).
Em resumo:
1. fatore SX(f) como na Eq.(7.77) e obtida o filtro causal W(f) = 1/G(f).
2. Ache 𝑅𝑍,𝑋 ′ (𝑘), de Eq. (7.80) ou de Eq.(7.81)
3. H2(f) é então dado por Eq.(80)
4. O filtro ótimo é então,

(7.82)
Exemplo Filtro de Kalman

Ache um filtro ótimo causal para estimar o sinal Z(t) de uma observação
X(t)=Z(t)+N(t), sendo Z(t) e X(t) processos aleatórios independentes, N(t) um

172
ruído branco com média zero e densidade igual a 1, e Z(t) tem densidade dada
por,

(7.83)

O filtro ótimo é chamado neste problema de filtro de Wiener.

Solução

A densidade espectral de potência entre Z(t) e X(t) é

desde que o sinal e ruido são independentes. A densidade espectral de


potência do processo observado é,

(7.84)

Então é fácil verificar que W(f) = 1/G(f) é o filtro causa branqueador.


Podemos agora calcular

173
(7.85)

Sendo 𝑐 = 2⁄(1 + √3) . Se fazemos a transformada de Fourier de 𝑆𝑍,𝑋 ′ (𝑓)


obteremos,

Note que poderiamos obter este mesmo resultado da Eq.(7.85) notando que
apenas o primeiro termo tem tempo positivo ( isto é causal).
O filtro ótimo é ,

A resposta impulsiva é ,

174
7.5 FILTRO DE KALMAN

O sistema ótimo linear considerado na seção anterior tem duas limitações: (1)
Ele assume um sinal estacionário no sentido amplo; (2) O número de equações
cresce com a quantidade de observações. Nesta seção consideraremos um
processo de estimação que assume sinais tendo uma certa estrutura. Esta
suposição mantém a dimensionalidade do problema fixado mesmo que o
número de observações cresça. É também considerado que os sinais são não
estacionários.
Considerando os sinais apresentados na Fig. abaixo,

(7.83)

Sendo Z0 uma variável aleatória no tempo 0, an, uma sequência conhecida de


constantes e Wn uma sequência com média zero de variáveis aletórias não
correlacionadas com média possibilidade de variância variável no tempo
{𝐸[𝑊𝑛2 ]}. Assumimos que o processo Zn não é disponível, e que mostrado na
Fig. abaixo. Observando,

(7.84)

Sendo as observações com Nn, um ruido com média zero e sequência não
correlacionadas de variáveis aleatórias com possibilidade de ter variância
vairável no tempo {𝐸[𝑁𝑛2 ]}. Assumimos que Wn e Nn são não correlacionadas
para qualquer tempo n1 e n2. Em geral e Nn são processos aleatórios
Gaussianos não correlacionados e então Zn e Xn serão também processos
aleatórios Gaussianos. Desenvolvemos um filtro de Kalman, que tem a
estrutura da Fig. abaixo.
Nosso objetivo é achar para cada instante de tempo o erro médio quadrático
mínimo estimado de Zn baseado nas observações X0, X1, ......Xn-1 usando o
estimador que possibilita variação no tempo:

(7.85)

175
Figura 7. 8 Filtro de Kalman

Algoritmo do Filtro de Kaman

Inicializa com:

(7.86)

Para n=0, 1,2....

176
(7.87)

Note que o algoritmo reque conhecimento da estrutura do sinal, isto é, o valor


de an e as variâncias 𝐸[𝑁𝑛2 ] e 𝐸[𝑊𝑛2 ]. O algoritmo pode ser implementado
facilmente e tem consequentemente achado aplicações em uma vasta área de
estimação de sinais.

Exemplo 7.11 Processo Autoregressivo de primeira ordem

Considerando um processo definido por,

sendo

a=0.8

supondo que as observações são na presença de ruído aditivo,

Sendo

Ache a forma de um preditor e seu erro médio quadrático quando 𝑛 → ∞. O


ganho no passo n é dado por,

177
O erro médio quadrático da sequência é entretanto,

O erro médio quadrático em regime permanente satisfaz a equação,

2
Para a=0.8 e 𝜎𝑊 = 0.36 resulta em uma equação quadrática que produz
𝑘∞ 𝑒 𝑒∞ = 0.6 .
Então o preditor em regime permanente é dado por,

Estimação de um periodograma suave

Um resultado fundamental da teoria das probabilidades é que a média


amostral de uma sequência realizações independentes da variável aleatória
aproxima da média verdadeira com probabilidade um. Obtemos o valor
estimado de SX(f) pegando a média de N periodogramas independentes com
tamanho de k amostras
1 N
pk ( f ) N   pk ,i ( f ),
N i 1

178
Onde { pk ,i ( f )} são os N periodogramas independentes.

A média do estimador suavizado é

k 1 
 m 
'

E[ p( f )   1  '
 RX (m )e
 j 2 fm'

m'  ( k 1)  k 
 

E a variância do estimador suavizado será,

N
1 1
VAR[ pk ( f ) N ] 
N2
VAR[ p
i 1
k ,i ( f )] 
N
VAR[ pk ( f ) 

1
 SX ( f )
N

Então a variância do estimador suavizado pode ser reduzida com o aumento


de N.

PROBLEMAS

1. Seja g(x) um pulso retangular mostrado na Fig. 7.1.


a. Ache a função densidade espectral de potência correspondente à RX() =
g(/T)
b. Ache a função autocorrelação correspondente a função densidade espectral
de potência SX(f) = g(f/W).

2. Seja p(x) a função retangular mostrada na Fig. 7.2.


É RX() = p(/t) uma função autocorrelação?

9. Seja RX(k) = 4(1/2)|k| + 16(1/4)|k| . Ache SX(f).

179
CAPÍTULO 8

CADEIAS DE MARKOV

8.1 PROCESSO DE MARKOV

Um processo X(t) é de Markov se o futuro do processo dado o presente


é independente do passado, isto é, se para um tempo arbitrário t 1 < t2 < ......tk-
1< tk < tk+1,

PX t k 1   xk 1 | X (t k )  xk ,, X (t1 )  x1 


 PXt k 1   xk 1 | X t k   xk 
(8.1)

Se X(t) é de valor discreto, e

Pa  X t k 1   b | X t k   xk ,, X t1   x1 


 Pa  Xt k 1   b | X t k   xk 
(8.2a)

Se X(t) é de valor contínuo.

Se as amostras de X(t) são conjuntamente contínuas, então Eq. (8.2a) é


equivalente à

f X (tk 1) ( x k 1 | X t k   x k ,, X t1   x1 )  f X (tk 1) ( x k 1 | X t k   x k )


(8.2b)

180
As Eqs. (8.1) e (8.2) são identificadas como Propriedades de Markov. Nas
expressões acima tk é o tempo “presente”, e tk+1 é o tempo “futuro”, e
t1,t2,......tk-1 são os tempos “passados”.

_______________________________________________________________
Exemplo 8.1
Considere a soma de processos discutidos na seção 6.3:

Sn = X1 + X2 + ... + Xn = Sn-1 + Xn,


Onde o Xi´s é uma sequência de variáveis aleatórias iid, e onde S o = 0. Sn é
um processo de Markov desde que

P[Sn+1 = sn+1|Sn = sn, ... , S1 = s1] = P[Xn+1 = sn+1 – sn]


= P[Sn+1 = sn+1|Sn = sn]
_______________________________________________________________

Exemplo 8.2
Considerando um processo de Bernoulli
Yn 
1
 X n  X n1 
2
onde o Xi são variáveis independentes de Bernoulli com p = ½. Mostraremos
que Yn não é um processo de Markov.
PYn  0  PX n  0, X n -1  0 
1
4

 1
P Yn    PX n  0, X n -1  1  PX n  1, X n -1  0 
1
 2 2

e
PYn  1  PX n  1, X n -1  1 
1
4

Agora consideremos a seguinte probalidade condicional para dois valores


consecutivos de Yn:

181
 1  PYn  1, Yn -1  1 / 2
P Yn  1Yn 1   
 2 PYn 1  1 / 2
PX n  1, X n -1  1, X n -2  0 1 / 23 1
  
1/ 2 1/ 2 4

Agora suponhamos que temos o conhecimentos adicional sobre o passado:

 1  PYn  1, Yn -1  1 / 2, Yn -2  1
P Yn  1Yn 1  , Yn -2  1  0
 2  PYn 1  1 / 2, Yn -2  1

desde que nenhuma sequência de Xn´s leva a uma sequência 1,1/2,1. Então

 1   1
P Yn  1Yn 1  , Yn -2  1  P Yn  1Yn1  
 2   2

e o processo não é de Markov.


_______________________________________________________________

Exemplo 8.3
O processo de Poisson é um processo contínuo de Markov desde que

PN t k 1   j Bt k   i, Nt k -1   x k 1 , , N t1   x1 


 P j - i events in t k 1  t k seconds 
 PNt k 1   j N t k   1

_______________________________________________________________

Exemplo 8.4
O processo telegráfico do exemplo 6.22 é um processo contínuo de
Markov desde que

PX t k 1   a X t k   b, , X t1   x1 


 Peven (odd)numbe r of jumps in t k 1 
 PXt k 1   a X t k   b

182
_______________________________________________________________

Um processo aleatório que assume valores inteiros é chamado de cadeia de


Markov. No restante do capítulo concentraremos nossos estudos na cadeia de
Markov.
Se X(t) é uma cadeia de Markov, então a pmf para três instantes de tempo
arbitrários é

PX t 3   x3 , Xt 2   x 2 , Xt 1   x1 


 PXt 3   x3 X t 2   x 2 , Xt 1   x1 PX t 2   x 2 , Xt 1   x1 
 PXt 3   x3 X t 2   x 2 PX t 2   x 2 , Xt 1   x1 
 PXt 3   x3 X t 2   x 2 PX t 2   x 2 X t1   x1 PX t1   x1 

onde temos usado a definição da probabilidade condicional e a propriedade de


Markov. Em geral, a pmf conjunta para k+1 instantes de tempo arbitrários é

PX t k 1   x k 1 , Xt k   x k , , X t1   x1 


 PXt k 1   x k 1 X t k   x k PX t k   x k X t k 1   x k 1 
 x PXt 2   x 2 X t1   x1 PX t1   x1 
(8.3)

Obs.
1- P(X3,X2,X1) = P(X3/X2,X1).P(X2,X1) = P(X3/X2).P(X2,X1) =
P(X3/X2).P(X2/X1)P(X1)

2- P(X3/X2,X1) = P(X3/X2)

8.2 CADEIA DISCRETA DE MARKOV

Seja Xn uma cadeia de Markov com valores inteiros que começa com n
= 0 com pmf

p j (0)  PX 0  j  j  0, 1, 2, 
(8.4)

183
Da Eq.(8.3), a pmf conjunta para os primeiros n + 1 valores do processo é

P[Xn = in, ... , X0 = i0]


= P[Xn = in|Xn-1 = in-1] . . . P[X1 = i1|X0 = i0] P[X0 = i0]
(8.5)

Assumiremos que as probabilidades de transições dos estados são fixadas e


não mudam com o tempo, isto é,

P[Xn+1 = j|Xn = i] = pij for all n


(8.6)

Xn é dita ter probabilidade de transição homogênea. A probabilidade conjunta


para Xn....Xo é então dada por

P[Xn = in, . . . , X0 = i0] = P[Xn  i n , . . . , X 0  i 0 ]  pi n -1,in


 pi0,i1 pi0 (0)
(8.7)

Então Xn é completamente especificada pela pmf inicial pi(0) e pela matriz


de probabilidade de transição P:

 p 00 p01 p02 
p p11 p12 
 10
P . . . 
 
 pi 0 pi1  
 . .  
(8.8)

Chamaremos P de matriz de probabilidade de transição, Nota-se que cada


coluna de P precisa ter soma igual a 1.

1   PX x 1  j X n  i    pij
j j

(8.9)
_______________________________________________________________

184
Exemplo 8.5
Um modelo de Makov para sinal da fala assume que se o n-ésimo
pacote contém silêncio, então a probabilidade de silêncio no próximo pacote é
1-  e a probabilidade de termos fala ativa é . Similarmente, se o n-ésimo
pacote contém fala ativa, então a probabilidade da fala ativa no próximo
pacote é 1- e a probabilidade de silêncio é .

Figura 8.1 a- Diagrama de estados para uma cadeia de Markov de dois


estados.

Figura 8.1b- Diagrama de transição de estados para a cadeia de Markov para


lâmpadas.

Figura 8.1c – diagrama do estado de transição para um processo de contagem


binária.

185
Seja Xn a função identificadora para cada fala ativa no pacote no tempo n,
então Xn é uma cadeia de Markov de dois estados com diagrama de transição
mostrada na Fig. 8.1(a). A matriz probabilidade de transição é

1    
P
  1   
(8.10)

_______________________________________________________________

Exemplo 8.6
No dia 0 uma casa tem duas lâmpadas de reserva. A probabilidade que a
casa necessitará de uma nova lâmpada durante o dia n é p, e a probabilidade
que não necessitará é q = 1- p. Seja Yn o número de novas lâmpadas deixadas
na caixa no final do dia n. Yn é uma cadeia de Markov com diagrama de
estados mostrados na fig. 8.1(b), e matriz de transição de probabilidade

1 0 0
P   p q 0
 0 p q 

_______________________________________________________________

Exemplo 8.7
Seja um processo binomial do exemplo 6.13. Em um passo, S n pode
permanecer o mesmo ou aumentar de um. O diagrama de transição de estados
é mostrados na Fig. 8.1(c), e a matriz de probabilidade de transição é dada por

1  p p 0 0 
 0 1 p p 0 
P
 0 0 1 p p 
 
 . .  
_______________________________________________________________

186
Transição de probabilidade com n passos

Para calcular a pmf conjunta em um instante de tempo arbitrário ( veja Eq.


8.3), necessitamos conhecer as probabilidades de transição de uma número
arbitrário de passos. Seja P(n) = {pij(n)} a matriz de probabilidade de transição
com n passos, onde

pij (n)  PX nk  j X k  i n  0, i, j  0


(8.11)

Primeiro, consideremos uma transição de probabilidade de dois passos. A


probabilidade de ir de um estado i em t = 0 , passando através de k estado t =
1, e terminando no estado j em t=2 é

PX 2  j , X1  k , X 0  i 
P X 2  j , X 1  k X 0  i  
PX 0  i 
PX 2  j X 1  k PX 1  k X 0  i PX 0  i 

PX 0  i 
 p ik (1) p kj (1)

Nota-se que pik(1) e pkj(1) são componentes de P, a matriz de transição de


probabilidade de um passo. Obteremos pij(2), a probabilidade de ir de i para t
= 0 em j em t = 2, somando todos os estados intermediários k :

pij (2)   pik (1) p kj (1) for all i, j


k
(8.12)

O conjunto de equações dado pela Eq. (8.12) estabelece que a matriz P(2) é
obtida pela multiplicação da matriz de probabilidade de transição

P(2) = P(1) P(1) = P2


(8.13a)

187
Usando o mesmo argumento acima, achamos que P(n) multiplicando P(n-1)
por P:

P(n) = P(n – 1)P


(8.13b)

As equações (8.13a ) e (8.13b) juntas implicam que

P(n) = Pn
(8.14)

Isto é, a matriz de probabilidades de transição é uma potência n-ésima da


matriz de probabilidade de transição de um passo.

A probabilidade dos estados

Consideremos agora a probabilidade dos estados no tempo n. Seja p(n)


= { pj(n)} um vetor coluna da probabilidade dos estados no tempo n. A
probabilidade pj(n) está relacionada com p(n-1) por

p j (n)   PX n  j X n 1  i PX n 1  i 


i

  p ij pi (n  1)
i

(8.15a)

A equação (8.15a) estabelece que p(n) é obtido multiplicando o vetor coluna


p(n-1) pela matriz P:

p(n) = p(n – 1)P


(8.15b)

Similarmente, pj(n) está relacionado com p(0) por

p j (n)   P[ X n  j X 0  i ]PX 0  i ]
i

  p ij (n) p(0)
i

(8.16a)

188
e em forma matricial

p(n) = p(0) P(n) = p(0) Pn n = 1, 2, ... .


(8.16b)

_______________________________________________________________

Exemplo 8.9
Seja  = 1/10 e  = 1/5 no exemplo 8.5. Ache P(n) para n = 2, 4, 8, e 16.

2
.9 .1 .83 .17
P 
2
  
.2 .8 .34 .66

2
.83 .17 .7467 .2533
P 
4
  
.34 .66 .5066 .4934

similarmente

.6859 .3141 .6678 .3322


P8    P16   
.6282 .3718 .6644 .3356

Há uma tendência clara aqui : ela aparece quando n  ,

2 / 3 1 / 3
Pn   
2 / 3 1 / 3

Pode ser mostrado com um pouco de álgebra linear ( Anton, 1981, p. 276) que

1    1     n    
Pn  
             

o qual aproxima

1     2 / 3 1 / 3

       2 / 3 1 / 3

_______________________________________________________________

189
Exemplo 8.10
Seja o estado inicial de probabilidade no Exemplo 8.9

PX 0  0  p0 (0) e PX 0  1  1  p0 (0)

Ache as probabilidades do estado quando n .


O vetor de probabilidade dos estados no tempo n é

p(n) = (p0(0), 1 – p0(0)) Pn

Quando n, temos que

2 / 3 1 / 3  2 1 
p (n)   p0 (0), 1 - p 0 (0)  , 
2 / 3 1 / 3  3 3 
vemos que as probabilidades dos estados não depende das probabilidades dos
estados iniciais quando n  
_______________________________________________________________

Probabilidade dos estados estacionários


O exemplo 8.10 é uma cadeia de Markov típica que fixa no estado
estacionário após o processo ter desenvolvido por um longo tempo. Quando n
 , a matriz de probabilidade de transição aproxima de uma matriz na qual
todas as colunas são iguais com a mesma pmf, isto é,

Pij(n)   j para todo i

8.3 CADEIAS DE MARKOV CONTÍNUAS

Na seção 8.2 mostramos que a matriz de probabilidade de transição determina


o comportamento da cadeia de Markov discreta. Nesta seção veremos que o
mesmo é verdade para a cadeia de Markov contínua.
A função pmf para um instante de tempo arbitrário k+1 de uma cadeia
de Markov é dada pela Eq.(8.3):

190
PX t k 1   xk 1, X t k   xk ,, X t1   x1 
 PXt k 1   xk 1 X t k   xk 
x PXt 2   x2 X t1   x1 PX t1   x1 
(8.20)

Este resultado estabelece independente se o processo é discreto no tempo ou é


contínuo. Em casos de ser contínuo no tempo, a Eq.(8.20) exige que
conheçamos a probabilidade de transição para um tempo arbitrário s e um
tempo arbitrário s + t:

P[X(s + t) = j | X(s) = i] t >0

Assumimos aqui que as probabilidades de transição dependem somente da


diferença entre dois tempos:

P[X(s + t) = j|X(s) = i] = P[X(t) = j|X(0) = i] = pij(t) t > 0, all s


(8.21)

Dizemos que X(t) tem probabilidades de transição homogêneas.

Seja P(t) = { pij(t) } é a matriz de probabilidade de transição no intervalo de


comprimento t. Desde que pii(0) = 1 e pij(0) =0 para ij, temos que

P(0) = I
(8.22)

Onde I é a matriz identidade.


_______________________________________________________________

Exemplo 8.12
Para um processo de Poisson, a probabilidade de transição satisfaz

Pij(t) = P[j – i events in t seconds]


(8.23)

= p0,j-i(t)

191
=
t  j i
et ji
( j  i )!
então

e t te t t 2 e t / 2! . 


 
P(t )  
0 e t
te t
t  e t / 2!
2

 0 0 e t te t 
 
 . . . . 

Quando t se aproxima de zero, e-t 1 - t. Então para um pequeno intervalo


de tempo

1    0 
 0 1    
P   
 0 0 1   
 
 . . . 

Tempos de ocupação dos estados

Desde que o sinal telegráfico muda de polaridade em cada ocorrência de


um evento no processo de Poisson, isto segue que o tempo de permanência em
cada estado é uma variável aleatória exponencial. Isto indica que esta é uma
propriedade do tempo de ocupação do estado para uma cadeia de Markov
contínua, isto é: X(t) permanece em um dado valor ( estado ) para um tempo
aleatório exponencialmente distribuído. Para vermos o porque, seja Ti o
tempo de permanência no estado i. A probabilidade de permanência por mais
que t segundos neste estado é então

P[Ti > t]

Suponhamos agora que o processo já tem tido no estado i por s segundos;


então a probabilidade de passar t ou mais segundos no estado i é

P[Ti > t + s|Ti > s] = P[Ti > t + s| X(s’) = i, 0 < s’ < s]

192
Desde que { T i > s } implica que o sistema tem estado no estado i durante o
intervalo de tempo (0,s). A propriedade de Markov implica que se X(s) = i,
então o passado é irrelevante e podemos ver o sistema como sendo reiniciado
no estado i no tempo s:

P[Ti > t + s|Ti > s] = P[Ti > t]


(8.23)

Somente a variável aleatória exponencial satisfaz esta propriedade( veja seção


3.4). Então o tempo passado no estado i é uma variável aleatória com a mesma
média 1/i:

PTi  t   e  vi t
(8.24)

O tempo médio de ocupação 1/i, será usualmente diferente para cada estado.
_______________________________________________________________

Exemplo 8.14

O sinal telegráfico do exemplo 8.13 fornece uma distribuição


exponencial no tempo de permanência em cada estado com média 1/.
Quando uma transição ocorre, a transição é sempre do estado presente para
somente outro estado, e então a cadeia de Markov é

q~00  0 ~
q 01  1
q~10  1 ~
q 0
11

_______________________________________________________________

Probabilidade de estados dependentes no tempo e taxa de transição

Consideremos a probabilidade de transição em um curto intervalo de tempo


de duração  segundos. A probabilidade que o processo permaneça no estado
i durante o intervalo é

193
PTi     e  vi
v i vi2 2
 1-  
1! 2!
 1 - v i  0( )

pii ( )  PTi     0( )


 1 - v i  0( )

onde o() são os termos que tornam desprezados relativos à  quando  tende
a zero.
Então para um valor pequeno de , pii() é exponencialmente igual a
probabilidade que o processo permaneça no estado i por  segundo:

pii() = P [Ti > ] + o() = 1 - i + o()

Ou similarmente,

1 – pii() = vi + 0()


uma vez que o processo deixa o estado i ele entrará no estado j com
~
probabilidade qij (8.25)

pij ( )  1  pii  q~ij


 v q~   0( )
i ij

  ij  0( )
(8.26a)
Sendo i é a taxa na qual o processo X(t) deixa o estado i, podemos chamar 
ij = iqij a taxa na qual o processo X(t) entra em j vindo de i. Para completar,
definiremos ii = -i, tal que pela Eq.(8.25),

pii() – 1 = ii  + 0()

Se dividirmos ambos os lados das Eqs.(8.26a) e (8.26b) por  e tomando o


limite 0, obteremos

pij ( )
lim   ij i j
 0 
(8.27a)

194
e

pii ( )  1
lim   ii
 0 

desde que

0( )
lim 0
 0 

porque o() é de ordem mais alta que .

Estamos agora prontos para desenvolver um conjunto de equações para achar


as probabilidades dos estados no tempo t, as quais podem ser identificadas por

p j (t )  PX(t)  j

para  > 0, teremos ( veja Fig. 8.2)

p j (t   )  P[ X (t   )  j ]
  PX(t   )  j X(t)  iPX (t )  i 
i

  p ij ( ) p i (t )
i

(8.28)

Se subtrairmos pj(t) de ambos os lados, obteremos

p j (t   )  p j (t )   pij ( ) p i (t )  ( p jj ( )  1) p j (t )
i j

(8.29)

Se dividirmos por , aplicando Eqs.(8,27a ) e (8,27b) e fazemos 0,


obteremos

p j (t )    ij pi (t )
i

(8.30)

195
A Eq.(8.30) é chamada de equação de Chapmam-Kolmogorov para uma
cadeia de contínua de Markov.

______________________________________________________________

Exemplo 8.15

Um sistema alterna entre dois estados. No estado 0, o sistema está


desocupado e esperando por um freguês chegar. Este tempo desocupado é uma
variável aleatória exponencial com média 1/. No estado 1, o sistema está
ocupado servindo um freguês. O tempo no estado ocupado é uma variável
aleatória exponencial com média 1/. Ache as probabilidades dos estados po(t)
e p1(t) em termos das probabilidades dos estados iniciais po(0) e p1(0).
O sistema move do estado 0 para o estado 1 com a taxa , e do estado 1 para o
estado 0 com a taxa :

00 = -  01 = 
10 =  11 = - 

A Eq.(8.30) então dá

p0 (t )  p0 (t )  p1 (t )


p1 (t )  p0 (t )  p1 (t )

Desde que po(t) + p1(t) = 1, a primeira equação torna

p0 (t )  p0 (t )   (1  p0 (t ))

a qual é uma equação diferencial de primeira ordem:

p0 (t )  a    p 0 (t )   p 0 (0)  p0

A solução geral para esta equação é


p0 (t )   Ce (   )t

Obteremos o valor de C fazendo t = 0 e resolvendo em termos de p o(0); então
achamos

196
    (   )t
p0 (t )    p0 (0)  e
     

e
    (   )t
p1 (t )    p1 (0)  e
     

Nota-se que quando t  ,

 
p0 (t )  e p1 (t ) 
 

_______________________________________________________________

Exemplo 8.16
Ache as probabilidades dos estados de Poisson.
O processo de Poisson move somente do estado i para o estado i+1 na taxa .
Então

ii = -  e i,i+1 = 

A Eq. (8,30) então produz

p0 (t )  p0 (t ) for j0

pj (t )  p j (t )  p j 1 (t ) for j  1

A condição inicial do processo de Poisson é po(0) = 1, tal que a solução par


j=0 é

p0(t) = e-t

Então para j = 1 é

p1 (t )  p1 (t )  e t p1 (0)  0

a qual é também uma equação diferencial de primeira ordem cuja solução é

197
t
p1 (t )  e t
1!

Pode-se mostrar que por indução que a solução da equação no estado j é

pj (t ) 
t  j t
e
j!
_______________________________________________________________

Equação de balanço global e probabilidade dos estados permanentes

Quando t  , a probabilidade no sistema de fila de dois estados no Exemplo


8.15 converge para a pmf que não depende das condições iniciais. Isto é típico
de sistemas que atingem o equilíbrio ou estado permanente. Para tais sistemas,
pj(t)  pj e pj´(t) 0, tal que a Eq.(8.30) torna

0    ij pi for all j
i

(8.31a)

ou equivalentemente, relembrando que jj = -j,

v j p j    ij pi for all j
i j

(8.31b)

A Eq.(8.31b) pode se rescrita como segue:

 
p j    ji     ij pi
 i j  i j
(8.31c)

desde que
v j    ji
i j

O sistema de equações lineares dado pela Eq.(8.31b) e (8.31c) são chamados


de equações de balanço global.

198
_______________________________________________________________

Exemplo 8.17

Ache a pmf dos estados estacionários para um sistema de filas


discutidos no exemplo 8.15.
As Eq.(8.13b) para estes sistemas são dadas por

p0 = p1 e p1 = p0

Observando que po + p1 = 1, obteremos

 
p0  e p1 
 

_______________________________________________________________

Exemplo 8.18
Considere um sistema de fila no qual os fregueses são servidos um em
cada tempo na ordem de chegada. O tempo entre a chegada do freguês é
distribuído exponencialmente com taxa , e o tempo requerido para servir um
freguês é exponencialmente distribuído com taxa de . Ache a pmf do estado
permanente para o número de fregueses no sistema.

As taxas de transições dos estados são como segue. Fregueses chegam na taxa
, tal que
i,i+1 =  i = 0, 1, 2, . . . .

Quando o sistema estiver não vazio, os fregueses partem com taxa de . Então

i,i-1 =  i = 1, 2, 3, . . .

O diagrama da taxa de transmissão é mostrado na Fig.8.4. As equações de


balanço global são

p0 = p1 for j = 0


(8.32a)

199
( + ) pj = pj-i + pj+1 for j = 1, 2, . . . .
(8.32b)

Podemos rescrever Eq.(8,32b) como segue:

pj - pj+1 = pj-1 - pj for j = 1, 2, . . .,

Figura 8.4- Diagrama da taxa de transição para um sistema de fila M/M/1

o que implica que

pj-1 - pj = constante for j = 1, 2, . . . .


(8.33)

A Eq.(8.33) com j =1 e Eq.(8.32 a) juntas implicam que

pj-1 = pj

ou equivalentemente,

pj = pj-1 j = 1, 2, . . .

e por uma indução simples

pj = jp0

onde  = /. Obteremos po observando que a soma das probabilidades


precisa ser igual a unidade:
Então
 

1
1   p j  1     2   p0  p0
j 0 1 
onde a série converge se e somente se  < 1.

200
Então

pj = (1 - ) j j = 0, 1, 2, . . .
(8.34)

A condição para existência de uma solução para o estado permanente tem uma
explicação simples. A condição  < 1 é equivalente à

<

isto é a taxa na qual o freguês chega precisa ser menor que a taxa na qual o
sistema pode processá-lo. Por outro lado a fila cresce sem limite com o tempo.

Exemplo 8.19
Um processo nascimento e morte é uma cadeia de Markov na qual
somente transições de estados adjacentes ocorre como mostra na Fig. 8.5. Um
sistema de fila de servidor-único é discutido no exemplo 8.18 do processo
nascimento-morte.

Figura 8.5- Diagrama da taxa de transição para um processo nascimento e


morte.

As equações de balanço global para um processo nascimento-morte são

0p0 = 1p1 j=0


(8.35a)

jpj - j+1pj+1 = j-1pj-1 - jpj j = 1, 2, . . . .


(8.35b)

201
Como no exemplo anterior, então segue que

pj = rjpj-1 j = 1, 2, . . .

pj = rjrj-1 . . . r1p0 j = 1, 2, . . .,
(8.36)

onde rj = (j-1)/ . Se definirmos

Rj = rjrj-1 . . . r1 e R0 = 1

Então po pode ser achado de

  
1    R j  p0
 j 0 

Se a série nas equações acima convergem, então a pmf é estacionária e é dada


por
Rj
pj  

R
i 0
i

(8.37)

Se a série não converge, então a pmf estacionária não existe, e pj =0 para todo
j. No capítulo 9, veremos que vários sistemas de fila podem ser modelados
pelo sistema de nascimento e morte.

_______________________________________________________________

202
CAPÍTULO 9
INTRODUÇÃO À TEORIA DAS FILAS

9.1 ELEMENTOS DE UM SISTEMA DE FILAS

A Fig. 9.1(a) mostra um sistema típico de fila e a Fig. 9.1(b) mostra os


elementos de um modelo de sistema de fila. Clientes de uma população
chegam no sistema em tempos de chegada aleatórios S1,S2,.....Si,....., onde Si
expressa o tempo de chegada do i-ésimo cliente. A taxa de chegada de clientes
é dada por .

O sistema de filas tem um ou mais servidores idênticos, como mostra na Fig.


9.1(a). O i-ésimo cliente chega ao sistema procurando por um atendimento
que exige i segundos de tempo de atendimento do servidor. Se todos os
servidores estão ocupados, então o cliente vai para a fila onde ele permanecerá
até um servidor tornar-se disponível. Algumas vezes, somente um número
limitado de lugares na fila são disponíveis tal que o se um cliente chegar
quando não há lugar na fila ele vai embora.

203
Figura 9.1b- Elementos do sistema de fila

Figura 9.1(b) Elementos de um sistema de filas : N(t) é o número no sistema;


Nq(t), é o número na fila; Ns(t) é o número em atendimento; W é o tempo de
espera na fila; , é o tempo de atendimento ; e T é o tempo total no sistema.

A teoria das filas ou disciplina de atendimentos especificam a ordem na qual


os clientes são selecionados da fila e como serão atendidos. Por exemplo,
algumas filas são do tipo “primeiro à chegar, primeiro a ser atendido”, e
último à chegar, primeiro à ser atendido. A disciplina da fila afeta o tempo de
espera Wi que vai entre o tempo de chegada do i-ésimo cliente até o tempo
quando ele entra em atendimento. O tempo total de atraso T i do i-ésimo

204
cliente no sistema é a soma de seu tempo de espera e do tempo de
atendimento:

Ti = Wi + i

A notação a/b/m/K e Nq(t) é usada para descrever um sistema de fila, onde a


especifica o tipo do processo de chegada, b especifica a distribuição do tempo
de atendimento, m especifica o número de servidores, e K especifica o número
máximo de clientes permitidos no sistema em qualquer tempo.
Se a é dado por M, então o processo de chegada é de Poisson e os
tempos de interchegadas são independentes, com variáveis aleatórias
exponenciais e identicamente distribuídas(iid). Se b é dado por M, então os
tempos de atendimento são variáveis aleatórias exponenciais e iid. Se b é dado
por D, então os tempos de atendimentos são constantes, isto é, determinísticos.
Se b é igual a G, então os tempos de atendimentos são iid com uma dada
distribuição de probabilidade . Por exemplo, neste capítulo trabalharemos com
filas M/M/1, MM/1/K, M/M/c, M/M/c/c, M/D/1, e MG/1.

9.2 FÓRMULA DE LITLE

Desenvolveremos a fórmula de Little, a qual estabelece que, para sistemas que


atingem o estado permanente o número médio de clientes no sistema é igual
ao produto da taxa média de chegada e o tempo médio de espera no sistema:

E[N] = E[T]
(9.2)

Considerando um sistema de fila mostrado na Fig.9.2. O sistema começa vazio


no instante de tempo t = 0, e os tempos de chegadas dos clientes são S 1,
S2,........ Seja A(t) o número de chegadas de clientes até o instante t. O i-ésimo
cliente passa um tempo Ti no sistema e então parte em um tempo Di = Si + Ti.
Chamaremos de D(t) o número de partidas de clientes até o instante t. O
número médio de clientes no sistema no tempo t é o número de chegadas que
ainda não deixou o sistema:

N(t) = A(t) – D(t)


(9.3)

205
A Figura 9.3 mostra um possível percurso para A(t), D(t) e N(t) em uma fila
do sistema com a disciplina “primeiro a chegar, primeiro a sair”.

Figura 9.3 – Tempo total de espera dos primeiros sete clientes é a área em A(t)
– D(t) até to.

Considerando o tempo médio dos clientes no sistema N(t) durante o intervalo


(0,t]:

1 t
t 0
N t
 N (t ' )dt '

(9.4)

Na Fig.9.3, N(t) é a região entre A(t) e D(t), tal que a integral acima é dada
pela área da região sombreada até o tempo t. Pode ser visto que cada cliente
que partiu do sistema no tempo t contribui Ti para a integra, e então a integral
é simplesmente o tempo total que todos os clientes passou no sistema até o
tempo t.

206
Considerando, agora, o instante de tempo t = to para o qual N(t) = 0 como
mostrado na Fig. 9.3, a integral é exatamente dada pela soma dos T i dos
primeiros clientes:

1 A( t )
N t
  Ti
t i 1
(9.5)
A média de chegada até o tempo t é dada por

A(t )
 t

t
(9.6)

Se resolvemos a Eq.(9.6) para t e substituindo na Eq.(9.5), obteremos

1 A( t )
N t
  t Ti
A(t ) i 1
(9.7)

Seja <T>t a média dos tempos de permanência no sistema pelos primeiros A(t)
clientes

1 A( t )
T t
 Ti
A(t ) i 1
(9.8)

Comparando Eqs. (9.7) e (9.8), concluímos que

N t
  t
T t

(9.9)

Finalmente, assumimos que quando t, com probabilidade 1, a média acima


converge para o valor esperado do correspondente processo aleatório do
estado permanente, isto é,

207
N t
 E[ N ]
 t 
T t
 E[T ]
(9.10)

Equações (9.9) e (9.10) então implicam na fórmula de Little:

E[N] = E[T]
(9.11)

_______________________________________________________________
__________

Exemplo 9.1
Seja Nq(t) o número de clientes esperando na fila para o servidor ficar
disponível, e seja uma variável aleatória W identificando o tempo de espera.
Se identificarmos a fila como sendo o sistema, a fórmula de Little fica

E[Nq] = E[W]
(9.12)

_______________________________________________________________

Exemplo 9.2
Seja Ns(t) o número de clientes que estão sendo servidos no tempo t, e
seja  o tempo de atendimento. Se identificarmos o conjunto de servidores
como sendo o sistema, a fórmula de Little fica

E[Ns] = E[]
(9.13)

E[Ns] é o número médio de servidores ocupados para um sistema no estado


permanente.

_______________________________________________________________

208
Para um sistema de um único servidor, Ns(t) pode somente ser 0 ou 1, tal que
E[Ns] representa a proporção de tempo que o servidor está ocupado. Se p o =
P[N(t)] = 0 é a probabilidade do sistema estar vazio no estado permanente,
então precisamos ter

E[Ns] = 0.po.+ (1-p).1

então,
1 – p0 = E[Ns] = E[]
(9.14)

ou
p0 = 1 - E[]
(9.15)

desde que 1-po é uma proporção do tempo que o servidor está ocupado. Por
esta razão, a utilização de um sistema com um único servidor é definida por

 = E[]
(9.16)

Definimos similarmente a utilização de um sistema c-servidores por

E  

c
(9.17)

9.3 A FILA M/M/1

Considerando um sistema de um único servidor no qual os clientes chegam de


acordo com o processo de Poisson com taxa  tal que os tempos de
interchegadas são variáveis aleatórias exponenciais iid com média 1/.
Assumindo que os tempos de atendimentos são variáveis aleatórias
exponenciais iid com média 1/, e que os tempos de interchegadas e
atendimento são independentes.
209
Distribuição do número no sistema
O número de clientes N(t) em um sistema M/M/1 é uma cadeia de Markov
contínua no tempo.
Para achar a taxa de transmissão para N(t), consideremos a probabilidade de
várias maneiras pela qual N(t) pode mudar

i. Desde que A(t), o número de chegadas no intervalo de tempo t, é um


processo de Poisson, a probabilidade de uma chegada no intervalo de
comprimento  é
    2 
PA   1  e    1    
1!  1! 2! 
   0( )
(9.18)

ii. Similarmente, a probabilidade de ter mais do que uma chegada é

P[A()  2] = 0()
(9.19)

iii. Desde que o tempo de atendimento é uma variável aleatória exponencial ,


o tempo que um freguês passa no atendimento é independente de como é a
duração que ele permanecerá no atendimento . Em particular, a probabilidade
de um cliente completar seu atendimento nos próximos  segundos é

P[  ] = 1 – e- =  + 0()


(9.20)

iv. Desde que os tempos de atendimento e o processo de chegada são


independentes, a probabilidade de termos uma chegada e uma partida no
intervalo de tempo  segundos é

P[A() = 1,   ] = P[A() = 1] P[  ] = 0()


(9.21)

Propriedades (i) até (iv) implica que N(t) tem um diagrama de transição
mostrado na Fig. 9.4. As equações de balanço global para a probabilidade dos
estados permanentes são

210
p0 = p1

(9.22)
( + ) pj = pj-1 + pj+1 j = 1, 2, . . .

No exemplo 8.18, dissemos que uma solução para o estado permanente existe
quando  = / < 1:

P[N(t) = j] = (1 - ) j j = 0, 1, 2, . . .
(9.23)

A condição  = / < 1 precisa ser ajustada se o sistema precisa ser estável no
sentido que N(t) não cresça sem limite. Desde que  é a taxa máxima na qual
o servidor pode atender os clientes, a condição  < 1 é equivalente à

Taxa de chegada =  <  = tempo de atendimento máximo

Figura 9.4- Diagrama de transição para M/M/1

O número médio de clientes no sistema é dado por



EN    jPN (t )  j  
j 0 1 
(9.25)
O atraso médio total dos clientes no sistema é achado pela Eq.(9.25) e da
fórmula de Little:

211
EN 
 /
ET   
 1 
1/ E  1
  
1-  1    
(9.26)

O tempo médio de espera na fila é dado pela média do tempo total no sistema
menos o tempo de atendimento:

E W   E T   E  
E 
  E  
1- 

 E  
1- 
(9.27)

A fórmula de Little então nos fornece o número médio na fila:

 
E N q  EW 
2

1 
(9.28)

A utilização do servidor( definida em 9.2) é dada por


1  p0  1  1      

(9.29)
A Figura 9.5 e 9.6 nos mostra E[N] e E[T] versus . Pode ser visto que
quando  se aproxima de um, o número médio no sistema e o atraso no
sistema torna arbitrariamente grande.

212
Figura 9.5- O número médio de clientes no sistema versus utilização para
M/M/1

213
Figura
9.6- Figura 9.6- Atraso total médio de clientes versus utilização para o sistema
M/M/1. O atraso é expresso em múltiplos do tempo médio de atendimento.

_______________________________________________________________

Exemplo 9.3
Um concentrador recebe uma mensagem de um grupo de terminais e
transmite sobre uma linha de transmissão. Supondo que a mensagem chega de
acordo com o processo de Poisson na taxa de uma mensagem a cada 4
milisegundos, e suponhamos que o tempo de transmissão da mensagem é
distribuído exponencialmente com média de 3 ms. Ache o número médio de
mensagens no sistema e o atraso total médio no sistema. Qual a porcentagem
de aumento na taxa de chegada que resulta quando se dobra o atraso total
médio.
A taxa de chegada é ¼ mensagens/ms e o tempo médio de atendimento
é 3 ms. A utilização é entretanto

1 3
 (3) 
4 4

O número médio de clientes no sistema é então

214

EN   3
1 

O tempo médio no sistema é


EN 
ET  
3
  12ms
 1/ 4

O tempo médio no sistema será dobrado para 24 ms quando

E  3
24  
1 ' 1 '
A utilização resultante é ´= 7/8 e o correspondente tempo de chegada é ´=
´ = 7/24. A taxa de chegada original foi de 6/24. Então um aumento na taxa
de chegada de 1/6 = 17% leva à 100% de aumento no atraso médio do sistema.
_______________________________________________________________

8.4 SISTEMAS MULTI-SERVIDORES M/M/C, M/M/c/c, e M/M/

Agora modificaremos o sistema M/M/1 para considerar o sistema de fila com


múltiplos servidores. Em particular, consideramos sistemas com tempo de
chegada exponencial com iid e tempo de atendimento exponencial com iid.
Como no caso de sistema M/M/1, o sistema resultante pode ser modelado pela
cadeia de Markov com tempo contínuo.

Distribuição do número no sistema M/M/c


O diagrama da taxa de transição no sistema M/M/1 é mostrado na Fig. 9.10.
Como antes, as chegadas ocorrem na taxa . A diferença agora é que a taxa de
partida é k, quando k servidores estão ocupados. Para vermos o porque,
suponhamos que k servidores estão ocupados, então o tempo até a próxima
partida é dado por

X = min(1, 2, . . . , k)

quando i são variáveis aleatórias exponenciais e iid com parâmetro  . A cdf


complementar desta variável aleatória é

215
P[X > t] = P[min(1, 2, . . . , k) > t]
= P[1 > t, 2 > t, . . . , k > t]
= P[1 > t] P[2 > t] . . . P[k > t]
= e-t e-t . . . e-t
= e-kt
Então o tempo até a próxima partida é uma variável aleatória exponencial com
média 1/k. Então quando k servidores estão ocupados, os clientes partem na
taxa k. Quando o número de clientes no sistema é maior que c, todos os c
servidores estão ocupados e a taxa de partida é c.
Obtemos as probabilidades dos estados permanentes para o sistema M/M/c a
partir da solução geral para o processo nascimento e morte no Exemplo 8.19.
As probabilidades dos c estados estarem ocupados são obtidas a partir da
fórmula recursiva (Eq. 8.36):

Para os estados jc,

pj-1 = jpj


pj  p j 1
j


pj  p j 1 j  1, . . . , c,
j
a qual nos leva à

aj
pj  p0 j  0, 1, . . . , c,
j!
(9.44)

216
Figura 9.10- Diagrama do estado de transição para o sistema M/M/c.

Onde

a

(9.45)
As probabilidades para estados iguais ou maiores do que c são obtidas a partir
da seguinte recursividade:


pj  p j 1 j  c, c  1, c  2, . . . ,
c

a qual nos leva

pj = j-c pc j = c, c + 1, c + 2, . . .
(9.36a)

 jc a c
 p0 , (9.46b)
c!
onde temos usado a Eq.(9.44) com j = c e onde



c
(9.47)

Finalmente po é obtido a partir da condição de normalização:

  c 1 a j a c  j c 
1   p j  p0     
j 0  j 0 j! c! j c 

217
O sistema é estável e tem um estado permanente se o termo entre chaves for
finito. Este é o caso se a segunda série converge, a qual exige que  < 1, ou
equivalente,

 < c
(9.48)

Em outras palavras, o sistema é estável se a taxa de chegada dos clientes é


menor que a taxa total na qual os c servidores podem atender os clientes. A
forma final para po é

1
 c 1 a j a c 1 
p0    
 j 0 j! c! 1   
(9.49)
A probabilidade que um cliente encontre todos servidores ocupados e tenha
que esperar na fila é um parâmetro importante no sistema M/M/c:


pc
P[W  0]  P[ N  c]    j c pc 
j c 1 
(9.50)
Esta é chamada de fórmula C de Erlang e é expressa por:

pc
C (c, a )   P[W  0]
1 
(9.51)

O número médio de clientes na fila é dado por

218
 
 
E N q    j  c  j c
pc  pc  j '  j '
j c j 0


 pc
1 -   2


 C (c, a )
1- 
(9.52)

O tempo médio de espera é achado pela fórmula de Little:

EW  
 
E Nq

1/
 C ( c, a )
c(1 -  )
(9.53)

O tempo total médio no sistema é

ET   EW   E   EW  


1

(9.54)

Finalmente, o número médio no sistema é achado pela fórmula de Little:

 
EN   ET   E N q  a
(9.55)

_______________________________________________________________

Exemplo 9.8
Uma companhia tem um sistema com quatro linhas privadas de telefone
conectando duas cidades. Supondo que as chamadas para estas linhas seguem
a distribuição de Poisson com taxa de uma chamada à cada 2 minutos, e

219
supondo que a duração das chamadas segue uma distribuição exponencial com
média de 4 minutos. Quando todas as linhas estiverem ocupadas, o sistema (
isto é, as filas ) atrasa o pedido de chamada até que a linha se torna disponível.
Ache a probabilidade de ter que esperar por uma linha.
Primeiro necessitamos calcular po. Desde que  = ½ e 1/ = 4, a = / =
2

1
 2 2 2 3 16  1  3
p 0  1  2      
 2 6 24  1  1 / 2  23

A probabilidade de termos que esperar é então

2 4 / 4! 3
C 4,2 
4 ~
  .17
1  1 / 2 23 23
______________________________________________________________

Exemplo 9.9
Compare a performance do atraso médio e o tempo de espera médio dos
dois sistemas mostrados na Figura 9.11. Nota-se que ambos os sistemas tem
uma mesma taxa de processamento.

220
Figura 9.11 – Sistemas M/M/1 e M/M/2 com a mesma taxa de chegada e
mesma taxa de processamento máxima.

Para o sistema M/M/1,  = / = (1/2) = ½, tal que o tempo de espera médio

/
EW    1 segundo,
1 

e o atraso total médio é

1/ 
ET    2 seconds
1 
Para um sistema M/M/2, a = /´= 1, e  = /2´= ½. A probabilidade do
sistema estar vazio é

1
 a2 / 2  1
p 0  1  a   
 1  1 / 2  3

Pela fórmula C de Erlang

221
a2 / 2 1
C (2,1)  p0 
1  3

O tempo médio de espera é então

1/  
EW  
2
C (2,1) 
2(1   ) 3

e o atraso médio é

ET  
2 1 8
 
3  3
Então o sistema M/M/1 tem um atraso total menor mas um tempo de espera
maior do que o M/M/2. Em geral, o aumento médio do número de servidores
decresce o tempo de espera mas aumenta o atraso total.

222