COE777 - Probabilidade e Processos Estocásticos: Notas de Aula

MP
COE777 — Probabilidade e Processos Estocásticos

Notas de aula
Prof. Wallace Alves Martins
Laboratório de Sinais, Multimídia e Telecomunicações (SMT)

Programa de Engenharia Elétrica (PEE)
Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia (COPPE)
Universidade Federal do Rio de Janeiro (UFRJ)
wallace.martins@smt.ufrj.br
Tais notas de aula consistem em modificações das notas de aula do

Prof. Luiz Wagner Pereira Biscainho (wagner@smt.ufrj.br)
07 de Março de 2018
1 / 247
MP
Informações Sobre o Curso
Horário
Horário de nossas aulas (4h/semana):

Quartas: de 10h às 12h
Sextas: de 10h às 12h
Atendimento:
Quartas-feiras, de 14h às 17h, no gabinete 12 (H219, professores)
Facilita se enviar email antes (wallace.martins@smt.ufrj.br)
2 / 247
MP
Avaliação
4 testes distribuídos ao longo do curso

Teste 1: 15% da nota
Distribuição de conceitos a ser definida depois
Não há testes repositivos
3 / 247
MP
Datas dos Testes
Teste 1: 16/03/2018 – sexta-feira

Teste 2: 18/04/2018 – quarta-feira
Teste 3: 02/05/2018 – quarta-feira
Teste 4: 25/05/2018 – sexta-feira
4 / 247
MP
Programação
Planejamento das Aulas

Data Aula Parte Slide Final Assunto Prova Observações
7/3 1 Pr 32 Definição de álgebra de conjuntos
9/3 2 Pr
14/3 3 VA
16/3 4 VA 1
21/3 5 VA
23/3 6 VA
28/3 7 VA
30/3 Feriado - Sexta-Feira da Paixão
4/4 8 VA
6/4 9 VA
11/4 10 VA
13/4 11 VA
18/4 12 TE 2
20/4 13 TE
25/4 14 PA
27/4 15 PA
2/5 16 PA 3
4/5 17 PA
9/5 18 PA
11/5 19 PA
16/5 20 PA
18/5 21 PA
23/5 22 PA
25/5 23 X 4
30/5 24 X
1/6 Recesso - Corpus Christi
5 / 247
MP
Bibliografia
Livro-texto
Peyton Z. Peebles Jr., “Probability, Random Variables and Random
Signal Principles”, 4th Edition, McGraw Hill, New York, NY, 2000.
6 / 247
MP
Bibliografia
Outras referências:
José P. A. e Albuquerque, José M. P. Fortes, Weiler A. Finamore,
“Probabilidade, Variáveis Aleatórias e Processos Estocásticos”,
1a Edição, Editoras Interciência e PUC-Rio, Rio de Janeiro, RJ, 2008.
Barry R. James, “Probabilidade: Um Curso em Nível Intermediário”,
3a Edição, IMPA, Rio de Janeiro, RJ, 2006.
Steven Kay, “Intuitive Probability and Random Processes Using
MATLAB® ”, 1st Edition, Springer, New York, NY, 2006.
7 / 247
MP
Ementa
1 Probabilidade
2 Variável Aleatória
3 Tópicos de Estatística
4 Processo Aleatório
8 / 247
MP
Ementa
1 Probabilidade
8 / 247
MP
Ementa
1 Probabilidade
8 / 247
MP
Ementa
1 Probabilidade
8 / 247
MP
Sugestão de Material Complementar
Curso do MIT 6.041

Probabilistic Systems Analysis and Applied Probability
Professor John Tsitsiklis
Página do curso: http://ocw.mit.edu/6-041F10
Youtube:
https://youtu.be/j9WZyLZCBzs?list=PLUl4u3cNGP60A3XMwZ5sep719_nh95qOe
9 / 247
MP
Probabilidade
Sumário
1 Probabilidade
10 / 247
MP
Probabilidade
Motivação
Introdução
James Clerk Maxwell

“The true logic of this world is in the calculus of probabilities.”
Essência × acidente
Mecanicismo newtoniano × mecânica quântica
Probabilidade lida com
cálculos de chance de algo ocorrer
predição de comportamentos médios
regularidade estatística
É comum que seja inviável/inadequado usar um modelo em que causas
e efeitos sejam totalmente previsíveis (tenham natureza determinística)
Complexidade dos fenômenos físicos → incertezas

Modelos probabílistos podem ser mais úteis em tais ocasiões
Os exemplos a seguir ilustram tais fatos
11 / 247
MP
Probabilidade
Motivação
Exemplo: Tráfego Telefônico — Teoria de Filas
Problema
200 terminais telefônicos são ligados a uma central A. Deseja-se determinar
o número de circuitos que devem ser instalados entre a central A e uma
outra central B para que se possa atender o tráfego gerado em A e
destinado a B.
12 / 247
MP
Probabilidade
Motivação
Note que n ≥ 200 (considerando, e.g., redundância) seria uma resposta

Solução cara!
Porém, dificilmente os 200 assinantes iriam falar ao mesmo tempo
Assim, poder-se-ia fazer uma pesquisa de campo junto aos assinantes e
mapear o número máximo de chamadas simultâneas em progresso
Viável? Os próprios assinantes têm como prever isso?
Essas seriam abordagens determinísticas que, claramente, não se aplicam
A principal falha dessa abordagem está no enunciado do problema
O aspecto importante seria requerer apenas certo comportamento médio
Ex.: qual deve ser n para que em média 99,9% das chamadas não
deixem de ser completadas por falta de circuitos entre A e B
13 / 247
MP
Probabilidade
Motivação
O problema descrito lida com uma população de usuários que solicita

em diferentes instantes de tempo um determinado serviço
O serviço é prestado por um número finito de postos de serviço, de
modo que é possível que um dado usuário (e.g. M. Campos) encontre
todos os postos ocupados
Teoria de filas lida com tais problemas, os quais são caracterizados por
Tráfego de entrada
Fila
Postos de serviço
14 / 247
MP
Probabilidade
Motivação
Exemplo: Peças Defeituosas — Teoria da Decisão
Problema
Um fabricante de peças garante que o número de unidades defeituosas em
cada lote vendido não ultrapassa 5% do número total. De cada 1000 peças
recebidas o comprador resolve examinar 20 peças. Supondo que encontre 2
peças defeituosas, alguém lhe sugere que rejeite o lote. Outra pessoa porém
lembra de todos os inconvenientes relacionados à rejeição (e.g. atraso),
ponderando que, afinal, o lote inteiro teria até 50 peças defeituosas.
15 / 247
MP
Probabilidade
Motivação
Exemplo: Peças Defeituosas — Teoria da Decisão
Solução determinística inconcebível dada sua natureza “aleatória”

Enfraquecimento dos requisitos é a chave aqui
Abordagem probabilística para o problema de decisão
Definição de riscos associados a decisões
Requerer que em média um lote bom fosse rejeitado em no máximo 10%
das aplicações da regra
Teoria da decisão/teste de hipóteses lida com tais modelos
16 / 247
MP
Probabilidade
Motivação
Exemplo: Comunicações Digitais — Teoria da Decisão
Descrição
Em um sistema de comunicações digitais, o sinal a ser transmitido é
inicialmente transformado em uma sequência de bits. O transmissor associa
ao bit 0 um determinado sinal (ou ausência de sinal) e ao bit 1 um outro
sinal (pulso retangular, por exemplo). Os próprios circuitos eletrônicos que
transmitem estes sinais desde o transmissor até o receptor adicionam ruído
aos mesmos. O receptor deseja reconstruir a sequência transmitida de bits.
Ele pode, por exemplo, amostrar o sinal recebido no ponto médio do
intervalo correspondente a cada dígito e então decidir por 0 ou 1.
17 / 247
MP
Probabilidade
Motivação
Lições para a Vida...
Modelos Determinísticos × Probabilísticos

Muitos fenômenos são inviáveis de serem tratados de forma
determinística
Ao se adotar uma abordagem probabilística, modificam-se também as
perguntas a serem respondidas
18 / 247
MP
Probabilidade
Conjuntos
Definições de Conjuntos
Elemento & conjunto

(Elemento a) ∈ ou 6∈ (conjunto A)
Conjunto de conjuntos → classe de conjuntos
Especificação de conjuntos: {· · · }
método tabular — Ex.: {6,7,8,9}
método da regra — Ex.: {inteiros entre 5 e 10}
Conjunto:
vazio
finito
contável
infinito
incontável
A é contável/enumerável quando A é finito ou ∃ bijeção f : N → A
A é incontável/não-contável/não-enumerável quando A não é contável
19 / 247
MP
Probabilidade
Conjuntos
Definições de Conjuntos
Conjunto & conjunto

(Conjunto A) ⊂ ou 6⊂ (conjunto B)
(Conjunto B) ⊃ ou 6⊃ (conjunto A)
A ⊂ B ⇔ A é subconjunto de B
A ⊂ B, A 6= B ⇔ A é subconjunto próprio de B
Conjunto universal: S
Conjunto das partes de A: 2A = {B | B ⊂ A}
Ex.: se A = {a, b, c} então 2A = {∅, {a}, {b}, {c}, {ab}, {ac}, {bc}, {abc}}
Fatos:
Se card{A} = N , então card{2A } = 2N
Se card{A} = card{N} = ℵ0 , então card{2A } = card{R} = ℵ1 > ℵ0
20 / 247
MP
Probabilidade
Conjuntos
Relações entre Conjuntos
Igualdade: A = B
A B
21 / 247
MP
Probabilidade
Conjuntos
Operações entre Conjuntos
Diferença: A − B ou A \ B
A B
Note que, em geral, A − B 6= B − A
22 / 247
MP
Probabilidade
Conjuntos
Relações entre Conjuntos
Complementaridade: A é o complemento de A
Note que A = S \ A
23 / 247
MP
Probabilidade
Conjuntos
União: A ∪ B
A B
Generalizações:
N
[
União finita: An = A1 ∪ A2 ∪ · · · ∪ AN
n=1
∞
[ [
União (infinita) enumerável: An = An = A1 ∪ A2 ∪ · · ·
n=1 n∈N
[
União não-enumerável: Ai , onde I é um conjunto não-enumerável
i∈I
24 / 247
MP
Probabilidade
Conjuntos
Interseção: A ∩ B
A B
Caso importante: A ∩ B = ∅ ⇔ A e B disjuntos ou mutuamente exclusivos

N
\ \ \
Generalizações: An = A1 ∩ · · · ∩ AN , An , Ai , I não-enumerável
n=1 n∈N i∈I
25 / 247
MP
Probabilidade
Conjuntos
Relações & Operações entre Conjuntos
Lei comutativa
A∩B =B∩A
A∪B =B∪A
Lei distributiva
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
26 / 247
MP
Probabilidade
Conjuntos
Relações & Operações entre Conjuntos
Lei associativa
(A ∪ B) ∪ C = A ∪ (B ∪ C) = A ∪ B ∪ C
(A ∩ B) ∩ C = A ∩ (B ∩ C) = A ∩ B ∩ C
Lei de De Morgan
A∪B =A∩B
A∩B =A∪B
27 / 247
MP
Probabilidade
Probabilidade
Definições Básicas
Visão geral
Contexto:
Experimento aleatório → tentativa → resultado
Ingredientes fundamentais:
Espaço amostral + eventos aleatórios + medida de probabilidade
28 / 247
MP
Probabilidade
Probabilidade
Experimento aleatório
Procedimento (hipotético) através do qual se produz um resultado outrora
impossível/inviável de prever de forma determinística
O experimento aleatório pode ser repetido em condições idênticas
Tentativa
Uma realização (hipotética) particular de um experimento aleatório
Resultado
Produto de uma tentativa de um experimento aleatório
No exemplo das “peças defeituosas”:

Experimento aleatório: escolher ao acaso 20 peças de 1000 e observar
quantas são defeituosas
Tentativa: execução particular desse experimento
Resultado: o número de peças defeituosas
29 / 247
MP
Probabilidade
Probabilidade
Espaço amostral S
Conjunto de todos os resultados possíveis
discreto finito
contı́nuo infinito
Um dado fenômeno (físico) pode admitir diferentes espaços amostrais
Tudo depende de como o experimento aleatório foi definido
O que se entende por resultado do experimento deve ser explicitado
O espaço amostral deve ser tal que não o seja mais detalhado do que
necessário nem omita aspectos importantes do fenômeno (físico) que
está sendo modelado
No exemplo das “peças defeituosas”, S = {0, 1, 2, · · · , 20}

Porém, o experimento poderia ter sido definido de tal forma a verificar
se mais de uma peça defeituosa (> 5%) são encontradas dentre as 20
Neste caso, S = {sim, não}
30 / 247
MP
Probabilidade
Probabilidade
Evento
Qualquer subconjunto de S, i.e. um elemento de 2S (partes de S)
discreto finito
contı́nuo infinito
Modela também o interesse em um conjunto de resultados individuais
Elemento de um evento será denotado por s (resultado individual)
Às vezes, há interesse na “não-ocorrência” de um evento
Eventos complementares & eventos mutuamente exclusivos
Evento aleatório é um evento para o qual atribui-se probabilidade
No caso discreto, é comum que “evento = evento aleatório”
É comum trabalhar com o conjunto das partes aqui
No caso contínuo, nem todos eventos admitem probabilidade
Paradoxo de Banach-Tarski
Mas isso não se constitui um problema na prática
Os eventos que não admitem medida não são de “interesse prático”
Porém, não se pode trabalhar com o conjunto das partes aqui
31 / 247
MP
Probabilidade
Probabilidade
Evento
Álgebra A é uma classe de subconjuntos de S que satisfaz
se A ∈ A ⇒ A ∈ A (fechamento para complemento)
se A, B ∈ A ⇒ A ∪ B ∈ A (fechamento para união)
Como consequência, toda álgebra A de subconjuntos de S é tal que
se A, B ∈ A ⇒ A ∩ B ∈ A
se A, B ∈ A ⇒ A \ B ∈ A
∅∈A
S∈A
N
[
se An ∈ A ∀n ∈ {1, 2, · · · , N } ⇒ An ∈ A
n=1
σ-álgebra Aσ é uma álgebra de subconjuntos de S tal que
∞
[
se An ∈ Aσ ∀n ∈ N ⇒ An ∈ Aσ (fechamento para união contável)
n=1
32 / 247
MP
Probabilidade
Probabilidade
Evento
Manipular conjuntos de resultados é fundamental para a teoria aqui
σ-álgebra é fechada relativamente a todas as operações de interesse
Sendo assim, a σ-álgebra é o segundo ingrediente fundamental
Os eventos aleatórios são elementos da σ-álgebra em questão
No caso discreto, usualmente tem-se Aσ = 2S
No caso contínuo, dependerá do problema particular
Em R, utiliza-se a σ-álgebra de Borel, que é a “menor” σ-álgebra que
contém todos os intervalos (conjuntos que sabemos medir!)
No exemplo das “peças defeituosas”, Aσ = 2S , S = {0, 1, · · · , 20}
33 / 247
MP
Probabilidade
Probabilidade
Probabilidade como Frequência Relativa
Frequência Relativa de evento A

Comportamento médio ←→ frequência de ocorrência de um evento
associado a uma experiência
Para N tentativas em que N (A) vezes o evento aleatório A ∈ Aσ
ocorreu, tem-se a frequência relativa NN
(A)
Princípio da indiferença ←→ resultados individuais equiprováveis

Escolhas ao acaso
Note que
N (A)
0≤ N
≤ 1, pois 0 ≤ N (A) ≤ N
N (S)
N
= 1, pois N (S) = N (sempre ocorre um resultado)
N (A∪B) N (A) N (B)
Se A ∩ B = ∅ ⇒ N
= N + N , pois
A ∩ B = ∅ ⇒ N (A ∪ B) = N (A) + N (B)
34 / 247
MP
Probabilidade
Probabilidade
Axiomas da Probabilidade
Probabilidade de evento aleatório A ∈ Aσ : P (A), P ({· · · }) ≡ P {· · · }

1 P (A) ≥ 0
2 P (S) = 1
∞
! ∞
[ X \
3 P An = P (An ), se Am An = ∅
n=1 n=1 m6=n
A ideia é trabalhar com funções P : Aσ → [0, 1] ⊂ R que satisfaçam os

axiomas e sejam coerentes com a regularidade estatística encontrada
na prática
N (A)
Assim, P (A) = lim N
N −→∞
No caso discreto finito, define-se P {s} para cada s ∈ S e estende-se sua
definição para qualquer A ∈ Aσ através de uniões
35 / 247
MP
Probabilidade
Probabilidade
Eventos Particulares
Evento:
impossível: A = ∅ ⇒ P (A) = 0
certo: A = S ⇒ P (S) = 1
possível com P (A) = 0 (ex.: evento discreto em espaço contínuo)
incerto com P (A) = 1 (ex.: complemento do anterior)
36 / 247
MP
Probabilidade
Probabilidade
Lições para a Vida...
Modelo probabilístico
Parte da definição de um experimento aleatório e é constituído de
Um conjunto não-vazio de resultados possíveis, o espaço amostral
Uma σ-álgebra de eventos aleatórios
Uma probabilidade definida na σ-álgebra em questão
Satisfaz 3 axiomas
É coerente com a regularidade estatística ←→ frequência relativa
37 / 247
MP
Probabilidade
Probabilidade
Propriedades & Probabilidade Conjunta

1 P (A) = 1 − P (A)

pois A ∪ A = S e A ∩ A = ∅

2 A1 ⊂ A2 ⇒ P (A1 ) ≤ P (A2 )

pois A2 = A1 ∪ (A2 \ A1 )

∞
S P∞
3 P An ≤ P (An )
n=1 n=1

pois A1 ∪ A2 = A1 ∪ (A2 ∩ A1 ), e A1 ∩ (A2 ∩ A1 ) = ∅ e A2 ∩ A1 ⊂ A2 e
P é “contínua”
4 P (A ∪ B) = P (A) + P (B) − P (A ∩ B)

pois A ∪ B = A ∪ (A ∩ B) e B = (A ∩ B) ∪ (A ∩ B)
Probabilidade conjunta de A e B
P (A ∩ B) = P (A) + P (B) − P (A ∪ B)
38 / 247
MP
Probabilidade
Probabilidade
Probabilidade Condicional
Probabilidade condicional de A condicionada a B

P (A ∩ B)
P (A|B) = , P (B) > 0
P (B)
Satisfaz os 3 axiomas
Interpretação “frequentista” da definição (para N grande)
N (A ∩ B)
P (A|B) ≈
N (B)
N (A ∩ B)
P (A ∩ B) ≈
N
N (B)
P (B) ≈
N
Note que
Se A ∩ B = ∅ (mutuamente exclusivos) e P (B) > 0, então P (A|B) = 0
Se B ⊂ A e P (B) > 0, então P (A|B) = 1
39 / 247
MP
Probabilidade
Probabilidade
Teorema da Probabilidade Composta
Probabilidade composta de A1 , A2 , · · · , AN
P (A1 ∩A2 ∩· · ·∩AN ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩A2 )· · ·P (AN |A1 ∩· · ·∩AN −1 )
40 / 247
MP
Probabilidade
Probabilidade
Exemplo
Problema
Selecionar 3 cartas de um baralho, uma seguida da outra, ao acaso e sem
reposição. Qual é a probabilidade de tirar 3 reis?
41 / 247
MP
Probabilidade
Probabilidade
Exemplo
Seja Ai o evento “tirar rei na i-ésima extração”. Então
P (A1 ∩ A2 ∩ A3 ) = P (A1 ) P (A2 |A1 ) P (A3 |A1 ∩ A2 ) ≈ 1,81 · 10−4 .

| {z } | {z }| {z }
4
= 52 3
= 51 2
= 50
42 / 247
MP
Probabilidade
Probabilidade
Teorema da Probabilidade Total
Probabilidade total de A
N
[ \
Se Bn = S, Bm Bn = ∅ (partição do espaço amostral), então
n=1 m6=n
N
X
P (A) = P (A|Bn )P (Bn )
n=1
43 / 247
MP
Probabilidade
Probabilidade
Teorema de Bayes
Regra de Bayes
N
[ \
Se Bn = S, Bm Bn = ∅ (partição do espaço amostral), então
n=1 m6=n
de transição a priori
z }| { z }| {
P (A|Bn ) P (Bn )
P (Bn |A) =
| {z } P (A)
a posteriori
ou ainda (usando a probabilidade total)

de transição a priori
z }| { z }| {
P (A|Bn ) P (Bn )
P (Bn |A) = N
| {z } P
a posteriori P (A|Bn )P (Bn )
n=1
44 / 247
MP
Probabilidade
Probabilidade
Exemplo
Problema
Um móvel tem três gavetas iguais. Em uma gaveta há duas bolas brancas,
em outra há duas bolas pretas, e na terceira há uma bola branca e outra
preta. Na escuridão, a Pequena Anta abre uma gaveta ao acaso, retira uma
bola ao acaso e fecha a gaveta novamente. Já na claridade, descobre que a
bola que retirou da gaveta é branca. Qual é a probabilidade de que a
segunda bola que restou na gaveta também seja branca?
45 / 247
MP
Probabilidade
Probabilidade
Exemplo
P (B2 = branca ∧ B1 = branca)

P (B2 = branca|B1 = branca) = ,
P (B1 = branca)
com
P (B1 = branca) = P (B1 = branca|Cbb )P (Cbb ) + P (B1 = branca|Cbp )P (Cbp )

+ P (B1 = branca|Cpp )P (Cpp ),
em que os índices b e p representam branco e preto, respectivamente. Assim

Cbp é a caixa com uma bola branca e uma bola preta. Logo,
1 1 1 1
P (B1 = branca) = 1 × + × +0× .
3 2 3 3
Portanto,
1/3 2
P (B2 = branca|B1 = branca) = = ,
1/2 3
46 / 247
MP
Probabilidade
Probabilidade
Exemplo
Problema
Sabe-se que 0,75% da população brasileira hospeda uma determinada
bactéria em seu organismo. O teste para detectá-la resulta positivo para
99% dos pacientes que realmente possuem a bactéria, e resulta negativo
para 95% dos pacientes que não possuem a bactéria. Considere um cidadão
brasileiro selecionado ao acaso. Se seu teste resultou positivo, calcule a
probabilidade de que ele realmente hospede a bactéria em seu organismo.
Comente sobre o resultado obtido.
47 / 247
MP
Probabilidade
Probabilidade
Exemplo
P (T P |D)P (D)
P (D|T P ) =
P (T P )
0,99 × 0,0075
=
0,99 × 0,0075 + 0,05 × 0,9925
≈ 0,1301 ≈ 13%
O valor ficou baixo porque o conhecimento a priori de que é raro ter um

indivíduo que sofra desta doença faz com que o teste não seja tão confiável.
48 / 247
MP
Probabilidade
Probabilidade
Exemplo
Problema
A figura abaixo é usada para caracterizar o canal de um sistema de
comunicação digital, através do qual se envia uma mensagem X (entrada do
canal) que pode assumir valores binários no conjunto {0, 1} e que
disponibiliza na sua saída (saída do canal) um valor binário Y ∈ {0, 1}. A
probabilidade de observar um valor zero na entrada do canal,
P ({X = 0}) = π0 , é conhecida, bem como as seguintes probabilidades de
transição (do canal):
P ({Y = 0}|{X = 0}) = q,

P ({Y = 1}|{X = 1}) = p.
P ({Y = 0}|{X = 0})

0 0
X X
=1
}) P ({
Y =
1}|
Y
}|{ {X
=0 =0
P ({Y })
1 P ({Y = 1}|{X = 1}) 1
49 / 247
MP
Probabilidade
Probabilidade
Exemplo
Problema
O valor de Y observado na saída do canal é utilizado por um processador
que, de acordo com uma regra de decisão determinística, sempre associa
a cada um dos valores (Y = 0 e Y = 1) uma estimativa X̂ ∈ {0, 1} do bit
transmitido que deu origem àquela saída Y do canal. Considere que a
regra de decisão utilizada pelo processador se baseia no critério da
máxima probabilidade a posteriori que, em poucas palavras, consiste
em atribuir a X̂ o valor de X com maior probabilidade de ocorrer dado que
o evento {Y = 0} ou que o evento {Y = 1} tenha ocorrido. Assuma que
p > 21 , q > 12 e qπ0 < (1 − π0 )(1 − p).
1 Especifique a regra de decisão de máxima probabilidade a
posteriori, ou seja, que valor deve ser atribuído a X̂ quando Y = 0 e
quando Y = 1. Justifique detalhadamente.
2 Encontre a probabilidade de cometer um erro na decisão, ou seja,
P ({X̂ 6= X}).
P ({Y = 0}|{X = 0})
0 0
X X
=1
}) P ({
Y =
1}|{
Y
}|{
=0 X
=0
{Y })
P(
1 P ({Y = 1}|{X = 1}) 1 50 / 247
MP
Probabilidade
Probabilidade
Exemplo
1
P ({Y = 0}|{X = 0})P ({X = 0}) qπ0
P ({X = 0}|{Y = 0}) = =
P ({Y = 0}) qπ0 + (1 − p)(1 − π0 )
P ({Y = 0}|{X = 1})P ({X = 1}) (1 − p)(1 − π0 )
P ({X = 1}|{Y = 0}) = =
P ({Y = 0}) qπ0 + (1 − p)(1 − π0 )
P ({Y = 1}|{X = 0})P ({X = 0}) (1 − q)π0
P ({X = 0}|{Y = 1}) = =
P ({Y = 1}) (1 − q)π0 + p(1 − π0 )
P ({Y = 1}|{X = 1})P ({X = 1}) p(1 − π0 )
P ({X = 1}|{Y = 1}) = =
P ({Y = 1}) (1 − q)π0 + p(1 − π0 )
Portanto, quando Y = 0, vemos que

P ({X = 1}|{Y = 0}) > P ({X = 0}|{Y = 0}), pois (1 − p)(1 − π0 ) > qπ0 por
hipótese. Logo, X̂ = 1, quando Y = 0. Já quando Y = 1, vemos que
P ({X = 1}|{Y = 1}) > P ({X = 0}|{Y = 1}), pois como p > 12 e q > 12 ,
então p > 1 − p e q > 1 − q, o que implica
p(1 − π0 ) > (1 − p)(1 − π0 ) > qπ0 > (1 − q)π0 . Logo, X̂ = 1, quando Y = 1.
Em outras palavras, X̂ = 1 sempre.
51 / 247
MP
Probabilidade
Probabilidade
Exemplo
2 P ({X̂ 6= X}) = P ({X̂ = 1} ∩ {X = 0}) + P ({X̂ = 0} ∩ {X = 1}) =

P ({X̂ = 1} ∩ {X = 0}) = P ({X̂ = 1}|{X = 0})P ({X = 0}) = 1 × π0 =
π0
Note que a hipótese (1 − p)(1 − π0 ) > qπ0 gerou uma situação estranha
de um sistema de comunicação que recebe uma mensagem “constante”.
Essa hipótese de certa forma indica que a probabilidade de transmitir 0
é (bem) menor do que a de transmitir 1, o que fez com que o decisor
sempre optasse pelo bit 1. De fato, essa escolha é a que minimiza a
probabilidade de erro de decisão nas condições do enunciado.
52 / 247
MP
Probabilidade
Probabilidade
Eventos Independentes
Eventos A e B: Condição necessária e suficiente para independência:

Ideia: a ocorrência de um não afeta a probabilidade de ocorrência do outro
1 P (A|B) = P (A) ou
2 P (B|A) = P (B) ou
3 P (A ∩ B) = P (A)P (B)
N eventos: Condição análoga à 3a acima.

satisfeita 2 a 2 e
satisfeita 3 a 3 e
..
.
satisfeita N a N
53 / 247
MP
Probabilidade
Probabilidade
Propriedades de Eventos Independentes

Eventos de probabilidade 0 ou 1 são independentes de quaisquer outros
Um evento é independente de si mesmo ⇔ tiver probabilidade 0 ou 1
Eventos mutuamente exclusivos não são independentes, a menos que
um deles tenha probabilidade 0
Ex.: No lançamento de um dado honesto, seja o evento A = “face
ímpar”. Note que P (A) = P (A) = 21 e que
P (A ∩ A) = P (∅) = 0 6= 41 = P (A)P (A)
Se A e B são independentes, então também são A e B, A e B, A e B
Para N eventos, independência 2 a 2 não implica a coletiva
Ex.: No lançamento de dois dados honestos, sejam os eventos A = “face
ímpar no primeiro dado”, B = “face ímpar no segundo dado”, C =
“soma ímpar das duas faces”. Note que P (A) = P (B) = P (C) = 21 e que
os eventos são independentes 2 a 2. Porém, eles não podem ocorrer
simultaneamente, de modo que A ∩ B ∩ C = ∅ e
P (A ∩ B ∩ C) = 0 6= 18 = P (A)P (B)P (C)
Para N eventos independentes, qualquer deles é independente de
qualquer evento formado por uniões, interseções e complementares dos
demais
Ex.: P (A1 ∩ (A2 ∪ A3 )) = P (A1 )P (A2 ∪ A3 )
54 / 247
MP
Probabilidade
Probabilidade
Exemplo
Problema
Sejam A1 , A2 , A3 eventos independentes. Demonstre que A1 é independente
de A2 ∪ A3 .
55 / 247
MP
Probabilidade
Probabilidade
Exemplo
Basta mostrar que P (A1 ∩ (A2 ∪ A3 )) = P (A1 )P (A2 ∪ A3 ). Como

A1 ∩ (A2 ∪ A3 ) = (A1 ∩ A2 ) ∪ (A1 ∩ A3 ), então
P (A1 ∩ (A2 ∪ A3 )) = P (A1 ∩ A2 ) + P (A1 ∩ A3 ) − P (A1 ∩ A2 ∩ A3 )

| {z } | {z } | {z }
=P (A1 )P (A2 ) =P (A1 )P (A3 ) =P (A1 ) P (A2 )P (A3 )
| {z }
=P (A2 ∩A3 )
= P (A1 ) [P (A2 ) + P (A3 ) − P (A2 ∩ A3 )]

= P (A1 )P (A2 ∪ A3 ).
56 / 247
MP
Probabilidade
Probabilidade
Eventos Múltiplos
Generalização
Experimento combinado: S = S1 × S2 × · · · × SN
Elemento de um evento: ênupla (s1 , s2 , . . . , sN )
Evento: A1 × A2 × · · · × AN , com An ∈ An ⊂ 2Sn , ∀n ∈ {1, 2, · · · , N }
(sub-)experimentos independentes ⇒ eventos independentes:
P (A1 × A2 × · · · × AN ) = P (A1 )P (A2 ) . . . P (AN )
57 / 247
MP
Probabilidade
Probabilidade
Exemplo
Problema
Um par de dados de seis faces honestos é utilizado em um jogo em que
ambos os dados são lançados simultaneamente e os números das faces
voltadas para cima são anotados. O jogador 1 ganha se a soma dos números
é menor ou igual a seis e pelo menos um dos dados mostra o número
quatro. O jogador 2 ganha quando a soma é maior ou igual a cinco e pelo
menos um dos dados mostra o número quatro. Determine:
1 Um espaço amostral adequado para tal experimento aleatório.
2 O evento que indica quando o jogador 1 ganha.
3 A probabilidade de o jogador 1 ganhar.
4 O evento que indica quando o jogador 2 ganha.
5 A probabilidade de o jogador 2 ganhar.
58 / 247
MP
Probabilidade
Probabilidade
Exemplo
Problema
Um par de dados de seis faces honestos é utilizado em um jogo em que
ambos os dados são lançados simultaneamente e os números das faces
voltadas para cima são anotados. O jogador 1 ganha se a soma dos números
é menor ou igual a seis e pelo menos um dos dados mostra o número
quatro. O jogador 2 ganha quando a soma é maior ou igual a cinco e pelo
menos um dos dados mostra o número quatro. Determine:
6 O evento que indica quando os jogadores 1 e 2 ganham.
7 A probabilidade de ambos os jogadores ganharem.
8 A probabilidade de o jogador 1 ganhar, dada a informação de que o
jogador 2 ganhou.
9 A probabilidade de o jogador 2 ganhar, dada a informação de que o
jogador 1 ganhou.
59 / 247
MP
Probabilidade
Probabilidade
Exemplo
1 Um espaço amostral S adequado seria aquele que explicita os números

das faces para cada resultado individual
s = (número da face 1, número da face 2), ou seja:
 

 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6) 



 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6) 


(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
 
S= .

 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) 



 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) 


(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
 
2 A1 = {(1, 4), (4, 1), (2, 4), (4, 2)}.

|A1 | 4
3 P (A1 ) = |S|
= 36
= 91 .
60 / 247
MP
Probabilidade
Probabilidade
Exemplo
4 A2 =
{(1, 4), (4, 1), (2, 4), (4, 2), (4, 3), (3, 4), (4, 4), (4, 5), (5, 4), (6, 4), (4, 6)}.
|A2 | 11
5 P (A2 ) = |S|
= 36
.
6 A3 = A1 ∩ A2 = A1 , pois A1 ⊂ A2 .
7 P (A3 ) = P (A1 ).
P (A1 ∩A2 ) P (A1 ) 4
8 P (A1 |A2 ) = P (A2 )
= P (A2 )
= 11
.
P (A1 ∩A2 ) P (A1 )
9 P (A2 |A1 ) = P (A1 )
= P (A1 )
= 1.
61 / 247
MP
Probabilidade
Probabilidade
Tentativas de Bernoulli
Eventos A com probabilidade p, A com probabilidade 1 − p

N repetições do experimento

N
Probabilidade de A ocorrer k vezes: pk (1 − p)N −k
k
√ N
N
Para N grande, N ! ≈ 2πN e
(fórmula de Stirling)
1
Erro da ordem de12N
Erro menor que 1% para N ≥ 10

N bk e−b
Se N → ∞, p → 0, com N p → b.: pk (1 − p)N −k →
k k!
62 / 247
MP
Probabilidade
Probabilidade
Tentativas de Bernoulli
Note que, pela fórmula de Stirling, tem-se

√ N
N! k N −k
2πN Ne k N −k
p (1 − p) → p N −k p (1 − p)
k!(N − k)! k! 2π(N − k) N −k
e
r k N −k
N N N pk (1 − p)N −k N N pk (1 − p)N −k N N Nb 1 − Nb
= −k
→ −k
→
N − k k!e (N − k)
k N k!e (N − k)
k N k!e (N − k)N −k
k
N −k N
bk 1 − b
N
bk 1 − b
N bk e−b
→ N −k → N → k!ek e−k
k k
k!ek 1 − N
k!ek 1 − N
63 / 247
MP
Probabilidade
Probabilidade
Exemplo
Problema
Considere o experimento “jogar 2 dados honestos e verificar a soma dos
resultados”. Repete-se o experimento 5 vezes.
1 Qual a probabilidade de exatamente 3 jogadas terem soma igual a 9?
2 Qual a probabilidade de pelos menos 1 jogada ter soma igual a 9?
64 / 247
MP
Probabilidade
Probabilidade
Exemplo
Temos um espaço amostral discreto com 6 × 6 = 36 resultados possíveis. Os

resultados favoráveis são os pares ordenados (6; 3), (5; 4), (4; 5), (3; 6),
totalizando-se 4 casos favoráveis. Sendo assim, a probabilidade de que uma
jogada tenha soma 9 é 4/36 = 1/9. Como o problema pode ser modelado
por tentativas de Bernoulli (duas possibilidades quanto ao resultado
desejado: ocorrer com probabilidade 1/9 ou não ocorrer com probabilidade
8/9), temos:
1 3 8 2
5

1 P (exatamente 3 jogadas terem soma igual a 9) = 3 9 9
≈ 0,01.
1 0 8 5
5

2 P (pelo menos 1 jogada ter soma igual a 9) = 1 − 0 9 9
≈ 0,45.
65 / 247
MP
Probabilidade
Probabilidade
Exemplo
Problema
Considere o experimento “jogar 3 dados”, e o resultado “saírem 3 dados
iguais”. Repete-se o experimento 10 vezes.
1 Qual a probabilidade do resultado ocorrer mais de 8 vezes se sabemos
que ocorreu mais de 9 vezes?
2 Qual a probabilidade do resultado ocorrer mais de 9 vezes se sabemos
que ocorreu mais de 8 vezes?
66 / 247
MP
Probabilidade
Probabilidade
Exemplo
1 1
Probabilidade do resultado favorável: p = 6 × 6×6×6
= 36
.
1 Note que A = {k > 9} ⊂ B = {k > 8}. Logo,
P (B|A) = P (A)/P (A) = 1.
2 P (A|B) = P (A)/P (B), onde

10 1
P (A) = 1 × 10
0 36

10 1 10 1
P (B) = 35 × 10 + 1 × 10 ,
9 36 0 36
portanto P (A|B) = P (A)/P (B) = 1

351
≈ 2,85 · 10−3 .
67 / 247
MP
Variável Aleatória
Sumário
1 Probabilidade
68 / 247
MP
Impulso e Degrau Unitários
Impulso e Degrau Unitários
Impulso unitário

δ(x) = 0, x 6= 0
Z 0+
Definição:
 δ(x)dx = 1
−
Z0 ∞
Amostragem: φ(x)δ(x − x0 )dx = φ(x0 )
−∞
Degrau unitário

0, x<0
Definição: u(x) =
1, x≥0
Z x
du(x)
u(x) = δ(ξ)dξ ou = δ(x)
−∞
dx
69 / 247
MP
106 CHAPTER 5. DISCRETE RANDOM VARIABLES
is given by (5.10). It can be used as an equivalent description for the probability

of a discrete random variable. Its properties are summarized in Section 5.8. The
Caracterização
computer simulation of discrete random variables is revisited in Section 5.9 with the
estimate of the probability mass function and the cumulative distribution function
given by (5.14) and (5.15),(5.16), respectively. Finally, the application of the Poisson
Definição: Função X que mapeia cada s ∈ S num X(s) ∈ R ∪ {−∞, ∞}
probability model to determining the resources required to service customers is
described in Section 5.10.
Condições:
5.3 ≤
{X Definition
x} define of Discrete Random
evento Variable ∀x ∈ R ∪ {−∞, +∞}
aleatório
PWe{X = −∞}
have previously used a coin P {X
= toss =toss∞}
and a die = 0of a random ex-
as examples
periment. In the case of a die toss the outcomes comprised the sample space
X pode ser ±∞, mas apenas com probabilidade zero
S = {1,2,3,4,5,6}. This was because each face of a die has a dot pattern con-
sisting of 1, 2, 3, 4, 5, or 6 dots. A natural description of the outcome of a die toss
10.3.upward.
is therefore the number of dots observed on the face that appears DEFINITION
In effect, OF A CONTINUOUS RANDOM VARIABLE 287
Classificação (p/ conjunto imagem = novo espaço amostral):
we have mapped the dot pattern into the number of dots in describing the outcome.
This type of experiment is called a numerically valued random phenomenon since the
basic output is a real number. In the case of a coin toss the as
contínua summarized
outcomes in Theorem 10.9.1. Examples are given in Section 10.9. Estimation
comprise the
nonnumerical sample space S CHAPTER
= {head, tail}.
5. DISCRETE of theat PDF
We have, however,
RANDOM times and CDF can be accomphshed by using (10.38) and (10.39). Finally, an
replaced
VARIABLES
discreta
108
the sample space by one consisting only of real numbers suchexample of the
as «?x = {0,1}, application of the theory to the problem of speech clipping is given
where
a head is mapped into a 1 and a tail is mapped into a 0. This mapping is shown
mista in Section 10.10.
in Figure 5.1. For many applications this is a convenient mapping. For example, in
108 CHAPTER 5. DISCRETE RANDOM VARIABLES
10.3 Definition of a Continuous Random Variable

• X
X2A X^
continuous random variable X is defined as a mapping from the experimental
sample space <5 to a numerical (or measurement) sample space «Sx, which is a subset
• X
Sx = of the real
{xi,X2,X3,...} • line
X R^. In contrast to the sample space of X2a discrete
X^
random variable,
S = {51,52,53,. ..} Sx consists of an infinite and uncountable number of outcomes. As an example,
consider an experiment in which a dart is thrownSxat =the circular dartboard shown in
{xi,X2,X3,...}
Figure 5.2: Discrete random variable as a one-to-one mapping of a countably infinite
sample space into set of real numbers. Figure 10.1. The outcome of the dart-throwing experiment is a point Si in the circle
S = {51,52,53,. ..}
Figure 5.1: Mapping of the outcome of a coin toss into the set of real Figure 5.2: Discrete random variable as X(si)
numbers. a one-to-one mapping of a countably infinite
sample space into set of real numbers.
a succession of M coin tosses, we might be interested in the total number of heads
observed. With the defined mapping of
• X
0 Si = tail
X(Si) =
1 52 = head
Sx = {xi,X2,xs,...} • X
S = {51,52,53,.. .} 70 / 247
MP
Função de Distribuição de Probabilidade Acumulada
Definição e propriedades:
CDF = Cumulative Distribution Function: FX (x) = P {X ≤ x}
1 FX (−∞) = 0
2 FX (∞) = 1
3 0 ≤ FX (x) ≤ 1
4 FX (x1 ) ≤ FX (x2 ), se x1 < x2 (monótona não-decrescente)
5 P {x1 < X ≤ x2 } = FX (x2 ) − FX (x1 )
6 FX (x+ ) = FX (x) (contínua pela direita)
7 Para X discreta:
N
P N
P
FX (x) = P {X = xn }u(x − xn ) = P (xn )u(x − xn )
n=1 n=1
71 / 247
MP
Função de Densidade de Probabilidade
Definição e propriedades:
dFX (x)
PDF = Probability Density Function: fX (x) =
dx
1 fX (x) ≥ 0
Z ∞
2 fX (x)dx = 1
−∞
Z x+
3 FX (x) = fX (ξ)dξ
−∞
Z x+
2
4 P {x1 < X ≤ x2 } = fX (x)dx
x+
1
5 Para X discreta:
N
P N
P
fX (x) = P {X = xn }δ(x − xn ) = P (xn )δ(x − xn )
n=1 n=1
P {X = xn } é denominada PMF (Probability Mass Function)
72 / 247
MP
Distribuições Contínuas
2

Gaussiana ou Normal: X ∼ N X, σX
(x−X)2
1 −
2σ 2
fX (x) = p e X
2
2πσX
Usualmente resulta da composição de efeitos aleatórios independentes
Ex.: ruído num resistor na saída de um amplificador
Versões normalizadas: Z x
1 ξ2
Normal padrão: F (x) = √ e− 2 dξ
−∞ 2π

x−X
Note que F (−x) = 1 − F (x) e que FX (x) = F
σX
Função Q: Q(x) = 1 − F (x)
√
Função erro: erf(x) = 1 − 2Q 2x
√
Função erro complementar: erfc(x) = 2Q 2x
73 / 247
MP
10.5. IMPORTANT PDFS 297

Exemplos de PDFs gaussianas e realizações das VAs correspondentes
4\
si
<v 2
o 1
o • f:ILt*^T^ . • l , , | t Tl J l Tj
-21-
-3
-4
-5
10 15 20 25 30
Trial number
( a ) / ^ = 0,^2 = 1 (b) /i = 0,0-2 = 1
10 15 20
Trial number
(c)Ai = 2,cr2 = l {d)f, = 2,a^ = l
Figure 10.8: Examples of Gaussian PDF with different //'s. 74 / 247

MP
298 CHAPTER 10. CONTINUOUS RANDOM VARIABLES
Exemplos de PDFs gaussianas e realizações das VAs correspondentes
4Y
si
o 1
o . 1 tftT.tT,^^i^.t^Ttl .f I;
o_i
-21-
-3^
-4\
-5
10 15 20 25 30
Trial number
(a) /i = 0, o-^ = 1 (b) fx = 0,a^ = 1
0.5 5
4
0.4 3
a; 2
:o.3^
8 ' [..TII
liTl
-§ 0 :
0.2
0.1
o_i
-2 i^;l:i l;'*|]i
-3
-5 10 15 20 25 30
Trial number
(c) /i = 0, o-^ = 2 (d) n = 0,a^ = 2
Figure 10.9: Examples of Gaussian PDF with different cr^'s. 75 / 247

MP
Exemplo de CDF gaussiana (normal padrão)
Figure 10.16: CDF for standard normal or Gaussian random variable.

F (1)10.16:
Exemplos: Figure (PDF CDF da esquerda)
for standard or Q(1)
normal e Gaussian(PDF
random da direita)
variable.
0.5
0.5
0.4
0.4
•* I
0.2 [
•* I
o.n
0.2 [
o.n
-4 -3 -2 -1 0 1
X
(a) Shaded area = $(1) -4 - 3(b) -Shaded

2 -1 area0 = Q(l)
1
X
Figure
(a) Shaded area10.17:
= $(1)Definitions of ^(x) and Q{x) functions.
(b) Shaded area = Q(l)
76 / 247
MP
Exemplo de tabela da normal padrão
77 / 247
MP
Some examples of the evaluation of the CDF are given next.
A
10.6.1 Uniform
Using (10.6) we have
Uniforme: X ∼ U (a, b) r 0 X< a

Fx{x) = { fnir^dt a<x<b
Ja b—a
1
fX (x) = [u(x − a) − u(x − b)], b > a1 x>b
b−a which is
Ex.: quantização
296 CHAPTER 10. CONTINUOUS RANDOM
^(x-a)
{ 0 x<a
VARIABLES
PDF (esquerda, VA X ∼ U (1, 3)) & CDF (direita, VA Xa<x<b
∼ U (1, 2))
1 x>b.
0.6 An example is shown in Figure
0.6 10.14 for a = 1 and 6 = 2.
1.2[
0.5 ^ 1 0.5
1 1 : : :
^0.41-I i i : .: ; ^ 0 . go.4
81-
i
1 1 : : :
51,0.3 ^HO.S
i : 1 : : : 1
0.2 h^ f 1 • . : 0.41-0.2
i i ; : :
o.nr •
1 1 ; : :
0.2 0.1
i i ': ': ':

3 4 -1 3 4 5
X X
(a) a = 1,6 = 3 Figure 10.14: CDF for uniform(b)random variable

a = 1,6 = 6 over interval (1,2).
Figure 10.7: Examples of uniform PDF.

10.6.2 Exponential 78 / 247
MP
Exponencial: X ∼ exp(a, b)
(x−a)
e− b 10.6. CUMULATIVE DISTRIBUTION FUNCTIONS 3
fX (x) = u(x − a), b>0
b
so that
Ex.: potência de sinal refletido em avião, recebido
0 por radar
x<0
Fx{x) =
1 — exp(—Aa;) a; > 0.
10.An example 1 in Figure
is RANDOM
shown 10.15 for AX= ∼
1.
294 PDF (VACHAPTER
X ∼ exp(0,CONTINUOUS
1), exp(0, 2
VARIABLES
)) & CDF (VA exp(0, 1))
Figure 10.6: Exponential PDF.

Figure 10.15: CDF for exponential random variable with A = 1.
value. It is the area under the PDF that cannot exceed one. As expected px(x) > 0
for —(X) < a; < 00 and Note that for the uniform and
exponential random variables the CDFs are co
OO tinuous
pCX) even though the PDFs are discontinuous. This property motivates an
79 / 247
MP
De Laplace
q
1
− 2
σ2
|x−X |
X
fX (x) = p e
2
2σX
Exs.: modelo para amplitude de sinais de fala
80 / 247
MP

Exemplos de PDFs de Laplace e realizações das VAs correspondentes
,JT..I^.IIIIJI.1 I
0_1 jliU
-2^
-3[
-5
0 10 15 20 25 30
Trial number
(a) a^ = 1 (b) a' = 1
"^1
0.8 h Sh
a; 2h
S 1
iJ.r:,T.::r
0.6 h
.J
H nil
II
o 1r
0.4 F
o_i
0.2 h
-si
-AY
-5^ 10 15 20 25 30
Trial number
(c)a^=4 (d) a' =4
Figure 10.10: Examples of Laplacian PDF with diflFerent cr^'s. 81 / 247

MP
De Rayleigh
2
2(x − a) − (x−a)
fX (x) = e b u(x − a), b>0
b
Exs.: erro em sistemas de medida; envoltória de ruído após passa-faixa
10.6. CUMULATIVE DISTRIBUTION FUNCTIONS 303

PDF para uma VA de Rayleigh com parâmetros (a, b) = (0, 1)
Figure 10.13: Rayleigh PDF with a^ = 1.
82 / 247
MP
Gama: X ∼ Γ(α, λ)
(
λα
Γ(α)
xα−1 e−λx , x≥0
fX (x) = , onde λ > 0 e α > 0
0, x<0
Z ∞
Função gama (fator de normalização): Γ(z) = tz−1 e−t dt
0
Propriedades:
Γ(z + 1) = zΓ(z)
Γ(N )= (N − 1)! para N ∈ N
√
Γ 21 = π
1

Γ(1, λ) ≡ exp 0, λ
(exponencial é um caso particular da gama)
83 / 247
MP

Exemplos de PDFs gama
1.5
B 1 A = : ^ 1t
0.5 h
X = 1
- 2 - 1 0 1 2 3 4 5
X
(a) A = 1 (b) a = 2
Figure 10.12: Examples of Gamma PDF.
Property 10.4 - r{N) = {N - 1)!

Proof: Follows from Property 10.4 with z = N — I since
T{N) = {N-l)r{N-l)
= {N-l){N-2)r{N-3) (let z = N-2now)
= {N-1){N-2)...1 = {N-1)\ 84 / 247
MP

Chi-Quadrado de ordem N : X ∼ χ2N ≡ Γ N
2
, 1
2
N x
x 2 −1 e− 2 ,
( 1
N x≥0
fX (x) = 2 2 Γ( N
2 )
0, x<0
Ex.: soma dos quadrados de N VAs independentes com PDF N (0, 1)
85 / 247
MP
Erlang de ordem N : X ∼ Γ (N, λ)

(
λN
(N −1)!
xN −1 e−λx , x≥0
fX (x) = , onde λ > 0 e N ∈ N
0, x<0
Ex.: soma de N VAs independentes com PDF exp(0, λ);
estimar tempo entre chamadas telefônicas
86 / 247
MP
Distribuições Discretas
Binomial
N
X N
fX (x) = pk (1 − p)N −k δ(x − k)
k
k=0
Exs.: jogos de azar; detecção por radar/sonar
87 / 247
MP
Distribuições Discretas
De Poisson
∞
X bk
fX (x) = e−b δ(x − k), b>0
k!
k=0
Exs.: unidades defeituosas na produção;
chamadas telefônicas num dado intervalo

N →∞
Binomial com : N = Np = b
p→0
N
num intervalo T , taxa λ = ⇒ b = λT
T
88 / 247
MP
Distribuição Condicional
Funções associadas:
P ({X ≤ x} ∩ B)
FX (x|B) = P {X ≤ x|B} =
P (B)
dFX (x|B)
fX (x|B) =
dx
CDF e PDF têm as mesmas propriedades de antes
89 / 247
MP
Evento condicionante = intervalo

B = {a < X ≤ b}

0,
 x≤a
FX (x)−FX (a)
FX (x|a < X ≤ b) = FX (b)−FX (a)
, a<x≤b

1, x>b
(
0, x ≤ a ou x > b
fX (x|a < X ≤ b) = Rb fX (x)
, a<x≤b
fX (x)dx
a
90 / 247
MP
Exemplo
Problema
Uma variável aleatória (VA) gaussiana X tem média zero e variância
unitária. Descreva analiticamente a PDF da VA X restrita ao intervalo
(−1, 1), isto é fX (x| − 1 < X < 1), e esboce seu gráfico.
91 / 247
MP
Exemplo
Note que, como X é VA contínua (implica P (X = 1) = 0), podemos escrever
fX (x) [u(x + 1) − u(x − 1)]

fX (x| − 1 < X < 1) =
P (−1 < X < 1)
fX (x) [u(x + 1) − u(x − 1)]
=
P (−1 < X ≤ 1)
fX (x) [u(x + 1) − u(x − 1)]
= ,
F (1) − F (−1)
onde, pela tabela, F (1) ≈ 0,8413 e F (−1) = 1 − F (1). Logo,
x2
e− 2
fX (x| − 1 < X < 1) ≈ √ [u(x + 1) − u(x − 1)]
0,6826 2π
x2
≈ 0,5844e− 2 [u(x + 1) − u(x − 1)] .
92 / 247
MP
Exemplo
Problema
A tensão na entrada do receptor de um sistema de comunicação binária
digital é modelada por uma variável aleatória X. Quando o bit 1 é
transmitido, X é gaussiana com média m (em V) e variância σ 2 (em V2 );
quando o bit 0 é transmitido, X é gaussiana com média −m e variância σ 2 .
A probabilidade de que o bit 1 seja transmitido é 40%.
1 Determine as expressões de FX (x|T 0) e FX (x|T 1) em função de m e σ,
onde T 0 e T 1 são os eventos que indicam as transmissões dos bits 0 e 1,
respectivamente.
93 / 247
MP
Exemplo
1 Quando sabemos que o evento T 0 “ocorreu”, a VA X é uma gaussiana

com média −m (em V) e variância σ 2 (em V2 ). Sendo assim, temos
Z x (y+m)2
1 −
FX (x|T 0) = √ e 2σ 2 dy.
2πσ −∞
Analogamente, quando sabemos que o evento T 1 “ocorreu”, a VA X é

uma gaussiana com média m (em V) e variância σ 2 (em V2 ). Sendo
assim, temos
Z x (y−m)2
1 −
FX (x|T 1) = √ e 2σ 2 dy.
2πσ −∞
94 / 247
MP
Exemplo
Problema
2 O receptor decide se chegou um bit 0 ou um bit 1 com base no valor
medido X = x. É comum nas aplicações práticas que essa decisão seja

tomada comparando-se o nível do sinal recebido com um limiar de
decisão λ (em V) pré-fixado:
quando x ≤ λ, decide-se pelo bit 0 (evento R0);
quando x > λ, decide-se pelo bit 1 (evento R1).
1 Determine as probabilidades P (R1|T 0) e P (R0|T 1) em função de
FX (·|T 0), FX (·|T 1) e λ.
2 Determine a probabilidade de erro de bit.
95 / 247
MP
Exemplo
2 1 Uma vez que P (R1|T 0) = 1 − P ({X ≤ λ}|T 0) e

P (R0|T 1) = P ({X ≤ λ}|T 1), temos
P (R1|T 0) = 1 − FX (λ|T 0)
P (R0|T 1) = FX (λ|T 1)
2 Do enunciado, sabemos que P (T 0) = 0,6 e P (T 1) = 0,4. Sendo assim, o
evento E relacionado ao erro de bits do sistema tem a seguinte
probabilidade de ocorrência:
P (E) = P (R1|T 0)P (T 0) + P (R0|T 1)P (T 1)
P (E) = P (T 0) − P (T 0)FX (λ|T 0) + P (T 1)FX (λ|T 1)
96 / 247
MP
Exemplo
Problema
3 Encontre o limiar ótimo λo que minimiza a probabilidade de erro de bit
do item b.II) em função de m e σ.
97 / 247
MP
Exemplo
3 O limiar ótimo pode ser encontrado derivando-se a expressão

encontrada para P (E) e igualando-se o resultado a zero. Assim, temos:
dP (E)
= −P (T 0)fX (λ|T 0) + P (T 1)fX (λ|T 1)
dλ
2 2
P (T 0) − (λ+m) P (T 1) − (λ−m)
= −√ e 2σ 2 + √ e 2σ 2 ,
2πσ 2πσ
logo

dP (E) − 1 [(λ +m)2 −(λo −m)2 ] P (T 1) 2λo m P (T 0)
= 0 ⇔ e 2σ2 o = ⇔ = ln ,
dλ λ P (T 0) σ2 P (T 1)
o
portanto, temos:
σ2
λo ≈ 0,2027
m
98 / 247
MP
Exemplo
Problema
4 O parâmetro m está ligado à potência do sinal transmitido, e o
parâmetro σ 2 , à potência do ruído do canal de comunicação. O
projetista do sistema tem controle sobre o primeiro (que idealmente
deve ser minimizado), mas não sobre o segundo. Suponha que σ 2 = 2
V2 . Encontre o menor valor do parâmetro m para garantir que a
probabilidade de X ≤ 0 seja menor que 0,2%, caso tenha sido
transmitido um bit 1. Esboce as PDFs fX (x|T 0) e fX (x|T 1) no mesmo
gráfico, marcando sobre ele o limiar ótimo.
99 / 247
MP
Exemplo
4 Quanto maior for m, menor será a probabilidade de termos X ≤ 0,

caso tenha sido transmitido um bit 1. Sendo assim, o menor m será
aquele em que a probabilidade de termos X ≤ 0 caso tenha sido
um bit 1 (= FX (0|T 1)) é 0,2%. Como FX (0|T 1) =
transmitido
F 0−m = F (−m/σ) = 1 − F (m/σ) = 0,002 ⇔ F (m/σ) = 0,998,
σ √
então m/σ = 2,88. Como σ = 2 V, então m ≈ 4,07 V. Com esses
valores de m e σ 2 , temos λo ≈ 0,1.
100 / 247
MP
Exemplo
0.35
0.3
PDFs de X dado T0 e dado T1
0.25
Limiar
0.2
0.15
0.1
0.05
0
−10 −8 −6 −4 −2 0 2 4 6 8 10
X=x (em V)
101 / 247
MP
Operações sobre Variável Aleatória
Média Estatística
Valor esperado de X
Z ∞
Definição: E[X] = X = x fX (x)dx
−∞
N
X
Para variável aleatória discreta: E[X] = xi P (xi )
i=1
Z ∞
Generalização: E[g(X)] = g(x) fX (x)dx
−∞
Z ∞
Média condicional: E[X|B] = x fX (x|B)dx
−∞
Rb
x fX (x)dx
Se B = {a < X ≤ b}: E[X|a < X ≤ b] = Ra b
a X
f (x)dx
102 / 247
MP
Momentos
em torno da origem:
Definição: mn = E[X n ]
m1 = X: média
m2 = X 2 : valor quadrático médio
centrais (em torno da média):

Definição: µn = E[(X − X)n ]
2
µ2 = σ X : variância; σX : desvio padrão
µ3
µ3 −→ 3 : obliquidade/assimetria (skewness)
σX
µ4
µ4 −→ 4 − 3: curtose
σX
2 2
Relação importante: σX = X 2 − X (“potências”)
103 / 247
MP
Exemplo
Problema
Uma caixa contém 4 bolas numeradas de 1 a 4. Uma pessoa retira uma
bola e a devolve, retira outra e a devolve, continuando esse processo até
retirar uma bola que já foi retirada anteriormente. Seja N uma variável
aleatória que indica o número total de retiradas necessárias para obter essa
repetição.
1 Para cada n ∈ {2, 3, 4, 5}, determine P (N = n).
2 Determine a expressão de fN (n).
3 Determine a expressão de FN (n).
4 Calcule N .
5 Calcule o desvio-padrão da variável aleatória N .
6 Calcule a probabilidade de N ser menor ou igual a 4.
104 / 247
MP
Exemplo
1
4 1 1 8
P (N = 2) = × = =
4 4 4 32
4 3 2 3 12
P (N = 3) = × × = =
4 4 4 8 32
4 3 2 3 9
P (N = 4) = × × × =
4 4 4 4 32
4 3 2 1 4 3
P (N = 5) = × × × × =
4 4 4 4 4 32
2
8δ(n − 2) + 12δ(n − 3) + 9δ(n − 4) + 3δ(n − 5)

fN (n) =
32
3
8u(n − 2) + 12u(n − 3) + 9u(n − 4) + 3u(n − 5)

FN (n) =
32
105 / 247
MP
Exemplo
8 × 2 + 12 × 3 + 9 × 4 + 3 × 5
N= ≈ 3,2188
32
5 Calculemos primeiramente N 2 :
8 × 22 + 12 × 32 + 9 × 42 + 3 × 52
N2 = ≈ 11,2188.
32
2 2
Portanto, σN = N 2 − N ≈ 11,2188 − (3,2188)2 ≈ 0,8584. Logo, o
desvio-padrão da VA N é σN ≈ 0,9265.
6 Basta calcularmos FN (4). Sendo assim,
8 + 12 + 9
FN (4) = ≈ 90,62%.
32
106 / 247
MP
Funções Geradoras de Momentos
Função geradora de momento

Definição: MX (ν) = E[eνX ], ν∈R

dn MX (ν)
Uso: mn =

dν n
ν=0
Função característica
Definição: ΦX (ω) = E[ejωX ], ω∈R
n

d ΦX (ω)
Uso: mn = (−j)n dω n
ω=0
107 / 247
MP
Desigualdades Úteis
Limitantes para evitar cálculo de probabilidades

2
σX
Chebyshev: P {|X − X| ≥ } ≤ , ∀ > 0
2
X
Markov: P {X ≥ a} ≤ , ∀a > 0 (para variáveis X ≥ 0)
a
−νa
Chernoff: P {X ≥ a} ≤ e MX (ν), ∀ν ≥ 0
Limite de Chernoff: min{e−νa MX (ν)}
ν
108 / 247
MP
Exemplo
Problema
Seja X uma variável aleatória binomial com PDF
N
X N
fX (x) = pk (1 − p)N −k δ(x − k), N ≥ 2, p > 0.
k
k=0
1 Utilize a função geradora de momentos para calcular a média de X.

2 Utilize a função geradora de momentos para calcular a variância de X.
3 O que o limite de Chernoff pode informar sobre a probabilidade de
X ≥ X? Justifique.
109 / 247
MP
Exemplo
Note que
N
X N
MX (ν) = (peν )k (1 − p)N −k = [peν + (1 − p)]N .
k
k=0
Portanto,
ṀX (ν) = N peν [peν + (1 − p)]N −1 ⇒ X = ṀX (0) = N p,
o que responde o item (a) e
M̈X (ν) = N peν [peν + (1 − p)]N −1 + N (N − 1)p2 e2ν [peν + (1 − p)]N −2

⇒ X 2 = M̈X (0) = N 2 p2 + N p(1 − p),
2 2
de forma que σX = X 2 − X = N p(1 − p), o que responde o item (b).
110 / 247
MP
Exemplo
Quanto ao item (c), seja LX (ν) = e−N pν MX (ν). Note que
L̇X (ν) = −N pe−N pν [peν + (1 − p)]N + e−N pν N peν [peν + (1 − p)]N −1 .
Observe que L̇X (ν) = 0 se e somente se
−peν − (1 − p) + eν = 0 ⇔ ν = 0.
Portanto, o limite de Chernoff é dado por LX (0) = e−N p·0 MX (0) = 1, de

forma que ele não traz nenhuma informação adicional sobre P {X ≥ X}.
111 / 247
MP
Transformação de Variável Aleatória
Distribuição de Y = T (X) a partir da distribuição de X

Princípio: FX (x) −→ FY (y)
X f (x )
X
Pelas PDFs: fY (y) = dT (x) n , sendo y = T (xn )

n dx x=xn
Para variável
X aleatória discreta:
fY (y) = P (yi )δ(y − yi ),
i
X
sendo yi = T (xin ) e P (yi ) = P (xin )
n
112 / 247
MP
Exemplo
Problema
A tensão sobre um resistor é modelada como uma variável aleatória E
uniformemente distribuída entre 5 e 10 V. Sabendo que a potência (em
Watts) dissipada no resistor é
E2
W = ,
r
com r = 1000 Ω, determine:
1 A PDF fE (e).
2 O valor esperado E.
3 A PDF fW (w).
2
4 O valor esperado W . Compare o valor obtido com E /r.
5 O desvio-padrão da variável aleatória W .
113 / 247
MP
Exemplo
1 fE (e) = 51 [u(e − 5) − u(e − 10)].

2 Por simetria, tem-se que E = 7,5 V. Poderíamos também aplicar a
definição de valor esperado da seguinte forma:
+∞ 10
e2 10
Z Z
1 (10 − 5)(10 + 5)

E= efE (e)de = ede = = = 7,5.
−∞ 5
5 10 5 10
2 √
3 Como W = Er , então E = ± rW . Uma vez que a tensão está restrita
ao intervalo [5, 10] em Volts, então a potência estará restrita ao
1 1
intevalo [ 40 , 10 ] em Watts. Considerando também que
r
dw e 4w w
q
=2 =± =± ,
de r r 250
114 / 247
MP
Exemplo
1 1
temos que, para w ∈ [ 40 , 10
],
√ √ r
fE ( rW ) fE (− rW ) 1/5 10
fW (w) = p w
+ p w
= p w
= ,
| | |− | w
250 250 250
√
uma vez que fE (− rW ) = 0. Portanto,
r
10 1 1
h i
fW (w) = u w− −u w− .
w 40 10
4
Z +∞ Z 1 r
10 10
W = wfW (w)dw = w dw
−∞ 1 w
40
+∞ 10
e2 1 e2
Z Z
= fE (e)de = de
−∞
r 5
5 1000
1 10 1000 − 125

= e3 = ≈ 0,0583.
15000 5 15000
115 / 247
MP
Exemplo
2
Note que E /r = (7)2 /1000 ≈ 0,0563. Isso ocorre porque, embora a
potência seja uma função da tensão, há distorções durante a conversão
entre as PDFs de E e W .
5 Calculemos primeiramente W 2 :
Z +∞ Z 1 r
2
10
2 10
W2 = w fW (w)dw = w dw
−∞ 1 w
40
1
√ √ 2 5/2 10
1
Z
10
= 10 w3/2 dw = 10 w ≈ 0,0039.
1 5 1
40
40
Isso implica que

2
σW2
= W 2 − W ≈ 0,0039 − (0,0583)2 ≈ 4,72.10−4 ⇒ σW ≈ 0,0217 (em
Watts).
116 / 247
MP
Exemplo
Problema
Uma partícula de massa não-nula deixa a origem com uma velocidade
vetorial com magnitude v > 0 e ângulo Θ.
g
v ⇥
0
D
A única força que atua sobre a partícula é a gravidade. O ponto onde a

partícula atinge o solo dista
v2
D= sen(2Θ)
g
da origem, onde g > 0 é a aceleração da gravidade. Assuma que Θ é uma
variável aleatória uniforme entre 0 e π2 .
117 / 247
MP
Exemplo
Problema
g
v ⇥
0
D
1 Desenhe a PDF fΘ (θ) e descreva-a analiticamente.

2 Calcule Θ.
3 Calcule D utilizando explicitamente fΘ (θ).
4 Desenhe a PDF fD (d) e descreva-a analiticamente.
5 Calcule D utilizando explicitamente fD (d).
2
6 Calcule σD .
118 / 247
MP
Exemplo
2
π

1 fΘ (θ) = π
u(θ) − u θ − 2
π
2 Θ= 4
π π
v2 v2 2 v2 1 2v 2
R
3 E[D] = g
E[sen(2Θ)] = g π 0
2
sen(2θ)dθ = g π
[−cos(2θ)]02 = πg
4 Note que d = T (θ) e q
2v 2 v2
2 v2
2
T 0 (θ) = g
cos(2θ) = ±2 g
− g
sen2 (2θ), de forma que, para
q 2
v2
θ entre 0 e π
2
, temos T 0 (T −1 {d}) = 2 g
− d2 ou
q
v2 2
T 0 (T −1 {d}) = −2
π
g
− d2 . Portanto, para θ entre 0 e 2
, temos d
2
v
variando de 0 a g
e
2 2
π π 2
fD (d) = q + q = q 2 ,
v2 2 v2 2 v2

− d2

− π
−2 − d2
2 d 2
g g g
119 / 247
MP
Exemplo
enquanto que, para os demais valores de θ, temos

fΘ (θ) = 0 ⇒ fD (d) = 0. Portanto,

2 v2
fD (d) = q u(d) − u d − (desenhar).
v2
2 g
π g
− d2
s  vg2
v2 2
2v 2
Z
g 2d 2 v2
E[D] = q dd = − − d2  =
v2 2
π g πg
0 π g
− d2 0
π
v4 v4 1 v4
R
6 E[D2 ] = g2
E[sen2 (2Θ)] = g2 π
2
0
[1 − cos(4θ)]dθ = 2g 2
2
⇒ σD =

v4 π 2 −8
g2 2π 2
120 / 247
MP
Geração de Variável Aleatória com Dada Distribuição
Amostras y de Y dada a partir de amostras x de X uniforme em [0, 1)

FX (x) = x em [0, 1)
Hipótese: Existe Y = T (X) monotonicamente não-decrescente
FY (y = T (x)) = FX (x) ⇒ y = T (x) = FY−1 (x)
Restrição: FY (y) inversível
Como fica o caso geral ‘X qualquer’?
121 / 247
MP
Variáveis Aleatórias Múltiplas
Variável Aleatória Múltipla (Vetorial)
Obs.: Desenvolvimentos para 2 variáveis, por simplicidade
Construção
Mapeamento de cada resultado de um experimento aleatório
em mais de um valor real: s → (X(s), Y (s))
Múltiplas variáveis aleatórias (X(s) e Y (s)) descritas conjuntamente
Se A = {X ≤ x} e B = {Y ≤ y},
A ∩ B = {X ≤ x, Y ≤ y} é evento conjunto
Extensível para qualquer ordem N : s → (X1 (s), X2 (s), . . . , XN (s))
122 / 247
MP
Distribuição de Probabilidade Acumulada Conjunta
Definições e propriedades
CDF conjunta: FX,Y (x, y) = P {X ≤ x, Y ≤ y}
FX,Y (−∞, −∞) = FX,Y (−∞, y) = FX,Y (x, −∞) = 0
FX,Y (∞, ∞) = 1
0 ≤ FX,Y (x, y) ≤ 1
FX,Y (x, y) é não-decrescente em x e y
P {x1 < X ≤ x2 , y1 < Y ≤ y2 } =
FX,Y (x2 , y2 ) + FX,Y (x1 , y1 ) − FX,Y (x1 , y2 ) − FX,Y (x2 , y1 ) ≥ 0
123 / 247
MP
Distribuição de Probabilidade Acumulada Conjunta
CDFs marginais:
FX,Y (x, ∞) = FX (x)
FX,Y (∞, y) = FY (y)
variáveis aleatórias discretas:
N M
X X
FX,Y (x, y) = P (xn , ym )u(x − xn )u(y − ym )
n=1 m=1
extensão para N variáveis:
FX (x) = FX1 ,X2 ,...,XN (x1 , x2 , . . . , xN ) = P {X1 ≤ x1 , X2 ≤ x2 , . . . , XN ≤ xN }
124 / 247
MP
Densidade de Probabilidade Conjunta

∂ 2 FX,Y (x, y)
PDF conjunta: fX,Y (x, y) =
∂x∂y
fX,Y (x, y) ≥ 0
Z ∞ Z ∞
fX,Y (x, y)dxdy = 1
−∞ −∞
Z y Z x
FX,Y (x, y) = fX,Y (ξ1 , ξ2 )dξ1 dξ2
Z x Z−∞∞ −∞
FX (x) = fX,Y (ξ1 , y)dydξ1

Z −∞ −∞
y Z ∞
FY (y) = fX,Y (x, ξ2 )dxdξ2
−∞ −∞
Z y2 Z x2
P {x1 < X ≤ x2 , y1 < Y ≤ y2 } = fX,Y (x, y)dxdy
y1 x1
125 / 247
MP
Densidade de Probabilidade Conjunta

PDFs marginais:
Z ∞
fX (x) = fX,Y (x, y)dy
Z −∞
∞
fY (y) = fX,Y (x, y)dx
−∞
N M
X X
fX,Y (x, y) = P (xn , ym )δ(x − xn )δ(y − ym )
n=1 m=1
extensão para N variáveis:
∂ N FX1 ,X2 ,...,XN (x1 , x2 , . . . , xN )
fX (x) = fX1 ,X2 ,...,XN (x1 , x2 , . . . , xN ) =
∂x1 ∂x2 . . . ∂xN
PDF marginal entre N variáveis: Z ∞ Z ∞
fX1 ,...,Xk (x1 , . . . , xk ) = ··· fX1 ,...,XN (x1 , . . . , xN )dxk+1 . . . dxN
−∞ −∞
126 / 247
MP
Condição pontual
Rx Rx
−∞
fX,Y (ξ, y)dξ −∞
fX,Y (ξ, y)dξ
FX (x|Y = y) = FX (x|y) = R ∞ =
fX,Y (x, y)dx fY (y)
−∞
fX,Y (x, y)
fX (x|Y = y) = fX (x|y) =
fY (y)
N
X
FX (x|yk ) = P (xi |yk )u(x − xi )
i=1
N
X
fX (x|yk ) = P (xi |yk )δ(x − xi )
i=1
P (xi , yk )
P (xi |yk ) =
P (yk )
127 / 247
MP
Condição intervalar
FX,Y (x,yb )−FX,Y (x,ya ) FX,Y (x,yb )−FX,Y (x,ya )
FX (x|ya < Y ≤ yb ) = FX,Y (∞,yb )−FX,Y (∞,ya )
= FY (yb )−FY (ya )
R yb R yb
fX,Y (x,y)dy fX,Y (x,y)dy
fX (x|ya < Y ≤ yb ) = R yb Rya∞ = yRa yb
fX,Y (x,y)dxdy fY (y)dy
ya −∞ ya
128 / 247
MP
Independência Estatística
Variáveis aleatórias independentes

X e Y são estatisticamente independentes ⇔
FX,Y (x, y) = FX (x)FY (y).
fX,Y (x, y) = fX (x)fY (y).
FX (x|condição em y) = FX (x).
fX (x|condição em y) = fX (x).
FY (y|condição em x) = FY (y).
fY (y|condição em x) = fY (y).
A extensão para X1 , X2 , . . . , XN é imediata.
129 / 247
MP
Soma de variáveis aleatórias independentes
Para duas VAs independentes, com Y = X1 + X2 , tem-se:
Z ∞ Z y−x2
FY (y) = P {X1 ≤ y − X2 } = fX1 ,X2 (x1 , x2 )dx1 dx2
−∞ −∞
Z ∞ Z y−x2
= fX2 (x2 ) fX1 (x1 )dx1 dx2
−∞ −∞
⇓
Z ∞
fY (y) = fX2 (x2 )fX1 (y − x2 )dx2
−∞
A extensão para X1 , X2 , . . . , XN é:
N
X
Y = Xn ⇒ fY (y) = (fX1 ∗ fX2 ∗ · · · ∗ fXN )(y)
n=1
130 / 247
MP
Exemplo
Problema
O último ônibus do BRT chega no Terminal Aroldo Melodia (Fundão) e
para por 5 min antes de prosseguir. O instante de chegada do ônibus,
contado a partir das 22h30, pode ser modelado por uma variável aleatória
X (em minutos). Considere que o instante de chegada de um estudante da
UFRJ no terminal em questão, também contado a partir das 22h30, seja
uma variável aleatória Y (em minutos) e que a distribuição conjunta de tais
variáveis seja
fX,Y (x, y) = 0,06e−(0,15x+0,4y) u(x)u(y).
1 Encontre as distribuições marginais de X, fX (x), e de Y , fY (y).

2 Encontre as distribuições condicionais pontuais de X, fX (x|Y = y), e
de Y , fY (y|X = x).
3 As variáveis X e Y são estatisticamente independentes? Justifique.
4 Calcule a probabilidade de o ônibus chegar antes de 22h50.
131 / 247
MP
Exemplo
fX,Y (x, y) = 0,06e−(0,15x+0,4y) u(x)u(y).
R∞
1 fX (x) = −∞
fX,Y (x, y)dy = 0,15e−0,15x u(x) e fY (y) = 0,4e−0,4y u(y).
2 fX (x|Y = y) = fX,Y (x, y)/fY (y) = fX (x) e
fY (y|X = x) = fX,Y (x, y)/fX (x) = fY (y).
3 Sim, pois fX,Y (x, y) = fX (x)fY (y).
R 20
4 Basta calcular P {X < 20} = 0
0,15e−0,15x dx = 1 − e−3 ≈ 0,95.
132 / 247
MP
Exemplo
Problema
variáveis seja
fX,Y (x, y) = 0,06e−(0,15x+0,4y) u(x)u(y).
5 Calcule o horário máximo que o estudante pode chegar no terminal e

ainda garantir que sua probabilidade de pegar o ônibus seja, pelo
menos, 50%.
6 Calcule a probabilidade de o estudante pegar o ônibus.
7 Encontre a distribuição da variável aleatória W = X − Y , fW (w).
133 / 247
MP
Exemplo
5 Tal horário será 22h30min +ymax , onde ymax pode ser calculado a
partir de P {X + 5 > ymax } ≥ 0,5. Portanto, ymax ≤ 9,62 min, ou seja,
o horário máximo seria 22 horas e 39,62 minutos.
R ∞ R x+5
6 Basta calcular P {X + 5 ≥ Y } = 0 0
fX,Y (x, y)dydx ≈ 0,963.
7 Note que W = X + Y , onde Y = −Y e fY 0 (y 0 ) = fY (−y 0 ). Note
0 0
também que X e Y 0 são VAs independentes. Logo, tem-se:

Z ∞
fW (w) = (fX ∗ fY 0 )(w) = fX (τ )fY 0 (w − τ )dτ
−∞
Z ∞
= 0,06e−[0,15τ +0,4(τ −w)] u(τ )u(τ − w)dτ
−∞
Z ∞
=e 0,4w
0,06e−0,55τ dτ
max{0,w}
(
0,06 0,4w
0,55
e , w<0
= 0,06 −0,15w .
0,55
e , w≥0
134 / 247
MP
Exemplo
Problema
variáveis seja
fX,Y (x, y) = 0,06e−(0,15x+0,4y) u(x)u(y).
8 Dado que o ônibus não chega antes do (sortudo) estudante, encontre a

distribuição do tempo de espera pela chegada do ônibus,
fW (w | W ≥ 0).
9 Calcule o tempo médio de espera pela chegada do ônibus, dado que o
ônibus não chega antes do estudante no terminal (W ≥ 0).
135 / 247
MP
Exemplo
8 Tem-se

0, w<0
fW (w | W ≥ 0) = .
fW (w)/P {W ≥ 0} = 0,15e−0,15w , w≥0
R∞ 1
9 W |W ≥ 0 = 0
wfW (w | W ≥ 0)dw = 0,15
≈ 6,66 min.
136 / 247
MP
Operações sobre Variáveis Aleatórias Múltiplas
Momentos conjuntos
Valor esperado
Z ∞ Z ∞
E[g(X1 , · · · , XN )] = ··· g(x1 , . . . , xN )fX1 ,...,XN (x1 , . . . , xN )dx1 . . . dxN
−∞ −∞
Momentos em torno da origem

Definição para 2 variáveis: mnk = E[X n Y k ], ordem n + k
Extensão para N variáveis imediata
m11 = E[XY ] = RXY : correlação
RXY = 0: X e Y ortogonais
RXY = X Y : X e Y descorrelacionadas
Independência ⇒ descorrelação
137 / 247
MP
Momentos conjuntos
Momentos centrais (em torno da média)

Definição para 2 variáveis: µnk = E[(X − X)n (Y − Y )k )], ordem n + k
Extensão para N variáveis imediata
µ11 = E[(X − X)(Y − Y )] = CXY : covariância
CXY = RXY − X Y
CXY = 0: X e Y descorrelacionadas

CXY X −X Y −Y
ρXY = =E · : coeficiente de correlação
σX σY σX σY
Fato: −1 ≤ ρXY ≤ 1 2
X−X Y −Y
Para provar, use g(X, Y ) = σX ± σY
138 / 247
MP
Função Geradora de Momentos
Função característica
ΦX1 ,...,XN (ω1 , . . . , ωN ) = E[ejω1 X1 +···+jωN XN ]
∂ n1 +···+nN ΦX1 ,...,XN (ω1 , . . . , ωN )
mn1 ,...,nN = (−j)n1 +···+nN nN
∂ω1n1 · · · ∂ωN
139 / 247
MP
Teorema Central do Limite ou Teorema do Limite Central
TCL
N
X
Sendo YN = Xn , com Xn independentes, lim YN → gaussiana
N →∞
n=1
Também se aplica para certos casos de variáveis aleatórias dependentes
Condições conjuntamente suficientes:
2
σX > B1 > 0
n
E[|Xn − Xn |3 ] < B2 > 0
Caracteriza aproximadamente a CDF, mas não necessariamente a
PDF. Ex.: caso discreto
Utilidade: N elevado
O erro aumenta longe da média
140 / 247
MP
Exemplo
Problema
2
Considere uma variável aleatória X com média X e variância σX = 1.
Dispõe-se de N amostras de X, denotadas por x1 , x2 , · · · , xN , obtidas
independentemente. Estime o valor necessário de N para que a média
amostral
N
P
xn
n=1
x̂ =
N
esteja numa faixa de ±0,098 em torno de X com 95% de segurança, isto é,
ˆ − X| ≤ 0,098] = 0,95.
P [|X
Dica: Para obter a estimativa de N , determine uma aproximação para a

PDF f ˆ (x̂) utilizando o Teorema Central do Limite.
X
141 / 247
MP
Exemplo
Pelo Teorema Central do Limite, a PDF f ˆ (x̂) pode ser aproximada por uma
X
ˆ ˆ
PDF gaussiana, já que X é uma soma de VAs i.i.d., em que X = X e
σ 2ˆ = σX
2 /N = 1/N . Logo,
X
ˆ
(x−X) 2
1 − 2(1/N )
f ˆ (x̂) ≈ p e .
X 1
2π N
ˆ
Para facilitar, note que Y = X − X é uma VA gaussiana com média zero e
variância 1/N . Queremos calcular N tal que
P [|Y | ≤ 0,098] = P [−0,098 ≤ Y ≤ 0,098] = 0,95. Como
P [−0,098 ≤ Y ≤ 0,098] = P [Y ≤ 0,098] − P [Y ≤ −0,098] e como
P [Y ≤ −0,098] = 1 − P [Y ≤ 0,098], então
P [|Y | ≤ 0,098] = 2P [Y ≤ 0,098] − 1 = 0,95 ⇔ P [Y ≤ 0,098] = 0,975. Uma vez que
!
0,098 − 0 √
P [Y ≤ 0,098] = FY (0,098) = F p = F (0,098 N ) = 0,95,
1/N
√
então, pela tabela da normal padrão, temos 0,098 N ≈ 1,96 ⇔ N ≈ 400.
142 / 247
MP
Variáveis Aleatórias Conjuntamente Gaussianas

Densidade gaussiana bivariável
fX,Y (x, y) = h i
1 (x−X)2 2ρXY (x−X)(y−Y ) (y−Y )2
− − +
1 2(1−ρ2 ) σ2 σX σY σ2
p e XY X Y
2πσX σY 1−ρ2
XY
ρXY = 0 ⇒ fX,Y (x, y) = fX (x)fY (y) (descorrelação ⇒ independência)
N variáveis gaussianas
−1
(x−X)T C (x−X)
X
fX (x) = √ 1
e− 2
(2π)N |CX |
Completamente definidas por seus momentos de 1a. e 2a. ordens

Descorrelação ⇒ independência
Transformação linear também é gaussiana
Marginais são gaussianas
Condicionais pontuais são gaussianas
143 / 247
MP
Transformações
Quaisquer: Y = T(X)
Princípio: FX (x) −→ FY (y)
Se T é inversível, isto é, X = T−1 (Y): ∂X1 ∂X1

∂Y ··· ∂YN

1
. ..
fY (y) = fX (x = T−1 (y))|J(y)|, J(Y) = .. .
∂X ∂XN
N
∂Y1
··· ∂YN
Lineares: Y = TX
Se X tem vetor de médias X e matriz de covariâncias CX :
Y = TX
CY = TCX TT
No caso de X gaussiana, isso determina completamente Y
144 / 247
MP
Variáveis Aleatórias Complexas
Simples
Possível modelo: Z = X + jY com fX,Y (x, y)
Z ∞ Z ∞
Valor esperado: E[g(Z)] = g(z)fX,Y (x, y)dxdy
−∞ −∞
Média: Z = X + jY
2
Variância: σZ = E[|Z − Z|2 ]
145 / 247
MP
Variáveis Aleatórias Complexas
Múltiplas
Duas variáveis:

Zm = Xm + jYm
com fXm ,Ym ,Xn ,Yn (xm , ym , xn , yn )
Zn = Xn + jYn
Zm e Zn independentes:
fXm ,Ym ,Xn ,Yn (xm , ym , xn , yn ) = fXm ,Ym (xm , ym )fXn ,Yn (xn , yn )
∗
Correlação: RZm Zn = E[Zm Zn ]
∗
RZm Zn = Zm Zn : Zm e Zn descorrelacionadas
RZm Zn = 0: Zm e Zn ortogonais
Covariância: CZm Zn = E[(Zm − Zm )∗ (Zn − Zn )]
CZm Zn = 0: Zm e Zn descorrelacionadas
146 / 247
MP
Nome:Exemplo
MODELOS PROBABILÍSTICOS EM ENGENHARIA

Prof. Luiz Wagner – 2013/1
TESTE 5
Problema
• Questão 1: Na variável complexa Z = M ej⇥ , M e ⇥ são variáveis aleatórias reais

mutuamente independentes, com M = 0 e M 2 , ⇥ e 2 conhecidos. Calcule 2 em
⇥ Z
função desses parâmetros.
• Questão 2: As variáveis aleatórias X1 e X2 com PDF conjunta fX1 ,X2 (x1 , x2 ) são
transformadas nas variáveis aleatórias Y1 = aX1 + bX2 e Y2 = cX1 + dX2 . A
transformação é inversı́vel.
(a) Escreva na forma matricial a transformação Y = TX.

(b) Escreva na forma matricial a transformação inversa X = T 1 Y.
(c) Escreva a expressão de fY1 ,Y2 (y1 , y2 ).
@X1 @X1 @X1

···
@Y1 @Y2 @YN 147 / 247
@X @X @X
MP
Nome: Gabarito
Exemplo
MODELOS PROBABILÍSTICOS EM ENGENHARIA
Prof. Luiz Wagner – 2013/1
TESTE 5
• Questão 1: Z2 = E[|Z|2 ] |E[Z]|2 = E[|M ej⇥ |2 ] |E[M ej⇥ ]|2

2
E[|M ej⇥ |2 ] = E[M 2 ] = M
2
+M = M 2
+ 02 = M 2
E[M e ] = E[M ]E[e ] = (0)E[ej⇥ ] = 0

j⇥ j⇥
2 2
Z = M |0|2 = M
2
• Questão 2:
! ! !
Y1 a b X1
(a) =
Y2 c d X2
! ! !
X1 1 d b Y1
(b) =
X2 ad bc c a Y2
d b
ad bc ad bc 1
(c) J = c a =
ad bc
ad bc ad bc ✓ ◆
1 dy1 by2 cy1 + ay2 148 / 247
MP
Questão 1: Na variável complexa Z = M ej⇥ , M e ⇥ são variáveis aleatórias reais
• Exemplo
mutuamente independentes, com M = 0 e M 2 , ⇥ e 2 conhecidos. Calcule 2 em
⇥ Z
função desses parâmetros.
Problema
• Questão 2: As variáveis aleatórias X1 e X2 com PDF conjunta fX1 ,X2 (x1 , x2 ) são
transformadas nas variáveis aleatórias Y1 = aX1 + bX2 e Y2 = cX1 + dX2 . A
transformação é inversı́vel.
(a) Escreva na forma matricial a transformação Y = TX.

(b) Escreva na forma matricial a transformação inversa X = T 1 Y.
(c) Escreva a expressão de fY1 ,Y2 (y1 , y2 ).
@X1 @X1 @X1

···
@Y1 @Y2 @YN
@X2 @X2 @X2
1
···
fY (y) = fX (T (y))|J|, J = @Y1 @Y2 @YN
.. .. .. ..
. . . .
@XN @XN @XN
···
@Y1 @Y2 @YN
!
X1
• Questão 3: A vetor de variáveis aleatórias reais X = é caracterizado por seu
X2
! !
2 CX1 X2
X1 X1
vetor de médias X = e sua matriz de covariâncias CX = 2 .
149 / 247
MP
• Questão 1: Z = E[|Z| ] |E[Z]|2 = E[|M ej⇥ |2 ] |E[M ej⇥ ]|2
2 2
2
E[|M ej⇥ |2 ] = E[M 2 ] = M
Exemplo 2
+M = M 2
+ 02 = M
2
E[M e ] = E[M ]E[e ] = (0)E[ej⇥ ] = 0

j⇥ j⇥
2 2
Z = M |0|2 = M
2
• Questão 2:
! ! !
Y1 a b X1
(a) =
Y2 c d X2
! ! !
X1 1 d b Y1
(b) =
X2 ad bc c a Y2
d b
ad bc ad bc 1
(c) J = c a =
ad bc
ad bc ad bc ✓ ◆
1 dy1 by2 cy1 + ay2
fY1 ,Y2 (y1 , y2 ) = fX1 ,X2 , .
|ad bc| ad bc ad bc
• Questão 3:
(a) I. RY1 Y2 = E[Y1 Y2 ] = E[(X1 + aX2 )(X1 aX2 )] = E[X12 a2 X22 ]

= E[X12 ] a2 E[X22 ]v
u
u 2 +X 2
u X1 1
RY 1 Y 2 = 0 , a = ± t 2
2 +X 150 / 247
MP @X1 @X1 @X1
···
@Y1 @Y2 @YN
@X2 @X2 @X2
···
Exemplo fY (y) = fX (T 1
(y))|J|, J = @Y1 @Y2 @YN
.. .. .. ..
. . . .
@XN @XN @XN
···
@Y1 @Y2 @YN
Problema
!
X1
• Questão 3: A vetor de variáveis aleatórias reais X = é caracterizado por seu
X2
! !
2 CX1 X2
X1 X1
vetor de médias X = e sua matriz de covariâncias CX = 2 .
X2 CX2 X1
! ! X2
Y1 1 a
Definindo-se a transformação Y = TX, sendo Y = eT= ,
Y2 1 a
(a) calcule a em função dos momentos dados para que as novas variáveis sejam:
I. ortogonais.
II. descorrelacionadas.
(b) X1 e X2 independentes garantem Y1 e Y2 descorrelacionadas?
151 / 247
MP d b
ad bc ad bc 1
(c) J =
c a =
ad bc
Exemplo ad bc ad bc ✓ ◆
1 dy1 by2 cy1 + ay2
fY1 ,Y2 (y1 , y2 ) = fX1 ,X2 , .
|ad bc| ad bc ad bc
• Questão 3:
(a) I. RY1 Y2 = E[Y1 Y2 ] = E[(X1 + aX2 )(X1 aX2 )] = E[X12 a2 X22 ]

= E[X12 ] a2 E[X22 ]v
u
u 2 +X 2
u 1
RY 1 Y 2 = 0 , a = ± t X 1 2
2 + X2
X2
II. CY1 Y2 = E[(Y1 Y1 )(Y2 Y2 )]

= E[(X1 X1 + a(X2 X2 ))(X1 X1 a(X2 X2 ))]
= E[(X1 X1 )2 a2 (X2 X2 )2 ] = X
2
1
a2 X
2
1
X1
CY1 Y2 = 0 , a = ±
X2
(b) Não. A condição para que Y1 e Y2 sejam descorrelacionadas independe da
dependência entre X1 e X2 .
152 / 247
MP
Tópicos de Estatística
Sumário
1 Probabilidade
153 / 247
MP
Estatística e Estimadores
Estatística
Definição
Contexto: N Variáveis aleatórias i.i.d. Xn , n ∈ {1, . . . , N }
(por exemplo, N amostras independentes de fX (x))
g(X) é uma estatística se não depende de parâmetros desconhecidos
Exemplos:
N
1 X
X
b= Xn é uma estatística
N
n=1
N
1 X
2
σc
X = (Xn − X)2 não é uma estatística
N
n=1
154 / 247
MP
Estimação
Nomenclatura
Um estimador obtém estimativas
a partir de dados observados (observações aleatórias/amostras
aleatórias) X
Um estimador paramétrico pressupõe um modelo
e resume o problema à estimação de seus parâmetros
Ex.: Estimar uma PDF gaussiana a partir de amostras da distribuição
Um estimador não-paramétrico é geral
Ex.: Estimar uma PDF qualquer a partir de amostras da distribuição
155 / 247
MP
Estimador Pontual de Parâmetro Fixo
Definições
Estimador Θ b = g(X) obtém estimativas θb = g(x)
a partir de observações/amostras/realizações x
b é uma variável aleatória com amostras θb
Θ
156 / 247
MP
Estimador Pontual de Parâmetro Fixo
Exemplos
Estimadores para a média (X):

b
N
1 X
média amostral: Xn = X
cN
N
n=1
Xmáx + Xmín
valor médio:
2
mediana empírica: x tal que F
bX (x|x) = 0,5
2
Estimadores para a variância (σc
X ):
N
1 X
cN )2
(Xn − X
N
n=1
N
1 X
cN )2 = S 2
(Xn − X N
N −1
n=1
157 / 247
MP
Estimadores Populares
Clássicos - de parâmetro θ fixo

N
Y
Verossimilhança: L(θ) = fX (x|θ) = fX (xi |θ)
i=1
Verossimilhança logarítmica: ln[L(θ)]
Estimador de máxima verossimilhança:
Θ
b ML (Interpretação?)
Bayesianos - de parâmetro Θ aleatório

Distribuição a priori para Θ: fΘ (θ)
fX,Θ (x, θ)
Distribuição a posteriori para Θ: fΘ (θ|x) = ∝ L(θ)fΘ (θ)
fX (x)
Estimador de máxima distribuição a posteriori:
Θ
b MAP (Interpretação?)
158 / 247
MP
Avaliação dos Estimadores

Consideramos aqui o caso em que o parâmetro θ é constante a determinar.
Critérios de qualidade
Polarização:
b(Θ b] − θ
b ) = E[Θ
b(Θ) diz se o estimador acerta na média (se é acurado).
b
MSE – Mean Square Error:
b − θ)2 ] = b2 (Θ
b ) = E[(Θ
MSE(Θ b ) + σ2
Θ
b
σ 2 diz se as estimativas são pouco espalhadas (se o estimador é preciso).
Θ
b
MSE(Θ
b ) dá o erro total, combinando os dois aspectos.
Consistência:
b − θ| ≥ ) = 0, ∀ > 0 ou
b é consistente se lim P (|Θ
Θ
N →∞
b − θ| < ) = 1, ∀ > 0
lim P (|Θ
N →∞
Por Chebyshev, mostra-se que um estimador não polarizado com
lim σ 2 = 0 é consistente
N →∞ Θ
b
159 / 247
MP
Estimação de Intervalo
Limites de Confiança
Hipótese: O estimador não é polarizado.
h i
b− ∆ ∆
Calcula-se que θ está no intervalo Θ 2
,Θ
b+ 2
com P % de probabilidade
Diz-se que ∆ é o intervalo de P % de confiança das estimativas
160 / 247
MP
Exemplo
Problema
Sabe-se que a variável aleatória (VA) discreta X possui distribuição de
Poisson
∞
X θk
fX (x) = e−θ δ(x − k) , com θ > 0.
k!
k=0
O parâmetro θ é uma constante desconhecida. Deseja-se estimar θ através

de amostras aleatórias i.i.d. X = [ X1 X2 · · · XN ] obtidas a partir da VA
X.
1 Dado x ∈ N, escreva a probabilidade do evento aleatório {X = x} em
função do parâmetro desconhecido θ e denote-a por P {X = x | θ}.
2 Escreva a verossimilhança
P {X = x | θ} = P {X1 = x1 , X2 = x2 , · · · , XN = xN | θ}.
3 Encontre o estimador Θ
b ML .
161 / 247
MP
Exemplo
e−θ θ x
1 P {X = x | θ} = x!
2
P
N xn
Y e−N θ θ n
P {X = x | θ} = P {Xn = xn | θ} = Q
n
xn !
n=1
3 Basta maximizar P {X = x | θ} em termos de θ. Como
P
−N θ+ xn ln θ
∂P {X = x | θ} ∂ e n
1
= Q
∂θ x !
n n
∂θ
P
−N θ+ xn ln θ
P
e n
n
xn
= Q −N + ,
n
xn ! θ
então
n o
∂P X = x | θbML P
xn
N
n 1 X
= 0 ⇔ −N + =0⇒Θ
b ML = Xn
∂θ θbML N
n=1
162 / 247
MP
Exemplo
Problema
Sabe-se que a variável aleatória (VA) discreta X possui distribuição de
Poisson
∞
X θk
fX (x) = e−θ δ(x − k) , com θ > 0.
k!
k=0
O parâmetro θ é uma constante desconhecida. Deseja-se estimar θ através

de amostras aleatórias i.i.d. X = [ X1 X2 · · · XN ] obtidas a partir da VA
X.
4 O estimador Θ
b ML é polarizado? Justifique detalhadamente.
5 O estimador Θ
b ML é consistente? Justifique detalhadamente.
163 / 247
MP
Exemplo
4 Não, pois
N N ∞ ∞
1 X 1 X θk θk
h i X X
E Θ
b ML = E[Xn ] = X = X = e−θ k = e−θ k
N N k! k!
n=1 n=1 k=0 k=1
∞
−θ
X θl
= θe = θ.
l!
l=0
| {z }
=eθ
5 Sim, pois, uma vez que ele não é polarizado, basta olharmos para σ 2
ΘML
b
dado por
N N
1 XX σ 2 N →∞
h i
2 b ML − X)2 =
σΘ = E (Θ E[(Xn − X)(Xm − X)] = X −→ 0.
b ML N2 N
n=1 m=1
164 / 247
MP
Exemplo
Problema
6 Se em vez de constante, θ é uma amostra da variável aleatória Θ, então
é possível buscar um estimador Θ
b MAP que maximiza
P {X = x | θ} fΘ (θ)
fΘ (θ|x) = .
P {X = x}
1 Se Θ é uniformemente distribuída entre 0 e M , sendo M > 0 uma

constante desconhecida grande, o que muda de Θ b ML para Θ
b MAP ?
Justifique.
2 Se Θ possui distribuição exponencial
fΘ (θ) = λe−λθ u(θ) , com λ > 0 (conhecido),
encontre Θ
b MAP e forneça uma explicação “intuitiva” sobre o porquê de,
neste caso, θbMAP < θbML .
165 / 247
MP
Exemplo
1
6 1 Neste caso, fΘ (θ) = M [u(θ) − u(θ − M )] de tal forma que maximizar
fΘ (θ|x) equivale a maximizar P {X = x | θ} pois os demais termos não
dependem de θ. Portanto, Θ b ML = Θb MAP .
2
P
−N θ−λθ+ xn ln θ
∂ e n
∂fΘ (θ|x) λ
= Q ,
∂θ P {X = x} n xn ! ∂θ
então
P N
∂fΘ (θbMAP |x) x
n n b MAP = 1
X
= 0 ⇔ −N − λ + =0⇒Θ Xn .
∂θ θbMAP N +λ
n=1
De fato, como λ > 0, temos θbMAP < θbML sempre. Isso era esperado pois,
diferentemente do caso uniforme em que não há preferências a priori
entre valores de θ (entre 0 e M ), no caso exponencial, faixas de valores
de θ maiores possuem probabilidade a priori menor de ocorrência do que
faixas de valores de θ menores. Ou seja, valores menores de θ são
preferíveis a priori e essa preferência é parametrizada por λ (quanto
maior for esse valor, mais preferência a valores menores de θ). Portanto,
o resultado obtido já era esperado, do ponto de vista “intuitivo”.
166 / 247
MP
Processo Aleatório
Sumário
1 Probabilidade
167 / 247
MP
Processo Aleatório
Processo Aleatório
Conceito de Processo Aleatório
Construção e terminologia
Dados os resultados s de um experimento aleatório, constrói-se:
variável aleatória X(s) = X com valores reais x;
processo aleatório X(s, t) = X(t) com funções reais x(t).
Um conjunto de x(t) = ensemble.
Cada x(t) = [membro de ensemble, função-amostra ou realização]
do processo.
Cada X(s, ti ) = X(ti ) é uma variável aleatória com valores x(ti ).
168 / 247
MP
Processo Aleatório
Processo Aleatório
Classificações
Generalização
Processo aleatório X(t) (tempo contínuo t)
Sequência aleatória X[n] (tempo discreto n)
Conforme a amplitude x:
contínuo/a
discreto/a
Conforme a preditibilidade:
determinístico/a = x(t) ou x[n] preditível por suas amostras passadas
não-determinístico/a = x(t) ou x[n] impreditível por suas amostras
passadas
169 / 247
MP
Processo Aleatório
Processo Aleatório
Exemplo
Problema
Considere a grandeza D que descreve o número de dias em que houve mais
que 5 mm de precipitação de chuva, a cada mês m, em cada local
(aleatoriamente escolhido) sobre o hemisfério sul da Terra.
1 O modelo probabilístico mais adequado para isso é na forma de um
processo aleatório ou de uma sequência aleatória? Explique sua
resposta.
2 O modelo escolhido no item anterior deve ser tornado contínuo ou
discreto? Explique sua resposta.
3 Esboce 2 ou 3 realizações do modelo como exemplos.
170 / 247
MP
Processo Aleatório
Processo Aleatório
Exemplo
1 D[m] é um sequência aleatória, pois m é uma contagem de meses, que

descreve o tempo de forma discreta.
2 D[m] é uma sequência discreta, pois, dado m0 fixado, D[m0 ] é uma VA
discreta que só pode assumir valores inteiros de 0 a 28, ou 29, ou 30, ou
31.
3 Quaisquer gráficos d × m com 0 ≤ d ≤ 31 arbitrários contra m ∈ Z.
171 / 247
MP
Processo Aleatório
Processo Aleatório
Descrição Estatística
Processo aleatório X(t)

de 1a . ordem:
CDF: FX (x1 ; t1 ) = P {X(t1 ) ≤ x1 }
dFX (x1 ; t1 )
PDF: fX (x1 ; t1 ) =
dx1
..
.
de La . ordem:
CDF: FX (x1 , . . . , xL ; t1 , . . . , tL ) = P {X(t1 ) ≤ x1 , . . . , X(tL ) ≤ xL }
∂ L FX (x1 , . . . , xL ; t1 , . . . , tL )
PDF: fX (x1 , . . . , xL ; t1 , . . . , tL ) =
∂x1 · · · ∂xL
172 / 247
MP
Processo Aleatório
Processo Aleatório
Descrição Estatística
Sequência aleatória X[n]

distribuição de 1a . ordem:
CDF: FX (x1 ; n1 ) = P {X[n1 ] ≤ x1 }
dFX (x1 ; n1 )
PDF: fX (x1 ; n1 ) =
dx1
..
.
distribuição de La . ordem:
CDF: FX (x1 , . . . , xL ; n1 , . . . , nL ) = P {X[n1 ] ≤ x1 , . . . , X[nL ] ≤ xL }
∂ L FX (x1 , . . . , xL ; n1 , . . . , nL )
PDF: fX (x1 , . . . , xL ; n1 , . . . , nL ) =
∂x1 · · · ∂xL
173 / 247
MP
Processo Aleatório
Processo Aleatório
entre processos aleatórios X(t) e Y (t)

fX,Y (x1 , . . . , xL , y1 , . . . , yM ; t1 , . . . , tL , t01 , . . . , t0M ) =
fX (x1 , . . . , xL ; t1 , . . . , tL )fY (y1 , . . . , yM ; t01 , . . . , t0M ), ∀t1 , . . . , tL , t01 , . . . , t0M
entre sequências aleatórias X[n] e Y [n]

fX,Y (x1 , . . . , xL , y1 , . . . , yM ; n1 , . . . , nL , n01 , . . . , n0M ) =
fX (x1 , . . . , xL ; n1 , . . . , nL )fY (y1 , . . . , yM ; n01 , . . . , n0M ), ∀n1 , . . . , nL , n01 , . . . , n0M
Generalização para mais de 2 processos/sequências é trivial.
174 / 247
MP
Processo Aleatório
Processo Aleatório
Momentos de Primeira e Segunda Ordens

de processo aleatório X(t)
Média: X(t) = E[X(t)]

Valor quadrático médio, ou potência instantânea média: X 2 (t) = E[X 2 (t)]
2 (t) = E[(X(t) − X(t))2 ]
Variância: σX
Autocorrelação: RXX (t1 , t2 ) = E[X(t1 )X(t2 )]
Autocovariância: CXX (t1 , t2 ) = E[(X(t1 ) − X(t1 ))(X(t2 ) − X(t2 ))]
de processos aleatórios X(t) e Y (t)
Correlação cruzada: RXY (t1 , t2 ) = E[X(t1 )Y (t2 )]

ortogonais se RXY (t1 , t2 ) = 0, ∀t1 , t2
descorrelacionados se RXY (t1 , t2 ) = X(t1 ).Y (t2 ), ∀t1 , t2
Covariância cruzada: CXY (t1 , t2 ) = E[(X(t1 ) − X(t1 ))(Y (t2 ) − Y (t2 ))]
CXY (t1 , t2 ) = RXY (t1 , t2 ) − X(t1 ).Y (t2 )
descorrelacionados se CXY (t1 , t2 ) = 0, ∀t1 , t2
175 / 247
MP
Processo Aleatório
Processo Aleatório
Momentos de Primeira e Segunda Ordens

de sequência aleatória X[n]
Média: X[n] = E[X[n]]

Valor quadrático médio, ou potência instantânea média: X 2 [n] = E[X 2 [n]]
2 [n] = E[(X[n] − X[n])2 ]
Variância: σX
Autocorrelação: RXX [n1 , n2 ] = E[X[n1 ]X[n2 ]]
Autocovariância: CXX [n1 , n2 ] = E[(X[n1 ] − X[n1 ])(X[n2 ] − X[n2 ])]
de sequências aleatórias X[n] e Y [n]
Correlação cruzada: RXY [n1 , n2 ] = E[X[n1 ]Y [n2 ]]

ortogonais se RXY [n1 , n2 ] = 0, ∀n1 , n2
descorrelacionadas se RXY [n1 , n2 ] = X[n1 ].Y [n2 ], ∀n1 , n2
Covariância cruzada: CXY [n1 , n2 ] = E[(X[n1 ] − X[n1 ])(Y [n2 ] − Y [n2 ])]
CXY [n1 , n2 ] = RXY [n1 , n2 ] − X[n1 ].Y [n2 ]
descorrelacionadas se CXY [n1 , n2 ] = 0, ∀n1 , n2
176 / 247
MP
Processo Aleatório
Processo Aleatório
Estacionariedade
de processo aleatório
de 1a . ordem:
fX (x1 ; t1 ) = fX (x1 ; t1 + ∆), ∀t1 , ∆
fX (x1 ; t) independe de t
Consequência: X(t) = X
de 2a . ordem:
fX (x1 , x2 ; t1 , t2 ) = fX (x1 , x2 ; t1 + ∆, t2 + ∆), ∀t1 , t2 , ∆
fX (x1 , x2 ; t, t + τ ) independe de t, ∀τ
Consequência: RXX (t, t + τ ) = RXX (τ )
..
.
de La . ordem
177 / 247
MP
Processo Aleatório
Processo Aleatório
Estacionariedade
de processo aleatório
no sentido estrito (SSS – strict-sense stationarity): ∀L
no sentido amplo (WSS – wide-sense stationarity):

X(t) = X
RXX (t, t + τ ) = RXX (τ )

X(t) e Y (t) WSS
conjunta no sentido amplo:
RXY (t, t + τ ) = RXY (τ )
178 / 247
MP
Processo Aleatório
Processo Aleatório
Estacionariedade
de sequência aleatória
de 1a . ordem:
fX (x1 ; n1 ) = fX (x1 ; n1 + ∆), ∀n1 , ∆
fX (x1 ; n) independe de n
Consequência: X[n] = X
de 2a . ordem:
fX (x1 , x2 ; n1 , n2 ) = fX (x1 , x2 ; n1 + ∆, n2 + ∆), ∀n1 , n2 , ∆
fX (x1 , x2 ; n, n + k) independe de n, ∀k
Consequência: RXX [n, n + k] = RXX [k]
..
.
de La . ordem
179 / 247
MP
Processo Aleatório
Processo Aleatório
Estacionariedade
de sequência aleatória
no sentido estrito (SSS – strict-sense stationarity): ∀L
no sentido amplo (WSS – wide-sense stationarity):

X[n] = X
RXX [n, n + k] = RXX [k]

X[n] e Y [n] WSS
conjunta no sentido amplo:
RXY [n, n + k] = RXY [k]
180 / 247
MP
Processo Aleatório
Processo Aleatório
Médias temporais
em processos aleatórios
Z T
1
Definição: A[f (t)] = lim f (t)dt
T →∞ 2T
−T
Média temporal de realização do processo X(t): x = A[x(t)]
Calculada sobre todas as realizações, X é uma variável aleatória.
E[X ] = E[A[X(t)]] = A[E[X(t)]] = A[X(t)]
Autocorrelação temporal de realização do processo X(t):
rxx (τ ) = A[x(t)x(t + τ )]
Calculada sobre todas as realizações, Rxx (τ ) é uma variável aleatória.
E[Rxx (τ )] = E[A[X(t)X(t+τ )]] = A[E[X(t)X(t+τ )]] = A[RXX (t, t+τ )]
Correlação temporal cruzada de realizações dos processos X(t) e Y (t):
rxy (τ ) = A[x(t)y(t + τ )]
181 / 247
MP
Processo Aleatório
Processo Aleatório
Médias temporais
em sequências aleatórias
N
1 X
Definição: A[f [n]] = lim f [n]
N →∞ 2N + 1
n=−N
Média temporal de realização da sequência X[n]: x = A[x[n]]

Calculada sobre todas as realizações, X é uma variável aleatória.
E[X ] = E[A[X[n]]] = A[E[X[n]]] = A[X[n]]
Autocorrelação temporal de realização da sequência X[n]:
rxx [k] = A[x[n]x[n + k]]
Calculada sobre todas as realizações, Rxx [k] é uma variável aleatória.
E[Rxx [k]] = E[A[X[n]X[n+k]]] = A[E[X[n]X[n+k]]] = A[RXX [n, n+k]]
Correlação temporal cruzada de realizações das sequências X[n] e Y [n]:
rxy [k] = A[x[n]y[n + k]]
182 / 247
MP
Processo Aleatório
Processo Aleatório
Ergodicidade
Conceito
A propriedade da ergodicidade autoriza a substituição de E[·] por A[·].
Há diversos níveis de ergodicidade.
183 / 247
MP
Processo Aleatório
Processo Aleatório
Processo Ergódico
para a média:
2
Processo X(t) com X é ergódico para a média se X = x ⇔ σX = 0.
Se X(t) é WSS, é ergódico para a média:
Z 2T
1 τ

⇔ lim CXX (τ ) 1 − dτ = 0.
T →∞ T 2T
0 Z ∞
se CXX (0) < ∞, lim CXX (τ ) → 0 e |CXX (τ )|dτ < ∞.
|τ |→∞
−∞
184 / 247
MP
Processo Aleatório
Processo Aleatório
Processo(s) Ergódico(s)
para a correlação:
Processo X(t) com RXX (τ ) é ergódico para a autocorrelação se
2
RXX (τ ) = rxx (τ ) ⇔ σR xx (τ )
= 0.
Dois processos X(t) e Y (t) são ergódicos para a correlação cruzada se
RXY (τ ) = rxy (τ ).
As condições para isso recaem sobre momentos de 4a. ordem.
185 / 247
MP
Processo Aleatório
Processo Aleatório
Sequência Ergódica
para a média:
2
Sequência X[n] com X é ergódica para a média se X = x ⇔ σX = 0.
Se X[n] é WSS, é ergódica para a média:
M
1 |k|
X
⇔ lim CXX [k] 1 − = 0.
M →∞ 2M + 1 2M + 1
k=−M
∞
X
se CXX [0] < ∞, lim CXX [k] → 0 e |CXX [k]| < ∞.
|k|→∞
k=−∞
186 / 247
MP
Processo Aleatório
Processo Aleatório
Sequência(s) Ergódica(s)
para a correlação:
Sequência X[n] com RXX [k] é ergódica para a autocorrelação se
2
RXX [k] = rxx [k] ⇔ σR xx [k]
= 0.
Duas sequências X[n] e Y [n] são ergódicas para a correlação cruzada se
RXY [k] = rxy [k].
As condições para isso recaem sobre momentos de 4a. ordem.
187 / 247
MP
Processo Aleatório
Processo Aleatório
Exemplo
Problema
Considere a grandeza D que descreve o número de dias em que houve mais
que 5 mm de precipitação de chuva, a cada mês m, em cada local
(aleatoriamente escolhido) sobre o hemisfério sul da Terra.
1 Você acha razoável atribuir estacionariedade ao modelo? Argumente.
2 Você acha razoável atribuir ergodicidade ao modelo? Argumente.
188 / 247
MP
Processo Aleatório
Processo Aleatório
Exemplo
1 Não. Fatores externos podem provocar comportamentos globais

diferentes no hemisfério sul ao longo dos meses (mais chuvosos uns,
menos chuvosos outros), não garantindo equivalência entre as VAs que
compõem o processo.
2 Não. Locais diferentes podem ter comportamentos diferentes (mais
chuvosos uns, menos chuvosos outros), não garantindo equivalência
entre as realizações que compõem o processo.
189 / 247
MP
Processo Aleatório
Processo Aleatório
Exemplo
Problema
As baterias AAA de 1,5 V da Tabajara Ltda. apresentam em circuito
aberto uma tensão b constante em seus terminais, que pode ser modelada
estatisticamente como uma variável aleatória B com densidade de
probabilidade fB (b) uniforme entre 1,62 e 1,66 V. Suponha que as baterias
foram fabricadas há um tempo “infinito”, e que em circuito aberto elas não
sofram descarga. Considere o processo aleatório B(t) que modela a tensão
em circuito aberto de cada bateria, aleatoriamente escolhida, ao longo do
tempo.
(a) Escreva a PDF fB (b; t).
(b) Escreva a PDF fB (b1 , b2 ; t1 , t2 ).
(c) Quão estacionário é o processo? Justifique.
(d) O processo é ergódico para a média? Justifique.
(e) Calcule E[B(t)] e A[b(t)].
(f) Calcule RBB (t, t + τ ) e rbb (τ ).
190 / 247
MP (e) Não. Locais diferentes podem ter comportamentos diferentes (mais chuvosos
Processo Aleatório
uns, menos chuvosos outros), não garantindo equivalência entre as realizações
Processo Aleatório
que compõem o processo.
Exemplo
• Questão 2:
1
(a) fB (b; t) = fB (b) = (u(b − 1,62) − u(b − 1,66)).
0,04
(b) fB (b1 , b2 ; t1 , t2 ) = fB1 (b1 )fB2 (b2 |b1 ) = fB (b1 )δ(b2 − b1 )
1
= (u(b1 − 1,62) − u(b1 − 1,66))δ(b2 − b1 ) ou
0,04
fB (b1 , b2 ; t1 , t2 ) = fB2 (b2 )fB1 (b1 |b2 ) = fB (b2 )δ(b1 − b2 )
1
= (u(b2 − 1,62) − u(b2 − 1,66))δ(b1 − b2 ).
0,04
(c) Quaisquer distribuições conjuntas das variáveis aleatórias referentes a n ins-
tantes de tempo serão iguais, já que cada realização é constante no tempo.
Portanto, o processo é SSS.
(d) Não. Realizações diferentes podem apresentar médias temporais diferentes,
aleatoriamente distribuı́das entre 1,62 e 1,66 V.
1,62 + 1,66
(e) E[B(t)] = = 1,64 V,
2
A[b(t)] = A[b] = b.
! 1,66 1 2 1 1,663 − 1,623
(f) RBB (t, t + τ ) = b db = ≈ 2,69 V2 ,
1,62 0,04 0,04 3
rbb (τ ) = b2 .
" # " #
2π 2π
• Questão 3: X[n] = acos n Y [n] = bcos 2 n ,
N N
(a) fX,Y (x,
$ y; n1 , n2 ) = " # %
1 πn1 191 / 247
MP
Processo Aleatório
Processo Aleatório
Propriedades das Funções de Correlação

2
Obs.: RXX (t, t) = X 2 (t) e CXX (t, t) = σX (t).
Hipótese: X(t) é WSS.

|RXX (τ )| ≤ RXX (0)
RXX (−τ ) = RXX (τ )
2
Se X(t) é ergódico sem componentes periódicas, lim RXX (τ ) = X
|τ |→∞
Se X(t) tem componentes periódicas, RXX (τ ) também as tem.
Hipótese: X(t) e Y (t) são conjuntamente WSS.

RXY (−τ ) = RY X (τ )
p
RXX (0)RY Y (0)
RXY (τ ) ≤ RXX (0)+RY Y (0)
2
192 / 247
MP
Processo Aleatório
Processo Aleatório
Propriedades das Funções de Correlação
2
Obs.: RXX [n, n] = X 2 [n] e CXX [n, n] = σX [n].
Hipótese: X[n] é WSS.

|RXX [k]| ≤ RXX [0]
RXX [−k] = RXX [k]
2
Se X[n] é ergódico sem componentes periódicas, lim RXX [k] = X
|k|→∞
Se X[n] tem componentes periódicas, RXX [k] também as tem.
Hipótese: X[n] e Y [n] são conjuntamente WSS.

RXY [−k] = RY X [k]
p
RXX [0]RY Y [0]
RXY [k] ≤ RXX [0]+RY Y [0]
2
193 / 247
MP
Processo Aleatório
Processo Aleatório
Estimação de correlação
Hipótese: Ergodicidade
Z T
1
RXY (τ ) ≈ rxy (τ ) ≈ x(t)y(t + τ )dt, T ↑
2T −T
N
1 X
RXY [k] ≈ rxy [k] ≈ x[n]y[n + k], N ↑
2N + 1
n=−N
194 / 247
MP
Processo Aleatório
Processo Aleatório
Processo/Sequência Aleatório/a Gaussiana
PDF e propriedades
fX (x1 , . . . , xN ; t1 , . . . , tN ) ou fX (x1 , . . . , xN ; n1 , . . . , nN ) =
1 T −1
√ 1 e− 2 (x−X) CX (x−X)
(2π)N |CX |
X i = X(ti ) ou X[ni ], CXik = CXX (ti , tk ) ou CXX [ni , nk ]

Processos/sequências gaussianos/as WSS são SSS.
Processos/sequências conjuntamente gaussianos/as
descorrelacionados/as são independentes.
195 / 247
MP
Processo Aleatório
Processo Aleatório
Processo Aleatório de Poisson
Definições
Descreve a contagem de ocorrências de um evento
com taxa média de ocorrência λ ao longo do tempo t → é discreto.
Exs.: chegada de cliente num banco, ocorrência de raio numa área,
emissão de elétron por um material fotossensível etc.

X(t < 0) = −(contagem entre t e 0)
Convenção: X(0) = 0

X(t > 0) = contagem entre 0 e t
Condições de validade do modelo:
Não ocorrem eventos simultâneos.
Seus tempos de ocorrência são independentes.
196 / 247
MP
Processo Aleatório
Processo Aleatório
Processo Aleatório de Poisson
PDF
de 1a . ordem:
∞
X (λt)k e−λt
fX (x; t) = δ(x − k)
k!
k=0
de 2a . ordem, t1 < t2 (→ k1 ≤ k2 ):
∞ ∞
X X (λt1 )k1 [λ(t2 − t1 )]k2 −k1 e−λt2
fX (x1 , x2 ; t1 , t2 ) = δ(x1 −k1 )δ(x2 −k2 )
k1 !(k2 − k1 )!
k1 =0 k2 =k1
197 / 247
MP
Processo Aleatório
Processo Aleatório
Processos Aleatórios Complexos
Definição e estacionariedade
Z(t) = X(t) + jY (t), sendo X(t) e Y (t) processos aleatórios reais.
Z(t) é estacionário quando X(t) e Y (t) são conjuntamente
estacionários.
Z(t) é WSS quando X(t) e Y (t) são conjuntamente WSS.
Zi (t) e Zj (t) são conjuntamente WSS quando
cada um é WSS
RZi Zj (t, t + τ ) = RZi Zj (τ )
198 / 247
MP
Processo Aleatório
Processo Aleatório
Processos Aleatórios Complexos
Momentos
Média: E[Z(t)] = E[X(t)] + jE[Y (t)]
Autocorrelação: RZZ (t, t + τ ) = E[Z ∗ (t)Z(t + τ )]
Se Z(t) é WSS, E[Z(t)] = Z e RZZ (t, t + τ ) = RZZ (τ ).
Autocovariância:
CZZ (t, t + τ ) = E[(Z(t) − E[Z(t)])∗ (Z(t + τ ) − E[Z(t + τ )])]
Correlação cruzada: RZi Zj (t, t + τ ) = E[Zi∗ (t)Zj (t + τ )]
Se RZi Zj (t, t + τ ) = 0 ∀t, τ , então Zi (t) e Zj (t) são ortogonais.
Covariância cruzada:
CZi Zj (t, t + τ ) = E[(Zi (t) − E[Zi (t)])∗ (Zj (t + τ ) − E[Zj (t + τ )])]
Se CZi Zj (t, t + τ ) = 0 ∀t, τ , então Zi (t) e Zj (t) são descorrelacionados.
199 / 247
MP
Processo Aleatório
Processo Aleatório
Sequências Aleatórias Complexas
Definição e estacionariedade
Z[n] = X[n] + jY [n], sendo X[n] e Y [n] sequências aleatórias reais.
Z[n] é estacionária quando X[n] e Y [n] são conjuntamente
estacionárias.
Z[n] é WSS quando X[n] e Y [n] são conjuntamente WSS.
Zi [n] e Zj [n] são conjuntamente WSS quando
cada uma é WSS
RZi Zj [n, n + k] = RZi Zj [k]
200 / 247
MP
Processo Aleatório
Processo Aleatório
Sequências Aleatórias Complexas
Momentos estatísticos
Média: E[Z[n]] = E[X[n]] + jE[Y [n]]
Autocorrelação: RZZ [n, n + k] = E[Z ∗ [n]Z[n + k]]
Se Z[n] é WSS, E[Z[n]] = Z e RZZ [n, n + k] = RZZ [k].
Autocovariância:
CZZ [n, n + k] = E[(Z[n] − E[Z[n]])∗ (Z[n + k] − E[Z[n, n + k]])]
Correlação cruzada: RZi Zj [n, n + k] = E[Zi∗ [n]Zj [n, n + k]]
Se RZi Zj [n, n + k] = 0 ∀n, k, então Zi [n] e Zj [n] são ortogonais.
Covariância cruzada:
CZi Zj [n, n + k] = E[(Zi [n] − E[Zi [n]])∗ (Zj [n, n + k] − E[Zj [n, n + k]])]
Se CZi Zj [n, n + k] = 0 ∀n, k, então Zi [n] e Zj [n] são
descorrelacionadas.
201 / 247
MP
Processo Aleatório
Transformada de Fourier
de tempo contínuo, satisfeitas as condições de existência

Z ∞
1
x(t) = X(jω)ejωt dω
2π −∞
Z ∞
X(jω) = x(t)e−jωt dt
−∞
de tempo discreto, satisfeitas as condições de existência

Z π
1
x[n] = X(ejΩ )ejΩn dΩ
2π −π
∞
X
X(ejΩ ) = x[n]e−jΩn
n=−∞
202 / 247
MP
Processo Aleatório
Propriedades
Linearidade
Simetria
Deslocamento no tempo
Deslocamento na frequência
Escalamento
Diferenciação no tempo [tempo contínuo]
Diferenciação na frequência
Convolução no tempo
Modulação
Integração / soma no tempo
Parseval
Dualidade [tempo contínuo]
203 / 247
MP
Processo Aleatório
Processo Aleatório – Descrição Espectral
Caracterização Espectral de Processo Aleatório
Ideias
Descrever um processo aleatório na frequência: F[x(t)]?
Resultado: processo aleatório cuja variável ordenada é ω?
Problemas:
dificuldade de garantir existência de F [x(t)];
pouca utilidade de um espectro aleatório.
Autocorrelação carrega informação das componentes periódicas:
boa representante.
204 / 247
MP
Processo Aleatório
Potência e Densidade Espectral de Potência

Definições e resultados
Potência média (média) do processo X(t): PXX = A[E[X 2 (t)]]
" # " #
1
RT 1
R∞
Para T grande, PXX ≈ E 2T
X 2 (t)dt =E 2T
XT2 (t)dt ,
−T −∞

X(t), −T < t < T
sendo XT (t) =
0, t ≤ −T ∨ t ≥ T.
1
R∞ E [|X̃T (jω)|2 ]
Para X̃T (jω) = F [XT (t)], por Parseval: PXX ≈ 2π 2T
dω
−∞
Densidade espectral de potência de X(t):
E[|X̃T (jω)|2 ]
SXX (jω) = lim
T →∞ 2T
Z ∞
1
Note que PXX = SXX (jω)dω
2π −∞
205 / 247
MP
Processo Aleatório
Propriedades
Propriedades de SXX (jω):
SXX (jω) ≥ 0 (real)
SXX (−jω) = SXX (jω), se X(t) real
SẊ Ẋ (jω) = ω 2 SXX (jω)
Cálculo de SXX (jω)

Em função de RXX (t, t + τ ):
SXX (jω) = F[A[RXX (t, t + τ )]]
No caso WSS, tem-se diretamente SXX (jω) = F[RXX (τ )]
206 / 247
MP
Processo Aleatório

De fato, tem-se
E[|X̃T (jω)|2 ]
SXX (jω) = lim
T →∞ 2T
Z T Z T
1
= lim E X ∗ (t1 )ejωt1 dt1 X(t2 )e−jωt2 dt2
T →∞ 2T −T −T
Z T Z T
1
= lim E [X ∗ (t1 )X(t2 )] e−jω(t2 −t1 ) dt2 dt1
T →∞ 2T
−T −T | {z }
=RXX (t1 ,t2 )
Tomando-se a transformada de Fourier inversa tem-se:

Z T Z T Z ∞
−1 1 1
F [SXX (jω)] = lim RXX (t1 , t2 ) ejω(τ +t1 −t2 ) dω dt2 dt1
T →∞ 2T 2π
−T −T −∞
| {z }
=2πδ(τ +t1 −t2 )
Z T
1
= lim RXX (t1 , t1 + τ )dt1 = A[RXX (t, t + τ )]
T →∞ 2T −T
207 / 247
MP
Processo Aleatório
Largura de Faixa de Processo Aleatório Real
Caracterização
Caso “passa-baixas”: R∞
ω 2 SXX (jω)dω
Largura de faixa WRMS : 2
WRMS = −∞
R∞
−∞
SXX (jω)dω
Caso “passa-faixa”:
R ∞
ωSXX (jω)dω
Centroide: ω 0 = R0 ∞
0
SXX (jω)dω
R∞

WRMS
2
0
(ω − ω 0 )2 SXX (jω)dω
Largura de faixa WRMS : = R∞
2 SXX (jω)dω
0
208 / 247
MP
Processo Aleatório
Densidade Espectral de Potência Cruzada
Motivação
Soma de dois processos: W (t) = X(t) + Y (t)
Autocorrelação:
RW W (t, t+τ ) = RXX (t, t+τ )+RY Y (t, t+τ )+RXY (t, t+τ )+RY X (t, t+τ )
Densidade espectral de potência: SW W (jω) =
SXX (jω) + SY Y (jω) + F[A[RXY (t, t + τ )]] + F[A[RY X (t, t + τ )]]
O que seriam F[A[RXY (t, t + τ )]] e F[A[RY X (t, t + τ )]]?
Densidades espectrais de potência cruzada?
209 / 247
MP
Processo Aleatório
Potência e Densidade Espectral de Potência Cruzadas

Definições e resultados
Potência cruzada média (média) entre os processos X(t) e Y (t):
PXY = A[E[X(t)Y (t)]]
Densidade espectral de potência cruzada entre os processos X(t) e
Y (t):
Z ∞
1
Meta: SXY (jω) tal que PXY = SXY (jω)dω
2π −∞
E[X̃T∗ (jω)ỸT (jω)]
Em função de x(t): SXY (jω) = lim , sendo
T →∞
2T
X(t), −T < t < T
X̃T (ω) = F [XT (t)] e XT (t) =
0, t ≤ −T ∨ t ≥ T ;

Y (t), −T < t < T
ỸT (ω) = F [YT (t)] e YT (t) =
0, t ≤ −T ∨ t ≥ T.
Em função de RXY (t, t + τ ): SXY (jω) = F [A[RXY (t, t + τ )]]
(E o caso WSS?)
210 / 247
MP
Processo Aleatório
Densidade Espectral de Potência Cruzada
Propriedades
SXY (jω) = SY∗ X (jω)
Para X(t) e Y (t) reais:
SXY (jω) = SY X (−jω)
<[SXY (jω)] é par
=[SXY (jω)] é ímpar
Se X(t) e Y (t) são ortogonais, SXY (jω) = 0
Se X(t) e Y (t) são descorrelacionados com X e Y ,
SXY (jω) = 2πX.Y δ(ω)
211 / 247
MP
Processo Aleatório
Algumas Definições de Ruído
Ruído branco n(t), realização de N (t)

No tempo:
Média zero: N (t) = 0
Descorrelação entre instantes distintos: RN N (t, t + τ ) = 0, τ 6= 0
Na frequência:
N0
Densidade espectral de potência constante: SN N (jω) =
2
N0
Usualmente, WSS: RN N (τ ) = δ(τ )
2
Frequentemente, assume-se que instantes distintos são i.i.d.
Não é realizável, pois PN N é infinita.
Ruído colorido = ruído não-branco.
212 / 247
MP
Processo Aleatório
Algumas Definições de Ruído
Ruído “branco” WSS limitado em faixa

Hipótese: potência P
Pπ
(
, −W < ω < W
Caso “passa-baixas”: SN N (jω) = W
0, ω < −W ∨ ω > W,
Psen(W τ )
RW W (τ ) =
Wτ
Pπ W W
(
, ±ω0 − < ω < ±ω0 +
Caso “passa-faixa”: SN N (jω) = W 2 2
0, no resto,
τ

sen W
RW W (τ ) = P 2 cos(ω τ )
τ 0
W
2
213 / 247
MP
Processo Aleatório
Modulação
AM por processo aleatório

X(t) → Y (t) = X(t)A0 cos(ω0 t)
A20
RY Y (t, t + τ ) = RXX (t, t + τ )[cos(ω0 τ ) + cos(2ω0 t + ω0 τ )]
2
Se X(t) é WSS:
A20
A[RY Y (t, t + τ )] = RXX (τ )cos(ω0 τ )
2
A20
SY Y (jω) = [SXX (j(ω − ω0 )) + SXX (j(ω + ω0 ))]
4
214 / 247
MP
Processo Aleatório
Caracterização Espectral de Sequência Aleatória
Potência e densidade espectral de potência

Potência média (média) da sequência X[n]: PXX = A[E[X 2 [n]]]
Densidade espectral de potência da sequência X[n]:
Z π
1
Meta: SXX (ejΩ ) tal que PXX = SXX (ejΩ )dΩ
2π −π
Em função de RXX [n, n + k]: SXX (ejΩ ) = F [A[RXX [n, n + k]]]
(E o caso WSS?)
Propriedades de SXX (ejΩ ):
SXX (ejΩ ) ≥ 0 (real)
SXX (e−jΩ ) = SXX (ejΩ ), se X[n] real
215 / 247
MP
Processo Aleatório
Caracterização Espectral de Sequência Aleatória

Potência e densidade espectral de potência cruzadas
Potência cruzada média (média) entre as sequências X[n] e Y [n]:
PXY = A[E[X[n]Y [n]]]
Densidade espectral de potência cruzada entre X[n] e Y [n]:
Z π
1
Meta: SXY (ejΩ ) tal que PXY = SXY (ejΩ )dΩ
2π −π
Em função de RXY [n, n + k]: SXY (ejΩ ) = F [A[RXY [n, n + k]]]
(E o caso WSS?)
Propriedades:
SXY (ejΩ ) = SY∗ X (ejΩ )
Para X[n] e Y [n] reais:
SXY (ejΩ ) = SY X (e−jΩ )
<[SXY (ejΩ )] é par
=[SXY (ejΩ )] é ímpar
Se X[n] e Y [n] são ortogonais, SXY (ejΩ ) = 0
Se X[n] e Y [n] são descorrelacionados com X e Y ,
SXY (ejΩ ) = 2πX.Y δ(Ω)
216 / 247
MP
Processo Aleatório
Ruído Branco no Tempo Discreto
n[n], realização de N [n]

No tempo:
Média zero: N [n] = 0
Descorrelação entre instantes distintos: RN N [n, n + k] = 0, k 6= 0
Na frequência:
Densidade espectral de potência constante: SN N (ejΩ ) = σN
2
2
Usualmente, WSS: RN N [k] = σN δ[k]
Frequentemente, assume-se que instantes distintos são i.i.d.
2
PN N = σN
217 / 247
MP
Processo Aleatório
Exemplo
Problema
Considere o processo aleatório
X(t) = Acos(2πF t + Φ),
em que A é uma variável aleatória (VA) com média A e variância σA 2 > 0, F é

uma VA uniformemente distribuída no intervalo [0, f0 ], com f0 > 0 sendo uma
constante conhecida, e Φ é uma VA uniformemente distribuída no intervalo [0, 2π].
Considere que A, F, Φ sejam VAs estatisticamente independentes.
(a) Determine RXX (t, t + τ ).
(b) Determine SXX (jω).
(c) X(t) é WSS? Justifique detalhadamente.
(d) X(t) é ergódico para a média? Justifique detalhadamente.
(e) Refaça os itens (a), (b), (c) e (d) para o processo aleatório complexo
X(t) = Aej(2πF t+Φ) .
218 / 247
MP
Processo Aleatório
Exemplo
(a)
RXX (t, t + τ ) = E[A2 cos(2πF t + Φ)cos(2πF t + 2πF τ + Φ)]
EA [A2 ]
= E[cos(4πF t + 2πF τ + 2Φ) + cos(2πF τ )]
2
 
EA [A2 ]
= EF EΦ [cos(4πF t + 2πF τ + 2Φ)] + EΦ [cos(2πF τ )]
2 | {z } | {z }
=0 =cos(2πF τ )
2 2

sen(2πf0 τ ) A + σA
= = RXX (τ )
2πf0 τ 2
(b)
SXX (jω) = F [RXX (τ )]
( 2
2
A +σA
= 4f0
, −2πf0 < ω < 2πf0
0, caso contrário
219 / 247
MP
Processo Aleatório
Exemplo
(c) Note que E[X(t)] = EA,F [EΦ [X(t)]] = EA,F [0] = 0 e que
RXX (t, t + τ ) = RXX (τ ) do item (a). Portanto, X(t) é WSS.
(d) A média temporal de uma realização x(t) (um cosseno) é sempre nula,
coincidindo portanto com E[X(t)] = 0. Logo, X(t) é ergódico para a média.
(e)
RXX (t, t + τ ) = E[X ∗ (t)X(t + τ )] = E[A2 ]E[ej2πF τ ]
2 2 sen(πf0 τ ) jπf0 τ
= (A + σA ) e = RXX (τ )
πf0 τ
( 2
2
A +σA
SXX (jω) = F [RXX (τ )] = f0
, 0 < ω < 2πf0
0, caso contrário
Note que E[X(t)] = EA,F [EΦ [X(t)]] = EA,F [0 + j0] = 0 e que

RXX (t, t + τ ) = RXX (τ ). Portanto, X(t) é WSS. Além disso, a média
temporal de uma realização x(t) (um cosseno na parte real e um seno na
parte imaginária) é sempre nula, coincidindo portanto com E[X(t)] = 0.
Logo, X(t) é ergódico para a média.
220 / 247
MP
Processo Aleatório
Exemplo
Problema
Desenhe a densidade espectral de potência, SXX (ejΩ ), da sequência
aleatória
X[n] = N [n] + bN [n − 1],
em que N [n] é ruído branco com desvio-padrão σN . Além disso, determine

a potência cruzada, PXN .
221 / 247
MP
Processo Aleatório
Exemplo
Precisamos calcular RXX [n, n + k]. Há 3 casos a considerar (considerando o

fato de N [n] ser branco, ou seja amostras temporais descorrelacionadas e de
média zero):
k = 0: E[X 2 [n]] = E[N 2 [n]] + b2 E[N 2 [n − 1]] = (1 + b2 )σN
2
2
k = ±1: E[X[n]X[n ± 1]] = bσN
demais valores de k: E[X[n]X[n + k]] = 0
Note que RXX [n, n + k] = RXX [k]. Logo,
X
SXX (ejΩ ) = RXX [k]e−jΩk = (1 + b2 )σN
2 2
+ 2bσN cos(Ω),
k
basta portanto desenhar esse gráfico para Ω ∈ [−π, π] e lembrar que

SXX (ejΩ ) é periódico com período 2π.
Por outro lado, PXN = A[E[X[n]N [n]]] = A[E[N 2 [n]]] = A[σN2 2
] = σN .
222 / 247
MP
Processo Aleatório
Exemplo
Problema
X[n] é sequência aleatória gaussiana com média zero e autocorrelação
RXX [k] = 2−|k| .
1 Podemos afirmar que X[n] é SSS? Justifique detalhadamente.
2 Podemos afirmar que X[n] é ruído branco? Justifique detalhadamente.
223 / 247
MP
Processo Aleatório
Exemplo
1 Sim, pois é WSS e toda sequência gaussiana WSS é SSS.

2 Não, pois RXX [k] 6= δ[k].
224 / 247
MP
Processo Aleatório
Sistemas Lineares com Entradas Aleatórias
Sistema Linear no Tempo Contínuo
Definições, propriedades e resultados

Linearidade: y(t) = L[x(t)] obedece
N N
X X
x(t) = αn xn (t) → y(t) = αn yn (t)
n=1 n=1
R ∞a entrada x(t):
Resposta
y(t) = −∞ x(τ )h(t, τ )dτ , h(t, τ ) = L[δ(t − τ )] = resposta ao impulso
No caso invariante no tempo:
Z ∞
h(t, τ ) = h(t − τ ), y(t) = x(τ )h(t − τ )dτ = (h ∗ x)(t)
−∞
Na frequência: Y (jω) = H(jω)X(jω), H(jω) = resposta na frequência
225 / 247
MP
Processo Aleatório
Resposta de SLIT a Processo Aleatório

Y (t) = (h ∗ X)(t)
Sendo X(t) real WSS:

Z ∞
Y =X h(τ )dτ
−∞
Z ∞ Z ∞
Y2 = RXX (τ1 − τ2 )h(τ1 )h(τ2 )dτ1 dτ2
−∞ −∞
Z ∞ Z ∞
RY Y (τ ) = RXX (τ + τ1 − τ2 )h(τ1 )h(τ2 )dτ1 dτ2 = (RXX ∗h∗h− )(τ )
−∞ −∞
RXY (τ ) = (RXX ∗ h)(τ )
RY X (τ ) = (RXX ∗ h− )(τ )
RY Y (τ ) = (RXY ∗ h− )(τ ) = (RY X ∗ h)(τ )
Uma aplicação – Estimação de h(t) de um SLIT:

N0 2
Se X(t) é ruído branco, RXY (τ ) = h(τ ). Toma-se, então, ĥ(t) = R̂XY (τ ).
2 N0
226 / 247
MP
Processo Aleatório
Resposta de SLIT a Processo Aleatório WSS
Características espectrais:
SXY (jω) = SXX (jω)H(jω)
SY X (jω) = SXX (jω)H(−jω)
SY Y (jω) = SXX (jω)|H(jω)|2 (SLIT real ⇒ H(−jω) = H ∗ (jω))
Uma aplicação – Estimação de ŜXX (jω):

X(t) passa por um filtro sintonizado H(jω) em frequência variável ωf ;
mede-se a potência média PY Y de sua saída Y (t).
Hipóteses: Ergodicidade, faixa estreita.
2πPY Y (ωf )
ŜXX (jωf ) = R ∞
−∞
|H(jω)|2 dω
227 / 247
MP
Processo Aleatório
Largura de Faixa de Ruído de um SLIT
Sistema com H(jω)

Passa-baixas: Qual a largura ±WN de HI (jω) ideal em torno de 0
que resulta na mesma potência de saída de H(jω),
estandoR ambos
∞
submetidos a ruído branco na entrada?
0
|H(jω)|2 dω
WN =
|H(0)|2
Passa-faixa: Qual a largura WN de HI (jω) ideal em torno de ±ω0
que resulta na mesma potência de saída de H(jω),
estandoR ambos
∞
submetidos a ruído branco na entrada?
0
|H(jω)|2 dω
WN =
|H(ω0 )|2
228 / 247
MP
Processo Aleatório
Processos Passa-Faixa, Limitado em Faixa e de Faixa Estreita
Definições
Processo “passa-faixa”:
SN N (jω) concentrado em “faixa de passagem” de largura W
que não inclui ω = 0.
Processo limitado em faixa:
passa-faixa com SN N (jω) = 0 fora da “faixa de passagem”.
Processo de faixa estreita:
limitado em faixa com W ω0 , ω0 ∈ “faixa de passagem”.
229 / 247
MP
Processo Aleatório
Sistema Linear no Tempo Discreto
Definições, propriedades e resultados

Linearidade: y[n] = L[x[n]] obedece
N
X N
X
x[n] = αi xi [n] → y[n] = αi yi [n]
i=1 i=1
Resposta a entrada x[n]:
∞
X
y[n] = x[k]h[n, k], h[n, k] = L[δ[n − k]] = resposta ao impulso
k=−∞
No caso invariante no tempo:

∞
X
h[n, k] = h[n − k], y[n] = x[k]h[n − k] = (h ∗ x)[n]
k=−∞
Na frequência: Y (ejΩ ) = H(e jΩ
)X(ejΩ ), H(ejΩ ) = resposta na
frequência
230 / 247
MP
Processo Aleatório
Resposta de SLIT a Sequência Aleatória
Y [n] = (h ∗ X)[n]
No tempo discreto, é mais comum encontrar modelos com
sequências não-estacionárias e sistemas complexos.
Y [n] = (X ∗ h)[n]
∞
X
RXY [n1 , n2 ] = RXX [n1 , n2 − k]h[k]
k=−∞
∞
X
RY Y [n1 , n2 ] = RXY [n1 − k, n2 ]h∗ [k]
k=−∞
2
Se X[n] = N [n] é ruído branco com σN , e h[n] tem comprimento L,
L−1
X
E[|Y [n]|2 ] = σN
2
|h[l]|2 .
l=0
231 / 247
MP
Processo Aleatório
Resposta de SLIT a Sequência Aleatória
Propriedades para X[n] WSS

Y [n] será WSS com Y = XH(ej0 )
RXY [k] = (RXX ∗ h)[k]
RY Y [k] = (RXY ∗ h∗− )[k] = (RXX ∗ h ∗ h∗− )[k]
SXY (ejΩ ) = SXX (ejΩ )H(ejΩ )
SY Y (ejΩ ) = SXY (ejΩ )H ∗ (ejΩ ) = SXX (ejΩ )|H(ejΩ )|2
Obs.: Se h[n] é real, H ∗ (ejΩ ) = H(e−jΩ )
232 / 247
MP
Processo Aleatório
Exemplo
Problema
Esta questão trata do problema de estimação linear ótima. Deseja-se prever o
valor da amostra x[n] utilizando uma combinação linear de I amostras passadas
mais recentes do mesmo sinal real. A estimativa tem a forma
I
X
x̂I [n] = ai x[n − i].
i=1
O erro/desvio de estimação é denotado por δI [n] = x[n] − x̂I [n].

Assuma que x[n] é na verdade uma sequência-amostra de uma sequência aleatória
WSS X[n]. O preditor linear ótimo é aquele cujos coeficientes a1 , . . . , aI
minimizam o erro quadrático médio (MSE, do inglês mean squared error) dado por
I
X
MSE(a1 , . . . , aI ) = E ∆2I [n] , onde ∆I [n] = X[n] − ai X[n − i].
i=1
Determine a expressão que permite calcular os coeficientes ótimos em função de

RXX [0], RXX [1], . . . , RXX [I].
233 / 247
MP
Processo Aleatório
Exemplo
X X
2 2 2 2
∆I [n] = X [n] − 2 ai X[n]X[n − i] + ai X [n − i]
i i
XX
+2 ai aj X[n − j]X[n − i]
i j>i
⇓
X X XX
2 2
E ∆I [n] = RXX [0] − 2 ai RXX [i] + ai RXX [0] + 2 ai aj RXX [j − i]
i i i j>i
⇓

∂E ∆2I [n] X
= 0 ⇔ −2RXX [l] + 2al RXX [0] + 2 ai RXX [i − l] = 0, ∀l ∈ {1, . . . , I}
∂al
i6=l
⇓
   −1  
a1,o RXX [0] RXX [1] ··· RXX [I − 1] RXX [1]
··· RXX [I − 2]
a2,o  =  RXX [1] RXX [0]
 RXX [2]
 ..   .
. .. .
.
.
.   .. 
. . . . . .
aI,o RXX [I − 1] RXX [I − 2] ··· RXX [0] RXX [I]
234 / 247
MP
Processo Aleatório
Exemplo
Problema
Na figura abaixo, X(t) e N (t) são processos aleatórios conjuntamente WSS.
SLIT
W (t) = X(t) + N (t) h(t) Y (t)
H(j!)
⌃ (t) = X(t t0 ) Y (t)

+
Atrasador
X(t) X(t t0 )
t0
O filtro em questão é um SLIT (com resposta ao impulso real) e seu objetivo é a

remoção/atenuação do ruído N (t), ou a melhoria/realce do sinal X(t).
235 / 247
MP
Processo Aleatório
Exemplo
Problema
Mostre que:

1 E ∆2 (t) = RXX (0) − 2RXY (t0 ) + RY Y (0) (expressão básica do MSE).
Z∞
2
1 jωt0 2

2 E ∆ (t) = SXX (jω) − 2SXW (jω)H(jω)e + SW W (jω)|H(jω)| dω
2π
−∞
(MSE na frequência).
3 se H(jω) = A(ω)ejB(ω) e SXW (jω) = C(ω)ejD(ω) , então as respostas de fase e de
amplitude ótimas são
C(ω)
Bo (ω) = −ωt0 − D(ω), Ao (ω) = .
SW W (jω)
Dica: determine primeiro Bo (ω) usando (b) e utilize o resultado para encontrar
Ao (ω).
4 se X(t) e N (t) são descorrelacionados, e o ruído N (t) possui média zero, então
SXX (jω) −jωt0
Ho (jω) = e .
SXX (jω) + SN N (jω)
236 / 247
MP
Processo Aleatório
Exemplo
1 Como X(t) e N (t) são processos aleatórios conjuntamente WSS, então W (t) é
WSS e como o filtro é SLIT, então Y (t) é WSS. Portanto,
2
2 2

E ∆ (t) =E X (t − t0 ) − 2X(t − t0 )Y (t) + Y (t) = RXX (0) − 2RXY (t0 ) + RY Y (0)
2
Z∞
1
RXX (0) = SXX (jω)dω
2π
−∞
Z∞ Z∞
1 jωt 1 jωt0
RXY (t0 ) = SXY (jω)e 0 dω = SXW (jω)H(jω)e dω
2π 2π
−∞ −∞
Z∞ Z∞
1 1 2
RY Y (0) = SY Y (jω)dω = SW W (jω)|H(jω)| dω
2π 2π
−∞ −∞
⇓
Z∞
2
1 jωt0 2

E ∆ (t) = SXX (jω) − 2SXW (jω)H(jω)e + SW W (jω)|H(jω)| dω
2π
−∞
237 / 247
MP
Processo Aleatório
Exemplo
3 Para minimizar o MSE, precisamos diminuir ao máximo o valor do integrando

j[ωt0 +D(ω)+B(ω)] 2
SXX (jω) − 2C(ω)A(ω)e + SW W (jω)A (ω) ∈ R
para cada frequência ω. A fase do filtro só influencia no fator
2C(ω)A(ω)ej[ωt0 +D(ω)+B(ω)] , o qual precisa ser maximizado. Logo, temos
Bo (ω) = −ωt0 − D(ω).
Usando essa fase, o integrando fica agora
2
SXX (jω) − 2C(ω)A(ω) + SW W (jω)A (ω),
que é minimizado quando
C(ω)
Ao (ω) = .
SW W (jω)
4 Neste caso, tem-se SXW (jω) = SXX (jω) e SW W (jω) = SXX (jω) + SN N (jω).
Logo,
∗
jBo (ω) C(ω)e−j[ωt0 +D(ω)] SXW (jω) −jωt0
Ho (jω) = Ao (ω)e = = e
SXX (jω) + SN N (jω) SXX (jω) + SN N (jω)
SXX (jω) −jωt0
= e
SXX (jω) + SN N (jω)
238 / 247
MP
Processo Aleatório
Introdução a Processos de Markov
Processos de Markov
Conceito
Um processo é de Markov se conhecer seu passado
não afeta a expectativa de seu futuro quando se conhece seu presente.
Sendo tn−1 < tn ,
P {X(tn ) ≤ xn |X(t), ∀t ≤ tn−1 } = P {X(tn ) ≤ xn |X(tn−1 )}
Sendo t1 < t2 < · · · < tn ,
P {X(tn ) ≤ xn |X(tn−1 ), . . . , X(t1 )} = P {X(tn ) ≤ xn |X(tn−1 )}
Só veremos tempo discreto: X(tn ) → X[n]
239 / 247
MP
Processo Aleatório
Sequências de Markov
Propriedades
fX (xn ; n|xn−1 , . . . , x1 ; n − 1, . . . , 1) = fX (xn ; n|xn−1 ; n − 1)
= PDF de transição
Regra da cadeia:
fX (x1 , . . . , xn ; 1, . . . , n) =
fX (xn ; n|xn−1 ; n − 1) · · · fX (x2 ; 2|x1 ; 1)fX (x1 ; 1)
E[X[n]|xn−1 , . . . , x1 ; n − 1, . . . , 1] = E[X[n]|xn−1 ; n − 1]
Revertida no tempo, continua de Markov:
fX (xn ; n|xn+1 , . . . , xn+k ; n + 1, . . . , n + k) = fX (xn ; n|xn+1 ; n + 1)
Sendo n1 < n2 < n3 ,
fX (xn1 , xn3 ; n1 , n3 |xn2 ; n2 ) = fX (xn3 ; n3 |xn2 ; n2 ) fX (xn1 ; n1 |xn2 ; n2 )
240 / 247
MP
Processo Aleatório
Sequências de Markov
Cálculo recursivo
Equação de Chapman-Kolmogorov:
Para n1 < n2 < n3 , Z
∞
fX (xn3 ; n3 |xn1 ; n1 ) = fX (xn3 ; n3 |xn2 ; n2 ) fX (xn2 ; n2 |xn1 ; n1 )dxn2 .
−∞
Toda a estatística de X[n] pode ser determinada
a partir de fX (xn ; n) e fX (xn ; n|xn−1 ; n − 1).
Sequência estacionária:
fX (xn ; n) e fX (xn ; n|xn−1 ; n − 1) são invariantes ao deslocamento.
Consequência: Toda a estatística de X[n] pode ser determinada
a partir de fX (x1 , x2 ; 1, 2).
Sequência homogênea:
fX (xn ; n|xn−1 ; n − 1) é invariante ao deslocamento.
Comumente: não é estacionário, mas tende a ser quando n → ∞.
241 / 247
MP
Processo Aleatório
Cadeias de Markov
Tempo e amplitude discretos

Definição: Cadeia de Markov é uma sequência de Markov com um
conjunto contável de estados.
Especificada em termos de:
Probabilidades de estados: P (X[n] = ai ) = pi [n]
Probabilidades de transição:
P (X[n2 ] = aj |X[n1 ] = ai ) = Πij [n1 , n2 ], n1 < n2
Propriedades
P
Sendo n1 < n2 , j
Πij [n1 , n2 ] = 1
P
p [k] Πij [k, n] = pj [n]
i i
P
Sendo n1 < n2 < n3 , Πij [n1 , n3 ] = n
Πin [n1 , n2 ] Πnj [n2 , n3 ]
(Chapman-Kolmogorov)
242 / 247
MP
Processo Aleatório
Cadeias de Markov Homogêneas
Propriedades e Notação
Πij [n1 , n2 ] = Πij [m], m = n2 − n1
P
Πij [n + k] = l Πil [k] Πlj [n]
Se o número de estados é finito, notação matricial:
Π[n + k] = Π[k].Π[n]
Definindo Π[1] = Π, Π[n] = Πn
p[n] = ΠT .p[n − 1] = (ΠT )n p[0]
243 / 247
MP
Processo Aleatório
Exemplo
Problema
Uma cadeia de Markov homogênea X[n] tem dois estados possíveis: s1 e s2 . As
probabilidades de estado são P (X[n] = s1 ) = p1 [n] e P (X[n] = s2 ) = p2 [n]. As
probabilidades de transição são P (X[n] = s2 |X[n − 1] = s1 ) = π12 [1] = 31 e
P (X[n] = s1 |X[n − 1] = s2 ) = π21 [1] = 31 .
1 O que caracteriza uma cadeia de Markov?
2 O que significa ela ser homogênea?

3 Desenhe o diagrama de transição de estados de X[n].
4 Monte a matriz de transição de estados
h i
π11 [1] π21 [1]
ΠT [1] = ΠT =
π12 [1] π22 [1]
5 Calcule p2 [1] = P (X[1] = s2 ) e p1 [2] = P (X[2] = s1 ), sabendo que X[0] = s1 .
6 Calcule p[∞], sabendo que
h i
p1 [n]
p[n] = .
p2 [n]
244 / 247
MP
Processo Aleatório
Exemplo
1 Uma sequência é de Markov se conhecer seu passado não afeta a expectativa

de seu futuro quando se conhece seu presente. Cadeia de Markov é uma
sequência de Markov com um conjunto contável de estados. OBS.: Aceitar
também a caracterização por PDF:
fX (xn ; n|xn−1 , . . . , x1 ; n − 1, . . . , 1) = fX (xn ; n|xn−1 ; n − 1), ressaltando que
tem um número contável de estados.
2 A PDF de transição fX (xn ; n|xn−1 ; n − 1) é invariante ao deslocamento.
3 Desenhar.
4

2 1
ΠT [1] = ΠT = 3
1
3
2
3 3
5 p[n] = ΠT p[n − 1]. Basta calcular p[1] e p[2], sabendo que p[0] = [1 0]T
6 p[∞] = ΠT p[∞], lembrando que p1 [∞] + p2 [∞] = 1. Logo,
p1 [∞] = p2 [∞] = 21 .
245 / 247
MP
Appendix
Referências
Referências
P. Z. Peebles, Jr.
Probability, Random Variables, and Random Signal Principles, 4th. ed.
McGraw-Hill, 2000.
K. S. Shanmugan & A. M. Breipohl
Random Signals: Detection, Estimation and Data Analysis.
Wiley, 1988.
S. Haykin & B. Van Veen
Signals and Systems, 2nd. ed.
Wiley, 2002.
A. Papoulis & S. U. Pillai
Probability, Random Variables and Stochastic Processes, 4th. ed.
McGraw-Hill, 2002.
246 / 247
MP
Appendix
Referências
Referências
J. P. A. e Albuquerque & J. M. P. Fortes & W. A. Finamore

Probabilidade, Variáveis Aleatórias e Processos Estocásticos, 1a. ed.
Interciência e PUC-Rio, 2008.
B. R. James
Probabilidade: Um Curso em Nível Intermediário, 3a. ed.
IMPA, 2006.
S. Kay
Intuitive Probability and Random Processes Using MATLAB® , 1st. ed.
Springer, 2006.
247 / 247

COE777 - Probabilidade e Processos Estocásticos: Notas de Aula

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

COE777 - Probabilidade e Processos Estocásticos: Notas de Aula

Enviado por

Direitos autorais:

Formatos disponíveis

MP

COE777 — Probabilidade e Processos Estocásticos

Prof. Wallace Alves Martins

Laboratório de Sinais, Multimídia e Telecomunicações (SMT)

Tais notas de aula consistem em modificações das notas de aula do

Horário de nossas aulas (4h/semana):

4 testes distribuídos ao longo do curso

Datas dos Testes

Teste 1: 16/03/2018 – sexta-feira

Planejamento das Aulas

Sugestão de Material Complementar

Curso do MIT 6.041

James Clerk Maxwell

Complexidade dos fenômenos físicos → incertezas

Exemplo: Tráfego Telefônico — Teoria de Filas

Exemplo: Tráfego Telefônico — Teoria de Filas

Note que n ≥ 200 (considerando, e.g., redundância) seria uma resposta

Exemplo: Tráfego Telefônico — Teoria de Filas

O problema descrito lida com uma população de usuários que solicita

Exemplo: Peças Defeituosas — Teoria da Decisão

Exemplo: Peças Defeituosas — Teoria da Decisão

Solução determinística inconcebível dada sua natureza “aleatória”

Exemplo: Comunicações Digitais — Teoria da Decisão

Lições para a Vida...

Modelos Determinísticos × Probabilísticos

Elemento & conjunto

Conjunto & conjunto

Relações entre Conjuntos

Operações entre Conjuntos

Note que, em geral, A − B 6= B − A

Relações entre Conjuntos

Operações entre Conjuntos

Operações entre Conjuntos

Caso importante: A ∩ B = ∅ ⇔ A e B disjuntos ou mutuamente exclusivos

Relações & Operações entre Conjuntos

Relações & Operações entre Conjuntos

O experimento aleatório pode ser repetido em condições idênticas

No exemplo das “peças defeituosas”:

No exemplo das “peças defeituosas”, S = {0, 1, 2, · · · , 20}

No exemplo das “peças defeituosas”, Aσ = 2S , S = {0, 1, · · · , 20}

Probabilidade como Frequência Relativa

Frequência Relativa de evento A

Princípio da indiferença ←→ resultados individuais equiprováveis

Probabilidade de evento aleatório A ∈ Aσ : P (A), P ({· · · }) ≡ P {· · · }

A ideia é trabalhar com funções P : Aσ → [0, 1] ⊂ R que satisfaçam os

Lições para a Vida...

Propriedades & Probabilidade Conjunta

Probabilidade condicional de A condicionada a B

Teorema da Probabilidade Composta

Seja Ai o evento “tirar rei na i-ésima extração”. Então

P (A1 ∩ A2 ∩ A3 ) = P (A1 ) P (A2 |A1 ) P (A3 |A1 ∩ A2 ) ≈ 1,81 · 10−4 .

Teorema da Probabilidade Total

ou ainda (usando a probabilidade total)

P (B2 = branca ∧ B1 = branca)

P (B1 = branca) = P (B1 = branca|Cbb )P (Cbb ) + P (B1 = branca|Cbp )P (Cbp )

em que os índices b e p representam branco e preto, respectivamente. Assim

O valor ficou baixo porque o conhecimento a priori de que é raro ter um

P ({Y = 0}|{X = 0}) = q,

P ({Y = 0}|{X = 0})

Portanto, quando Y = 0, vemos que

2 P ({X̂ 6= X}) = P ({X̂ = 1} ∩ {X = 0}) + P ({X̂ = 0} ∩ {X = 1}) =

Eventos A e B: Condição necessária e suficiente para independência:

N eventos: Condição análoga à 3a acima.