Probabilidade

Universidade do Estado do Rio de Janeiro – UERJ
Curso: Engenharia
Disciplina: Probabilidade e Estatística III
Professor: Marcelo Rubens
INTRODUÇÃO À PROBABILIDADE E ALGUNS RESULTADOS IMPORTANTES
1 - PROBABILIDADE E VARIÁVEIS ALEATÓRIAS
1.1 - CONCEITOS E DEFINIÇÕES PRELIMINARES
Experimento aleatório e suas características:
a) É um tipo de experimento no qual não é possível prever um resultado particular com

certeza absoluta, portanto, sujeito às leis do acaso;
b) Pode-se descrever ou definir a lista de todos os seus resultados possíveis;
c) Pode ser repetido indefinidamente sob condições inalteradas.
População ou espaço amostral - Conjunto ou lista de todos os resultados possíveis de um

experimento aleatório. O espaço amostral é usualmente denotado por Ω. Exemplos:
Lançamento de uma moeda: Ω={cara, coroa}
Lançamento de um dado: Ω={1, 2, 3, 4, 5, 6}
Renda média familiar anual: Ω=ℜ+ (conjunto dos números reais positivos)
Tempo que um trabalhador leva da sua casa para o trabalho.
Ponto amostral - Cada membro ou elemento indivisível pertencente a população ou espaço

amostral.
Evento - Qualquer subconjunto do espaço amostral.
Eventos mutuamente exclusivos - Eventos são mutuamente exclusivos quando a ocorrência

de um desses eventos exclui a possibilidade de ocorrência dos outros.
Eventos exaustivos - Eventos são (coletivamente) exaustivos quando a união desses eventos
eqüivale à população ou espaço amostral.
1.2 - PROBABILIDADE DE UM EVENTO NUM ESPAÇO EQUIPROVÁVEL
O conceito preliminar de probabilidade que iremos adotar refere-se a um número atribuído a

um evento com valor no intervalo entre zero e um (∈ [0,1]), de tal forma que se tivermos um
conjunto de eventos mutuamente exclusivos e exaustivos, então a soma da probabilidade
desses eventos deve ter o valor de um. Se A é um evento de um espaço amostral Ω, denotamos
probabilidade desse evento por P(A).
Nesta definição devemos observar que P(A) é uma função de valor real com as seguintes
propriedades:
• 0 ≤ P(A) ≤ 1 para todo A∈Ω;
1
• Se A, B, C, ... constituem uma coleção exaustiva de eventos, ou seja, Ω={A, B, C, ...}
então: P(A ou B ou C ou ...)=1;
• Se A, B, C, ... são eventos mutuamente exclusivos, então: P(A ou B
ou C ou ...)=P(A)+P(B)+P(C)+...;
• Se A, B, C, ... são eventos mutuamente exclusivos e exaustivos, então: P(A ou B
ou C ou ...)=P(A)+P(B)+P(C)+...=1
Seja Ω={a1, a2, ..., an}, onde ai, i=1, 2, ..., n são pontos amostrais. Ω é um espaço
equiprovável se P(a1)=P(a2)=...=P(an)=p, ou seja, se todos os pontos amostrais de Ω tiverem
mesma probabilidade. Como a soma das probabilidades deve ser um, então:
P(a1) + P(a2) + ... + P(an) = p + p + ... + p = np = 1 ⇒ p = P(ai) = 1 / n.
Se tivermos um total de N(Ω) resultados possíveis igualmente prováveis (não

tendenciosos) de um experimento aleatório, e se N(A) dentre eles forem os resultados
favoráveis à ocorrência do evento A, então a probabilidade de um evento num espaço
equiprovável sera:
P(A) = N(A) / N(Ω) = (# casos favoráveis ao evento A) / (# casos possíveis do experimento)
Exemplo: Considere o experimento que consiste de lançar um dado numerado de 1 a 6.

O espaço amostral consiste nos resultados 1, 2, 3, 4, 5 e 6. Estes seis pontos amostrais,
portanto, esgotam todo o espaço amostral. A probabilidade de ocorrer qualquer um desses
números é de 1/6 (supondo que cada ponto seja igualmente provável de ocorrer, ou seja, que o
dado não seja viciado), já que, para cada evento existe somente um caso favorável dentre seis
possíveis. Como 1, 2, 3, 4, 5 e 6 formam um conjunto mutuamente exclusivo e exaustivo de
eventos, então:
P(1 ou 2 ou 3 ou 4 ou 5 ou 6)=P(1)+P(2)+...+P(6)=1/6+1/6+1/6+1/6+1/6+1/6=1
Seja A={números primos de 1 a 6}={1, 2, 3, 5} ⇒ P(A)=4/6
1.3 - DEFINIÇÃO FREQUENTISTA OU CLÁSSICA DE PROBABILIDADE
Seja A um evento de um espaço amostral. A probabilidade do evento A, P(A), é a proporção de

vezes que o evento A ocorrerá se o experimento for repetido infinitas vezes. Se
realizarmos uma amostra de tamanho n do experimento, e nesta amostra for observada nA (nA ≤
n) ocorrências do evento A, então a freqüência relativa do evento A será a razão nA / n. Para
valores grandes de n, essa freqüência relativa fornecerá uma aproximação boa da probabilidade
de A:
nA
P(A) = lim
n →∞ n
2
1.4 - DEFINIÇÃO BAYESIANA DE PROBABILIDADE
Diferentemente do conceito clássico e freqüentista de probabilidade, o ponto de vista

Bayesiano ou subjetivo "mapeia" a probabilidade em uma região de valores [0,1] que refletem
a crença pessoal. Com respeito a crença pessoal na ocorrência de um evento A, sendo ele uma
afirmação, podemos ter:
P(A)=1 - Crença na verdade absoluta de uma afirmação;

P(A)=0 - Crença na negação absoluta de uma afirmação;
Valores Intermediários de P(A) - crenças parciais sobre afirmações.
1.5 - OPERADOR SOMATÓRIO
A letra grega maiúscula Σ é usada para indicar somatório da seguinte forma:

n
∑ X i = X1 + X 2 +...+ X n
i =1
Algumas propriedades:
n 4
1. ∑ k = nk , em que k é uma constante. Assim ∑ 3 = 3 + 3 + 3 + 3 = 4.3 = 12
i =1 i=1
n n
2. ∑ kX i = k ∑ X i , em que k é uma constante.
i =1 i =1
n n n n n
3. ∑ (aX i + bYi ) = ∑ aX i + ∑ bYi = a∑ X i + b∑ Yi , em que a e b são constantes
i =1 i =1 i =1 i =1 i =1
Seja o somatório duplo:

n m n m n
∑∑ X i, j = ∑ (∑ X i, j ) = ∑ (X i,1 + X i,2 + ... + X i,m ) =
i =1 j=1 i =1 j=1 i =1
= (X1,1 + X1, 2 + ... + X1,m ) +
+ (X 2,1 + X 2, 2 + ... + X 2,m ) +

+ (X n ,1 + X n , 2 + ... + X n ,m )
Propriedades do somatório duplo:

n m m n
1. ∑∑ X i, j = ∑∑ X i, j , ou seja, podemos trocar a ordem do somatório.
i =1 j=1 j=1 i =1
n m n m
2. ∑ ∑ X i Yj = ∑ X i ∑ Y j
i =1 j=1 i =1 j=1
n m n m n m
3. ∑∑ (X i, j + Yi, j ) = ∑ ∑ X i, j + ∑∑ Yi, j
i =1 j=1 i =1 j=1 i =1 j=1
n n n n n n −1 n n n
4. (∑ X i ) 2 = ∑ X i2 + ∑∑ X i X j = ∑ X i2 + 2 ∑ ∑ X i X j = ∑ X i2 + 2∑ X i X j
i =1 i =1 i =1 j=1 i =1 i =1 j=i +1 i =1 i< j
j≠i
Exemplo: ( X1 + X2 + X3 + X 4 ) 2 = X12 + X22 + X 23 + X24 + 2( X1X 2 + X1X 3 + X1X 4 + X 2 X3 + X 2 X 4 + X3X 4 )
3
1.6 - VARIÁVEIS ALEATÓRIAS
Uma variável cujo valor seja determinado pelo resultado de um experimento aleatório chama-
se variável aleatória (va). As variáveis aleatórias são geralmente indicadas pelas letras
maiúsculas X, Y, Z, etc..., e os valores assumidos por elas são indicados por letras minúsculas
x, y, z, etc.
Uma variável aleatória pode ser discreta ou contínua. Uma va discreta assume um
conjunto de valores enumeráveis podendo ser finito ou infinito. Por exemplo, no experimento
de lançamento de dois dados, cada um numerado de 1 a 6, se definirmos a variável aleatória X
como a soma dos números que aparecem no lado superior dos dados, então X poderá assumir
um dos seguintes valores: 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, ou 12. Portanto X é uma variável
aleatória discreta.
Uma va continua, por outro lado, é a que pode assumir qualquer valor em algum
intervalo de valores. Assim, a altura de uma pessoa é uma variável aleatória contínua, já que na
faixa de, digamos, 1,60m a 2,00m ela pode assumir qualquer valor dependendo da precisão da
medida, p.ex.: 1,876m.
Definindo matematicamente: uma V.A. é uma função que atribui um valor real a cada
ponto pertencente ao espaço amostral (ou estados da natureza). Por exemplo:
Ω → ℜ
A função X :  é V.A. se o evento (X ≤ x) tiver probabilidade definida ∀x ∈ ℜ .
ω → x
Dado o espaço amostral Ω , a função
Ω → ℜ n
X = (X 1 , X 2 ,..., X n ) : 
ω → x = (x 1 ,..., x n )
é uma V. A. n-dimensional se o evento (Χ 1 ≤ x 1 ;...; Χ n ≤ x n ) tiver probabilidade definida
∀x ∈ ℜ n .
Mostra-se que cada Xi ∈ X é uma V.A. unidimensional e qualquer subconjunto de m
< n variáveis ∈ X é uma V.A. m-dimensional (Meyer, pg.110).
Define-se função de distribuição de uma V.A. n-dimensional X à função:
FX (x ) = Ρ(Χ 1 ≤ x 1 ;...; Χ n ≤ x n ) , que pela definição de V.A. está definida ∀x ∈ ℜ n .
Dentre as propriedades de FX (x ) destaca-se (em geral decorrentes da definição de
probabilidade):
1. FX (x ) ∈[0 ,1]
2. FX (+ ∞; + ∞; ...; + ∞) = 1
3. FX (x ) é não decrescente
4. A função de distribuição de cada subconjunto de m (1≤m<n) V.As m-dimensionais é

obtida tornando-se o limite → +∞ das (n – m) V.As que não pertencem ao subconjunto na
função de distribuição.
5. FX (x ) é contínua à direita em cada ponto xi ∈ x
4
1.6.1 - FUNÇÃO DE PROBABILIDADE (va discreta)
1.6.1.1 - FUNÇÃO DE PROBABILIDADE UNIVARIADA
Assuma que o conjunto de valores que define o espaço amostral de uma variável aleatória
discreta X, seja Rx={x1, x2, ...}. Então a função de probabilidade de X será a função Px(x) que
satisfaz as condições:
1) Px(x)=P(X=x), se x ∈ Rx
Px(x)=0 se x ∉ Rx;
2) 0 ≤ Px(x) ≤ 1;
3) ∑ Px ( x) = 1
x∈R x
4) FX (a ) = ∑ Px (x )
x ≤a
1.6.1.2 - FUNÇÃO DE PROBABILIDADE CONJUNTA (BIVARIADA)
Suponha que o experimento que define a va discreta X ocorra em conjunto com o experimento
que define a va discreta Y cujo espaço amostral seja Ry={y1, y2, ...}, de maneira análoga
definimos a função de probabilidade conjunta Pxy(X=x e Y=y):
1) Pxy(x,y)=P(X=x e Y=y), se x ∈ Rx e y ∈ Ry
Pxy(x,y)=0 se x ∉ Rx ou y ∉ Ry;
2) 0 ≤ Pxy(x,y) ≤ 1;
3) ∑ ∑ Pxy ( x, y) = 1
x∈R x y∈R y
4) FXY (a , b) = ∑ ∑ Pxy (x, y)

x ≤a y≤ b
1.6.1.3 - FUNÇÃO DE PROBABILIDADE MARGINAL (BIVARIADA)
De posse de uma distribuição de probabilidade conjunta em X e Y (v.a.s discretas) podemos

calcular a funções de probabilidade marginais, respectivamente:
Px ( x ) = ∑ Pxy ( x, y) e Py ( y) = ∑ Pxy ( x, y)
y∈R y x∈R x
A tabela a seguir fornece um exemplos de função de probabilidade conjunta e marginal de

XeY
5
TABELA 1
Pxy(x,y) X
-2 0 2 3 Py(y)
Y 3 0,27 0,08 0,16 0,00 0,51
6 0,00 0,04 0,10 0,35 0,49
Px(x) 0,27 0,12 0,26 0,35 1
1.6.1.4 - FUNÇÃO DE PROBABILIDADE CONDICIONAL (BIVARIADA)
As funções de probabilidade condicionais em X e Y são respectivamente:
Pxy ( x , y)
Px|y ( x | y) = P(X = x | Y = y) ≡
Py ( y)
Pxy ( x , y)
Py|x ( y | x ) = P(Y = y | X = x ) ≡
Px ( x )
Exemplos:
Px| y (2 | 3) = 0 ,16
0 , 51 = 0,3137 e Py|x (6 | 2) = 0 ,10
0 , 26 = 0,3846
X Px|y(x|Y=3)
Y Py|x(y|X=2)
-2 0,5294
3 0,6154
0 0,1569
2 0,3137 6 0,3846
soma 1
3 0,0000
soma 1
Obs.: Nos exemplos acima pudemos observar que
∑ Px|y (x | Y = y) = 1 e ∑ Py|x ( y | X = x ) = 1
x∈R x y∈R y
1.6.1.5 - FUNÇÃO DE PROBABILIDADE CONJUNTA (MULTIVARIADA)
Seja o vetor de variáveis aleatórias (discretas) X =(X1, X2, ..., Xn )
A função de probabilidade conjunta satisfaz as seguintes condições:
1) Px1 x2 ... xn(x1, x2, ..., xn) = P(X1=x1 e X2=x2 e .... e Xn=xn) se x ∈ R x
Px1 x2 ... xn(x1, x2, ..., xn) = 0 caso contrário
6
2) 0 ≤ Px1 x2 ... xn(x1, x2, ..., xn) ≤ 1;
3) ∑ ∑ ∑ Px x ...x
1 2 n
( x 1 , x 2 ,..., x n ) = 1
x1∈R x1 x 2∈R x 2 x n ∈R x n
4) FX (a 1 , a 2 ,..., a n ) = ∑ ∑ ∑ Px x ...x
1 2 n
( x 1 , x 2 ,..., x n )
x1 ≤a1 x 2 ≤a 2 x n ≤a n
1.6.2 - FUNÇÃO DE DENSIDADE DE PROBABILIDADE (va contínua)
1.6.2.1 - FUNÇÃO DE DENSIDADE DE PROBABILIDADE UNIVARIADA
Seja X uma va contínua. Então f(x) é a função de densidade de probabilidade (fdp) se

satisfizer as seguintes condições:
b
1) ∫ f ( x)dx = P(a ≤ x ≤ b) ;
a
2) f(x) ≥ 0;
∞
3) ∫ f (x)dx = 1.
−∞
a
4) FX (a ) ∫ f ( x )dx
−∞
5) P(a ≤ x ≤ b) = FX (b) − FX (a )
d
Obs.: f ( x ) = FX ( x )
dx
1.6.2.2 - FUNÇÃO DE DENSIDADE DE PROBABILIDADE CONJUNTA

(BIVARIADA)
Quando o experimento que define a va contínua X ocorre conjuntamente com o experimento

que define a va contínua Y, então f(x,y) é a função de densidade de probabilidade conjunta
que satisfaz:
bd
1) ∫ ∫ f ( x, y)dxdy = P(a ≤ x ≤ b e c ≤ y ≤ d) ;
a c
2) f(x,y) ≥ 0;
7
∞ ∞
3) ∫ ∫ f ( x, y)dxdy = 1
−∞ −∞
a b
4) FXY (a , b) = ∫ ∫ f (x, y)dxdy
−∞ −∞
1.6.2.3 - FUNÇÃO DE DENSIDADE DE PROBABILIDADE MARGINAL

(BIVARIADA)
De posse de uma função de densidade de probabilidade conjunta em X e Y (v.a.s contínuas)

podemos calcular a funções de densidade de probabilidade marginais, respectivamente:
∞ ∞
f (x ) = ∫ f ( x, y)dy e f ( y) = ∫ f ( x, y)dx
−∞ −∞
1.6.2.4 - FUNÇÃO DE DENSIDADE DE PROBABILIDADE CONDICIONAL

(BIVARIADA)
As funções de densidade de probabilidade condicionais em X e Y (contínuas) são

respectivamente:
f ( x , y) f ( x , y)
f ( x | y) ≡ e f (y | x) ≡
f ( y) f (x )
1.6.2.5 - FUNÇÃO DE DENSIDADE DE PROBABILIDADE CONJUNTA

(MULTIVARIADA)
Seja o vetor de variáveis aleatórias (contínuas) X =(X1, X2, ..., Xn )
A função de densidade de probabilidade conjunta f X (x ) satisfaz as seguintes condições:

Propriedades:
1. f X (x ) ≥ 0
+∞ +∞ +∞
2. ∫ ∫ ... ∫ f X (x )dx 1dx 2 ...dx n = 1
−∞ −∞ −∞
x1 x 2 xn
3. FX (x ) = ∫ ∫ ... ∫ f X (µ1 , µ 2 ,...µ n )dµ1dµ 2 ...dµ n
−∞ −∞ −∞
∂n
Obs.: f X (x ) = FX (x )
∂x 1∂x 2 ...∂x n
8
1.7 - CARACTERÍSTICAS DAS VARIÁVEIS ALEATÓRIAS
1.7.1 - INDEPENDÊNCIA ESTATÍSTICA
uma V.A. n- dimensional com Função distribuição FX (x ) . Diz-se que as

n
Sendo X ∈ ℜ
V.As Xi , i = 1, ..., n são independentes se, e somente se:
FX (x ) = FX1 (x 1 )FX 2 (x 2 )...FX n (x n ) , ∀ x ∈ ℜ n
decorre que (caso bivariado):
Pxy(x,y)=Px(x)Py(y), ∀ {(x,y) ; x ∈ Ζ e y ∈ Ζ} - vas discretas
f(x,y)=f(x)f(y), ∀ (x,y) ∈ ℜ 2 - vas contínuas
Pela definição acima as variáveis X e Y da tabela 1 não são independentes. Na tabela

seguinte temos um exemplo de vas independentes:
TABELA 2
Pxy(x,y) X
1 2 3 Py(y)
Y 1 1/6 1/6 1/6 1/2
2 1/6 1/6 1/6 1/2
Px(x) 1/3 1/3 1/3
1.7.2 - VALOR ESPERADO OU MÉDIA
É uma medida que fornece a tendência central dos valores de uma variável aleatória (caso
univariado), definida como:
E (X) = ∑ x. Px (x) - va discreta

x∈R x
∞
E (X) = ∫ xf (x)dx - va contínua
−∞
Exemplos:
Com os dados da tabela 1 temos: E(X)=(-2)(0,27)+(0)(0,12)+(2)(0,26)+(3)(0,35)=1,03
Com os dados da tabela 2 temos: E(X)=(1)(0,33...)+(2)(0,33...)+(3)(0,33...)=2
9
 ℜn → ℜ
Generalizando a definição para o caso multivariado aplicado à função g ( X) : 
x → g ( x )
E[g (X)] = ∑ ∑ ∑ g ( x )PX ( x ) para o caso discreto
x1∈R x1 x 2∈R x 2 x n ∈R x n
+∞ +∞ +∞
E[g (X)] = ∫ ∫ ... ∫ g( x )f X (x )dx1dx 2 ...dx n para o caso contínuo
−∞ −∞ −∞
1.7.2.1 – ALGUMAS PROPRIEDADES DO VALOR ESPERADO
1) Se a for uma constante numérica , então:

E(a)=a;
2) Se a for uma constante numérica e X uma variável aleatória:

E(aX)=aE(X);
3) Se a1, a2, ..., an forem constantes numéricas e X1, X2, ..., Xn variáveis aleatórias:
E(a1X1+a2X2+...+anXn)=a1E(X1)+a2E(X2)+...+anE(Xn);
4) Se X1, X2, ..., Xn variáveis aleatórias independentes ⇒ E(X1X2 ... Xn)= E(X1)E(X2)...E(Xn)
OBS.: A volta não é necessariamente verdadeira. Há exemplos onde
E(X1X2)=E(X1)E(X2) ⇒ / X1, X2 VAs indep
1.7.3 - VARIÂNCIA E DESVIO-PADRÃO
Seja X uma variável aleatória e E(X)=µ. A variância é uma medida que indica a dispersão dos
valores da va X em torno da média, definida como:
VAR(X)=σx2=E[(X-µ)2]
A raiz quadrada positiva de σx2, σx é definida como o desvio-padrão de X
1.7.3.1 – ALGUMAS PROPRIEDADES DA VARIÂNCIA
1) VAR(X)=E(X2)-E(X)2≥0;
2) Se a for uma constante numérica , então:

VAR(a)=0;
3) Se a for uma constante numérica e X uma variável aleatória:

VAR(aX)=a2VAR(X)
VAR(a+X)=VAR(X);
4) Se a1, a2, ..., an forem constantes numéricas e X1, X2, ..., Xn variáveis aleatórias
independentes: VAR(a1X1+a2X2+...+anXn)=a12VAR(X1)+a22VAR(X2)+...+an2VAR(Xn)
10
1.7.4 - COVARIÂNCIA
A covariância entre duas variáveis aleatórias X e Y com médias µx e µy indica o tipo de

relacionamento entre essas variáveis pelo seu sinal, é definida como a seguir:
COV(X,Y)=E[(X-µx)(Y-µy)]
Quando seu sinal e positivo podemos afirmar que, na média, existe uma tendência para
que quando os valores de X estiverem acima da sua média (µx) - valores grandes -, Y também
estará acima da sua média (µy) e quando valores de X estiverem abaixo da sua média - valores
pequenos -, Y também estará abaixo da sua média. Quando seu sinal é negativo, a conclusão
será invertida, ou seja, valores grandes de X acontecem quando Y tende a ser pequeno e vice
versa. Quando seu valor é nulo, se X é grande ou pequeno, nada podemos concluir com relação
a Y.
1.7.4.1 – ALGUMAS PROPRIEDADES DA COVARIÂNCIA
1) COV(X,Y)=COV(Y,X)=E(XY)-µxµy;
2) COV(aW+bX,dY)=adCOV(W,Y)+bdCOV(X,Y), onde a,b,d constantes numéricas;
3) COV(a+bX,c+dY)=bdCOV(X,Y), onde a,b,c,d constantes numéricas;
4) COV(a,X)=0, onde a é uma constante;
5) Se X e Y são independentes: COV(X,Y)=0;
6) VAR(X+Y)=VAR(X)+VAR(Y)+2COV(X,Y);
7) VAR(X-Y)=VAR(X)+VAR(Y)-2COV(X,Y);
8) Se a1, a2, ..., an forem constantes numéricas e X1, X2, ..., Xn variáveis aleatórias, então:
n n n −1 n
VAR (∑ a i X i ) = ∑ a i2 VAR (X i ) + 2 ∑ ∑ a i a jCOV(X i , X j )
i =1 i =1 i =1 j=i +1
Exemplos: Sejam duas populações (ou variáveis aleatórias) X e Y com N elementos cada. Se
cada elemento dessas populações tiver igual probabilidade (1/N), então:
N
N
1 N
∑ Xi
E (X) = µ x = ∑ (X i ⋅ N ) = ∑ X i =
1 i =1
=X
i =1 N i =1 N
N
∑ Yi
i =1
E (Y) = µ y = =Y
N
11
N
∑ X i Yi
i =1
E (XY) =
N
N
n ∑ (X i − X) 2
VAR (X) = E[(X − µ) 2 ] = E[(X − X) 2 ] = ∑ [(X i − X) 2 ⋅ N1 ] = i =1
= σ 2x
i =1 N
N
∑ ( Yi − Y) 2
i =1
VAR ( Y) = = σ 2y
N
N
∑ (X i − X)(Yi − Y)
i =1
COV (X, Y) = E[(X − µ x )(Y − µ y )] = = = E (XY) − E(X )E(Y )
N
1.7.5 - COEFICIENTE DE CORRELAÇÃO LINEAR
O coeficiente de correlação linear entre as variáveis aleatórias X e Y é definido como:

COV( X, Y)
ρ xy =
σ xσ y
É uma medida da associação linear entre duas variáveis e se encontra entre -1 e +1,
onde ρxy=-1 indica uma associação linear negativa perfeita (Y = a - bX), ρxy=+1 indica uma
associação linear positiva perfeita (Y = a + bX) e ρxy=0 indica a ausência completa de relação
linear entre X e Y.
1.8 - ALGUMAS FUNÇÕES DE DENSIDADE DE PROBABILIDADE ÚTEIS
1.8.1 - DISTRIBUIÇÃO GAMA
Diz-se que X é uma va aleatória Gama de parâmetros α e λ, Gama(α,λ) se:
f(x)=0, para x<0

α ∞
λ
f (x) = x α −1e −λx , para x>0 e Γ(α) = ³ x α −1e − x dx (função Gama)
Γ (α ) 0
Pode-se demonstrar que:

E(X)=α/λ
VAR(X)=α/λ2
Aplicações: resultados analíticos da inferência estatística clássica. Algumas distribuições de

probabilidade importantes são casos particulares da distribuição Gama, como a exponencial e a
qui-quadrado.
12
1.8.2 - DISTRIBUIÇÃO QUI-QUADRADO
É outro caso particular da fdp Gama: Gama(k/2,1/2) onde k é chamado de graus de liberdade
da distribuição. Apresenta importantes aplicações na inferência estatística clássica e na
inferência não paramétrica. Alguns valores dessa distribuição encontram-se tabelados em livros
sobre o assunto.
1.8.3 - DISTRIBUIÇÃO NORMAL (DE GAUSS OU GAUSSIANA)
Uma va X tem distribuição de probabilidades Normal com parâmetros (µ,σ2) se:
( x −µ )2
1 −
f ( x) = e 2σ2 , x é número real
σ 2π
Pode-se demonstrar que:

E(X)=µ
VAR(X)=σ2
f(µ) é o máximo de f(x)
Trata-se de uma das distribuições mais importantes do cálculo de probabilidades e da

inferência estatística. Isso porque além das observações empíricas, já foi demonstrado
teoricamente que muitas das situações aleatórias do mundo real podem ser modeladas ou
aproximadas por essa distribuição de probabilidades. No gráfico abaixo podemos perceber a
importante propriedade de simetria desta fdp.
Distribuicão Normal(150,30) - f(x)

fdp
0
2
9
6
3
0
7
4
1
8
5
2
9
17
34
51
68
85
10
11
13
15
17
18
20
22
23
25
27
28
Devido a sua grande importância, esta distribuição de probabilidades encontra-se

tabelada em praticamente todos os livros que abordam este assunto. Para tanto deve-se
proceder a uma transformação linear que padroniza essa distribuição como uma Normal(0,1).
Toda Normal(µ,σ2) pode ser convertida para a Normal(0,1).
13
Propriedades da distribuição normal:
1. Sejam X1~Normal(µ1,σ12), X2~Normal(µ2,σ22), ..., Xn~Normal(µn,σn2), e a1, a2, ..., an

n n
constantes, então: G = ∑ a i X i ~ Normal(µ g = ∑ a 1µ i , σ g2 ) (combinação linear de
i =1 i =1
v.as. Normais também tem distribuição Normal)
x−µ
2. Se X ~ Normal(µ,σ2) então Z = ~ Normal(0,1) (padronização)
σ
3. P(0<Z<a)=P(-a<Z<0) e P(Z>a)=P(Z<-a), onde a é constante. (simetria)
1.9 - TEOREMA DO LIMITE CENTRAL (uma de suas versões)
Se X1, X2, ..., Xn são variáveis aleatórias independentes com médias µ1, µ2, ...,µn e
n
variâncias σ12, σ22, ..., σn2 respectivamente, então a distribuição de Y = ∑ X i tende a uma
i =1
n n
distribuição Normal com média E (Y) = ∑ µ i e variância VAR(Y) = ∑ σ i2 quando n→∞.
i =1 i =1
Trata-se de um dos resultados mais importantes do cálculo de probabilidades, já que,

toda vez que pudermos supor que a componente aleatória de um modelo seja provocado por
uma grande quantidade de fatores causais independentes com distribuições desconhecidas,
podemos modelar a distribuição de probabilidades da soma desses fatores pela distribuição
Normal.
1.10 - OUTROS TEOREMAS
1) Sejam Z1, Z2, ..., Zk variáveis normais padronizadas (Normal(0,1)) independentes. Então, a
k
quantidade Z = ∑ Z 2i tem distribuição Qui-quadrado (χ 2k ) com k graus de liberdade.
i =1
Z1
2) Sejam Z1 ~ Normal(0,1) e Z2 ~ χ 2k independentes, então a transformação t = têm
Z2 / k
distribuição t de Student (tk) com k graus de liberdade.
Esta distribuição também é simétrica e converge para a distribuição Normal quando
k→∞. Também a encontramos tabelada em muitos livros.
Z1 k 1
3) Sejam Z1 ~ χ 2k1 e Z2 ~ χ2k2 independentes , então a transformação F = segue a
Z2 k 2
distribuição F de Fisher (Fk1 ,k 2 ) com k1 e k2 graus de liberdade. É comum encontrá-la
tabelada em livros.
14

Probabilidade

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Probabilidade

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade do Estado do Rio de Janeiro – UERJ

INTRODUÇÃO À PROBABILIDADE E ALGUNS RESULTADOS IMPORTANTES

1 - PROBABILIDADE E VARIÁVEIS ALEATÓRIAS

1.1 - CONCEITOS E DEFINIÇÕES PRELIMINARES

Experimento aleatório e suas características:

a) É um tipo de experimento no qual não é possível prever um resultado particular com

População ou espaço amostral - Conjunto ou lista de todos os resultados possíveis de um

Ponto amostral - Cada membro ou elemento indivisível pertencente a população ou espaço

Evento - Qualquer subconjunto do espaço amostral.

Eventos mutuamente exclusivos - Eventos são mutuamente exclusivos quando a ocorrência

1.2 - PROBABILIDADE DE UM EVENTO NUM ESPAÇO EQUIPROVÁVEL

O conceito preliminar de probabilidade que iremos adotar refere-se a um número atribuído a

P(a1) + P(a2) + ... + P(an) = p + p + ... + p = np = 1 ⇒ p = P(ai) = 1 / n.

Se tivermos um total de N(Ω) resultados possíveis igualmente prováveis (não

P(A) = N(A) / N(Ω) = (# casos favoráveis ao evento A) / (# casos possíveis do experimento)

Exemplo: Considere o experimento que consiste de lançar um dado numerado de 1 a 6.

Seja A={números primos de 1 a 6}={1, 2, 3, 5} ⇒ P(A)=4/6

1.3 - DEFINIÇÃO FREQUENTISTA OU CLÁSSICA DE PROBABILIDADE

Seja A um evento de um espaço amostral. A probabilidade do evento A, P(A), é a proporção de

Diferentemente do conceito clássico e freqüentista de probabilidade, o ponto de vista

P(A)=1 - Crença na verdade absoluta de uma afirmação;

1.5 - OPERADOR SOMATÓRIO

A letra grega maiúscula Σ é usada para indicar somatório da seguinte forma:

Seja o somatório duplo:

Propriedades do somatório duplo:

4. A função de distribuição de cada subconjunto de m (1≤m<n) V.As m-dimensionais é

5. FX (x ) é contínua à direita em cada ponto xi ∈ x

1.6.1.1 - FUNÇÃO DE PROBABILIDADE UNIVARIADA

1.6.1.2 - FUNÇÃO DE PROBABILIDADE CONJUNTA (BIVARIADA)

4) FXY (a , b) = ∑ ∑ Pxy (x, y)

1.6.1.3 - FUNÇÃO DE PROBABILIDADE MARGINAL (BIVARIADA)

De posse de uma distribuição de probabilidade conjunta em X e Y (v.a.s discretas) podemos

A tabela a seguir fornece um exemplos de função de probabilidade conjunta e marginal de

1.6.1.4 - FUNÇÃO DE PROBABILIDADE CONDICIONAL (BIVARIADA)

As funções de probabilidade condicionais em X e Y são respectivamente:

Obs.: Nos exemplos acima pudemos observar que

1.6.1.5 - FUNÇÃO DE PROBABILIDADE CONJUNTA (MULTIVARIADA)

Seja o vetor de variáveis aleatórias (discretas) X =(X1, X2, ..., Xn )

A função de probabilidade conjunta satisfaz as seguintes condições:

1.6.2 - FUNÇÃO DE DENSIDADE DE PROBABILIDADE (va contínua)

1.6.2.1 - FUNÇÃO DE DENSIDADE DE PROBABILIDADE UNIVARIADA

Seja X uma va contínua. Então f(x) é a função de densidade de probabilidade (fdp) se

1.6.2.2 - FUNÇÃO DE DENSIDADE DE PROBABILIDADE CONJUNTA

Quando o experimento que define a va contínua X ocorre conjuntamente com o experimento

1.6.2.3 - FUNÇÃO DE DENSIDADE DE PROBABILIDADE MARGINAL

De posse de uma função de densidade de probabilidade conjunta em X e Y (v.a.s contínuas)

1.6.2.4 - FUNÇÃO DE DENSIDADE DE PROBABILIDADE CONDICIONAL

As funções de densidade de probabilidade condicionais em X e Y (contínuas) são

1.6.2.5 - FUNÇÃO DE DENSIDADE DE PROBABILIDADE CONJUNTA

Seja o vetor de variáveis aleatórias (contínuas) X =(X1, X2, ..., Xn )

A função de densidade de probabilidade conjunta f X (x ) satisfaz as seguintes condições:

1.7.1 - INDEPENDÊNCIA ESTATÍSTICA

uma V.A. n- dimensional com Função distribuição FX (x ) . Diz-se que as

FX (x ) = FX1 (x 1 )FX 2 (x 2 )...FX n (x n ) , ∀ x ∈ ℜ n

decorre que (caso bivariado):

Pxy(x,y)=Px(x)Py(y), ∀ {(x,y) ; x ∈ Ζ e y ∈ Ζ} - vas discretas

f(x,y)=f(x)f(y), ∀ (x,y) ∈ ℜ 2 - vas contínuas

Pela definição acima as variáveis X e Y da tabela 1 não são independentes. Na tabela

1.7.2 - VALOR ESPERADO OU MÉDIA

E (X) = ∑ x. Px (x) - va discreta

1.7.2.1 – ALGUMAS PROPRIEDADES DO VALOR ESPERADO

1) Se a for uma constante numérica , então:

2) Se a for uma constante numérica e X uma variável aleatória: