Sebenta Probabilidades Estatistica 2007 2008

1.
Conceitos básicos
1.1 Objectivos da Estatística
Definição de Estatística
Estatística é a ciência que recolhe, descreve e interpreta dados, ou seja, é um conjunto de ferramentas
básico para a pesquisa empírica.
O objectivo científico da análise de dados é o de descrever a nossa percepção do mundo. A descrição de

relações entre fenómenos observáveis por meio de teorias é considerada, às vezes, exploratória. (Embora
se possa argumentar que a ciência simplesmente descreve como as coisas acontecem e não por que
acontecem).
Estatística Descritiva
Estatística Descritiva engloba ferramentas destinadas a organizar e apresentar dados de uma maneira
acessível, que não ultrapasse os limites sensoriais da mente humana. A descrição estatística ajuda na
formação de intuição a respeito da ocorrência de fenómenos isolados e de suas respectivas relações entre
si. A Estatística dedica-se ao estudo das variações nas características de diferentes objectos. Mas a
variabilidade pode ter uma natureza determinística (controlada) ou aleatória. A Física, por exemplo, se
preocupa principalmente com a formulação matemática de relações exactas, não deixando espaço para
flutuações aleatórias. Tais flutuações aleatórias são modeladas na estatística. Relações estatísticas são,
portanto, relações que consideram uma certa proporção de variabilidade estocástica.
Estatística Indutiva
As relações empíricas observadas nas ciências naturais, sociologia, psicologia e outras são estatísticas. O
trabalho empírico nestas áreas é tipicamente baseado em acontecimentos e pesquisas sobre amostras. Em
qualquer um dos casos a população total não pode, por motivos práticos ou económicos, ser observada.
Realizar inferências sobre características de uma população baseadas em uma amostra limitada de
objectos desta população é o objectivo da inferência ou estatística indutiva. Aqui, variabilidade é o
resultado da variação da amostra e do processo amostral.
Estatística e o Processo Científico

Consoante do nível de investigação científica, os dados são examinados com diferentes graus de
informação disponível. Os dados podem ser recolhidos com o objectivo de investigar primeiramente
algum fenómeno e também com o objectivo de testar estatisticamente (aceitar/rejeitar) alguma hipótese a
respeito da estrutura da(s) característica(s) investigada(s).
Portanto, a Estatística é aplicada a todos os estágios do processo científico, sempre que fenómenos
quantificáveis são envolvidos.
Dr. Ricardo São João 2006/2007 ESGS Probabilidade e Estatística 1

1.2 Elementos Estatísticos e População
Elementos Estatísticos
Objectos cujos atributos são observados ou medidos com finalidade estatística são chamados elementos.
Para identificar todos os elementos relevantes em certa investigação, é necessário especificar as

características que os definem.
Exemplo: Censo Populacional em Portugal
• Característica: Ser Cidadão Português.
População
Ao Universo de elementos estatísticos abrangidos por um conjunto particular de especificações é
chamado população.
A recolha de informação de uma parte da população dá origem a uma amostra.
Populações podem ter tamanho finito ou infinito.
1.3 Variável Estatística

Uma característica observável num dado estatístico é chamada variável.
Os valores reais das variáveis estatísticas são chamados de observações, medidas ou dados.
O conjunto de valores possíveis que uma variável pode assumir é chamado espaço amostral.
Variáveis são representadas por letras maiúscula (X,Y,…) enquanto as suas realizações são representadas
por letras minúsculas (x1,x2,…,y1,y2). Os índices representam os elementos estatísticos pertencentes à
amostra.
Variável Observação
Variáveis acabam por ser as características a serem estudadas num determinado conjunto.Vejamos os
exemplos que se seguem:

Símbolo Variável Espaço amostral
Idade (arredondada para anos)
Sexo {feminino, masculino}

Estado civil {solteiro, casado, viúvo, divorciado}
Renda mensal
1.4 Escalas de Medida

Com base na tabela anterior, verifica-se que as variáveis podem assumir valores distintos. Elas podem ser
classificadas em quantitativas, ou seja, avaliadas numericamente (idade, renda) e qualitativas, ou seja,
variáveis categóricas (sexo, estado civil). Como valores numéricos são geralmente designados para
observações qualitativas, estas podem parecer quantitativas. Entretanto, estas designações sintéticas não
são da mesma natureza que as medições numéricas que surgem naturalmente na observação do fenómeno.
A diferença fundamental entre variáveis quantitativas e qualitativas se encontra nas propriedades da

escala de medida, que se revela crucial para a aplicabilidade dos métodos estatísticos.
Uma medição é uma atribuição numérica a uma observação. Algumas medidas parecem mais naturais que
outras. Por exemplo, na altura de uma pessoa, pode-se usar um critério que garanta comparabilidade entre
diferentes observações com bastante precisão, independentemente da unidade de medida (metros ou
centímetros). Por outro lado, a nota de um exame representa uma forma de classificação menos robusta,
indicando um determinado ranking, sendo possível colocar vários estudantes na mesma categoria. Os
valores designados para estados qualitativos como "muito bom", "regular" etc. são arbitrários, porém é
um modo prático para avaliação dos estudantes. Como não há uma razão conceptual em que se baseia a
escala de notas de exames, não se deve tentar interpretar "distâncias" entre as notas.
Claramente, as medidas de altura nos dão mais informação que as notas dos exames. Afirmações tais
como: "José é duas vezes mais alto que Tonico" ou "Manuela é 35 centímetros mais baixa que seu
marido" são permitidas.
Como já referido nas aulas de Estatística II, as variáveis podem ter quatro escalas de medida, a saber:
Nominal, ordinal, intervalar e de razão.
1.5 Variáveis Qualitativas

Escala Nominal
É a escala mais primitiva. Se um espaço amostral consiste em categorias sem um ordenamento natural, a
variável aleatória correspondente está numa escala nominal. Por exemplo, a variável cor dos olhos,
poderá apenas tomar os seguintes valores {azuis, verdes, pretos, castanhos}, não se podendo estabelecer
nenhuma hierarquia no conjunto de valores.

Escala Ordinal
Se os números designados para medições expressam um ranking natural, a variável é medida numa escala
ordinal.
As distâncias entre diferentes valores não podem ser interpretadas. Uma variável medida em uma escala
ordinal é, de certa maneira, não-quantitativa. Por exemplo, notas escolares reflectem diferentes níveis de
realização. Entretanto, normalmente não existe razão para considerar um trabalho avaliado com uma nota
"5"1 duas vezes melhor que outro avaliado com uma nota "2"2.
Existe uma grande quantidade de exemplos para variáveis que se encontram em uma escala ordinal. Por
exemplo: Variáveis que tentam medir conceitos relativos ao "status social", "inteligência", "nível de
satisfação", etc.
1.6 Variáveis Quantitativas

Além de possuírem uma escala ordinal, estas variáveis também podem ser interpretadas em termos de
distâncias entre observações.
Escala de Intervalos
Se distâncias entre medições podem ser interpretadas de forma significativa, a variável é medida em uma
escala de intervalos. Ao contrário da escala de razão, proporções de medições não têm um significado
substancial. Nesta escala não existe um zero absoluto. Por exemplo, temperaturas medidas em graus
centígrados podem ser interpretadas em ordem de maior ou menor nível, no entanto se pensarmos na
conversão destas temperaturas em Fahrenheit, constata-se a mudança do ponto zero.
Escala de Razão
Valores de variáveis medidos numa escala de razão podem ser interpretados tanto em termos de
distâncias como em termos de proporções.
O fenómeno medido numa escala de razão possui um zero absoluto. Exemplos são as medidas em peso,
altura, idade, etc.
Variáveis Discretas
Uma variável métrica que pode assumir um conjunto de valores finitos ou infinitamente contáveis é
denominada discreta.
Exemplo: Produção mensal de carros ou número de estrelas no universo.
Variáveis Contínuas
Uma variável métrica é denominada contínua se assumir um número incontável de valores num dado
intervalo.
1
Muito bom
2
Razoável

2. Teoria da Probabilidade
2.1 Espaço Amostral, Acontecimentos e
Probabilidades
“São objecto de estudo na teoria das probabilidades os fenómenos aleatórios, ou seja, acontecimentos
influenciados pelo acaso. Na base desta teoria, está o conceito de experiência aleatória, isto é, o processo
de observação ou acção cujos resultados, embora podendo ser descritos no seu conjunto, não são
determináveis à priori, antes de realizada a experiência. Uma experiência aleatória tem como
características:
o A possibilidade de repetição da experiência em condições similares;

o Não se poder dizer à partida qual o resultado (fenómeno aleatório) da experiência a realizar, mas
poder descrever-se o conjunto de todos os resultados possíveis;
o A existência de regularidade quando a experiência é repetida várias vezes.”3
Denotaremos por Ωo conjunto de todos os resultados possíveis de uma experiência aleatória.
Considere o lançamento de um dado. O conjunto de resultados possíveis é Ω ={1,2,3,4,5,6}.
Contudo, podemos estar interessados em saber se o resultado do lançamento é um número par, um

número ímpar, etc. Deveremos então definir como acontecimento um subconjunto de Ω. Os
acontecimentos que consistem de apenas um elemento, como 'sair um dois', são chamados de
acontecimentos simples ou acontecimentos elementares. Acontecimentos elementares não são, por
definição, divisíveis em outros acontecimentos, ou seja, cada um deles contém um e somente um
resultado possível.
Exemplo: O Lançamento único de um dado resulta na ocorrência de um dos acontecimentos elementares:
{1}, {2}, {3}, {4}, {5}, {6}.
Exemplo:
O espaço amostral referente ao duplo lançamento de uma moeda corresponde a:
Ω={(C,C);(F;F),(C,F);(F,C)}. São acontecimentos elementares: {(C,C)};{(F;F)},{(C,F)};{(F,C)}. Tal
descrição também é válida se as duas moedas forem lançadas simultaneamente uma única vez. Nota:
F=Face, C=Cara.
Por oposição, podemos definir acontecimento composto aquele cuja realização implica a ocorrência de
um resultado da experiência aleatória, qualquer um de entre os vários possíveis para aquele
acontecimento.
3
Retirado do livro presente na bibliografia “Estatística Aplicada Vol. 1”

Diagrama de Venn
Uma representação gráfica comum de acontecimentos como subconjuntos de um espaço amostral é o
diagrama de Venn. Ele pode ser usado para visualizar várias combinações de acontecimentos, como por
exemplo: intersecções e uniões de conjuntos.
Nota: event = acontecimento; sample =amostra
2.2 Relações e Operações com Acontecimentos

Atrás, definimos acontecimento como um subconjunto do espaço amostral Ω. Ao interpretar
acontecimentos como conjuntos, podemos aplicar-lhes as mesmas relações e operações que são válidas na
teoria básica de conjuntos. Iremos agora recapitular alguns dos conceitos mais importantes da teoria dos
conjuntos.
Subconjuntos e Complementos
O conjunto A como um subconjunto de B (contido em B) é representado por A ⊂ B. Assim, se o
acontecimento A ocorre, B também ocorre.
A e B são acontecimentos equivalentes se e somente se A ⊂ BeB ⊂ A.
Se A ⊂ B definimos então o complemento de A, representado por A , como o conjunto de elementos

em B que não pertence a A.

União de Conjuntos
O conjunto dos elementos que pertencem ou ao conjunto A ou ao conjunto B ou a ambos, é chamado de
união dos conjuntos A e B, e representa-se por A ∪ B .
A união de conjuntos pode ser expandida para n conjuntos e consequentemente para n acontecimentos
n
A1,A2,A3,….,An. Neste caso A1 ∪ A2 ∪ ..... ∪ An = ∪ Ai
i =1
Exemplo: Lançamento de um dado
A={1,2} e B={2,4,6}. Define-se A ∪ B ={1,2,4,6}.
Resultados gerais:
o A∪A = A.
o A ∪ Ω = Ω , onde Ω é o espaço amostral.
o
A∪ Ø = A, onde Ø é o conjunto vazio (não possui nenhum elemento).
o A ∪A = Ω
Intersecção de Conjuntos
O conjunto dos elementos comuns aos conjuntos A e B é denominado intersecção de A e B, e representa-
se por: A ∩ B .

A intersecção de conjuntos pode ser estendida para n conjuntos e consequentemente para n
n
acontecimentos A1 ∩ A2 ∩ ..... ∩ An = ∩ Ai
i =1
Exemplo: Lançamento de um dado
Define-se A={1,2} e B={2,4,6}.
Então A ∩ B ={2}.
Resultados gerais:
o A∩A = A.
o A ∩ Ω = A , onde Ω é o espaço amostral.
o
A∩ Ø = Ø, onde Ø é o conjunto vazio (não possui nenhum elemento).
o A ∩A = Ø.
o Ø ∩ Ω = Ø.
Acontecimentos Disjuntos
Dois conjuntos ou acontecimentos são considerados disjuntos (ou mutuamente exclusivos) se a

intersecção entre eles é o conjunto vazio: A ∩ B = Ø. A interpretação é a seguinte: os acontecimentos
A e B não podem ocorrer simultaneamente.
Exemplo: Lançamento de um dado.
Define-se A={1,3,5} e B={2,4,6}. Então B= A e A= B
⇒ A ∩ B = A ∩ A = Ø.
Diferença de Conjuntos
O conjunto C é a diferença lógica dos acontecimentos A e B. Representa-se por C=A – B, e lê-se:
‘elementos de A que não pertencem a B’.
A-B=A ∩ B

Exemplo: Lançamento de um dado.
Define-se A={1,2,3} e B={3,4}.Então A-B={1,2} e B-A={4}
Decomposição Disjunta do Espaço Amostral

O conjunto de acontecimentos A1,A2,A3,….,An é chamado decomposição disjunta de Ω, se as seguintes
condições se verificam:
• Ai ≠ Ø (i=1,2,…,n)
• Ai ∩ A k = Ø (i ≠ k;i,k=1,2,…,n)
• A1 ∪ A2 ∪ ..... ∪ An = Ω
Tal decomposição pode ser interpretada como uma partição do espaço amostral na qual cada resultado
elementar pertence a exactamente um conjunto ou um acontecimento. Repartir um bolo de aniversário
com alguém, resulta em uma decomposição (partição) disjunta do bolo.
Exemplo: Lançamento de um dado de seis faces
Espaço amostral: Ω = {1,2,3,4,5,6}
Define-se: A1={1}, A2={3,4},A3={1,3,4}, A4={5,6}, A5={2,5},A6={6}
Uma possível decomposição disjunta é dada por A1,A2,A5,A6.
Prova: A1 ∩ A = Ø, A ∩ A = Ø, A ∩ A = Ø, A ∩ A = Ø, A ∩ A = Ø, A ∩ A = Ø e
2 1 5 1 6 2 5 2 6 5 6
A1 ∪ A2 ∪ A5 ∪ A6 = Ω .
Algumas Leis da Teoria dos Conjuntos

Leis de De Morgan:
A ∪B = A ∩ B
A ∩B A ∪ B
Lei associativa :
( A ∩ B) ∩ C = A ∩ ( B ∩ C )
( A ∪ B) ∪ C = A ∪ ( B ∪ C )

Lei comutativa :
( A ∩ B ) = ( B ∩ A)
( A ∪ B ) = ( B ∪ A)
Lei distributiva:
A ∩ ( B ∪ C ) = ( A ∩ B) ∪ ( A ∩ C )
A ∪ ( B ∩ C ) = ( A ∪ B) ∩ ( A ∪ C )
Resumo
Verbal Técnico Algébrico
Se A ocorre, então B também ocorre A é um subconjunto de B A⊂B
A e B não podem ocorrem simultaneamente A e B são acontecimentos disjuntos A∩ B = Ø

A ocorre se e somente se B não ocorre A e B são acontecimentos complementares B= A
A ocorre se e somente se algum Ai ocorre A é a união de Ai’s A=  Ai

i
A=
A ocorre se e somente se todos Ai ocorrem A é a intersecção de todos os Ai’s A i
i
3. Conceitos de Probabilidade
Probabilidade é a medida P( . ) que quantifica o grau de (in)certeza associado a um acontecimento.
3.1 Conceito Clássico

“ Se a uma experiência aleatória se podem associar N resultados possíveis, mutuamente exclusivos e
igualmente prováveis, e se nA desses resultados tiverem atributo A, então a probabilidade de A é a fracção
nA n
, P[A]= A , onde nA= nº de resultados favoráveis a A, N= nº de resultados possíveis.
N N
Propriedades:
• 0 ≤ P ( A) ≤1
• P (Ø) = 0

• P (Ω) =1
Exemplo: Lançamento de um dado. Espaço amostral: Ω ={1,2,3,4,5,6}.

Define-se acontecimento A=`número par’. Acontecimentos elementar em A: {2},{4},{6}
P(A)=3/6
3.2 Conceito Frequencista

A probabilidade P(A) de um acontecimento A é definida como o limite da frequência relativa de A, i.e., o
valor para o qual a frequência relativa irá convergir se a experiência for repetida infinitas vezes. Assume-
se que as experiências são independentes entre si.
Considere-se hn ( A) como a frequência absoluta da ocorrência de A dada n repetições da experiência. A

frequência relativa de A é definida como:
hn ( A)
fn =
n
De acordo com o conceito estatístico de probabilidade, temos:
P ( A) = l im f n ( A)
n →∞
Como 0 ≤ f n ( A) ≤ 1 segue que 0 ≤ P ( A) ≤1 .
Exemplo: Lançamento de uma moeda
Define-se C como o acontecimento 'cara'. As frequências absoluta e relativa de C após n lançamentos

estão descritas na tabela abaixo. Este exemplo mostra a convergência para 1/2 que é a probabilidade
clássica da ocorrência de 'cara' repetidos n lançamentos de uma moeda honesta. Na representação gráfica
das frequências relativas f n ( A) em função do nº de lançamentos, a convergência é notória.
n hn ( A) f n ( A)
10 7 0.700
20 11 0.550
40 17 0.425

60 24 0.400
80 34 0.425
100 47 0.470
200 92 0.460
400 204 0.510
600 348 0.580
800 404 0.505
1000 492 0.492
2000 1010 0.505
3000 1530 0.510
4000 2032 0.508
5000 2515 0.503
3.3 Axiomas da Teoria das Probabilidades
P(. ) é uma medida de probabilidade. É uma função que associa um número P(A) a cada acontecimento
A do espaço amostral Ω.
Axioma 1
P(A) ≥0
Axioma 2
P (Ω ) =1
Axioma 3
Se dois acontecimentos A e B são mutuamente exclusivos ( A ∩ B = Ø ), então P ( A ∪ B ) =P(A)+P(B)
3.4 Propriedades
Sejam A,B,A1,A2,…
⊂Ω
acontecimentos e P(
acima, seguem as seguintes propriedades:
. ) uma medida de probabilidade. Dos três axiomas
1. P ( A) ≤1
2. P ( A ) =1 −P ( A)
3. P (Ø) =1 − P (Ω) = 0
4. A ∩ B = Ø ⇒ P( A ∩ B ) = P (Ø) = 0
5. Se A ⊂ B , então P ( A) ≤ P ( B )
6. Se Ai ∩ A j = Ø para i ≠ j , então P ( A1 ∪ A2 ∪ ...) = P ( A1 ) + P ( A2 ) + ...

7. P(A − B) = P(A \ B) = P(A) − P(A ∩ B)
3.5 Regra da Adição de Probabilidades

Sejam A e B dois acontecimentos quaisquer. Então P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B ).
Extensão a três acontecimentos A, B, C:
P ( A ∪ B ∪C ) = P ( A) + P ( B ) + P (C ) − P ( A ∩ B ) − P ( A ∩C ) − P ( B ∩C ) + P ( A ∩ B ∩C ).
3.6 Probabilidade Condicional e

Acontecimentos Independentes
Probabilidade Condicional
Sejam A e B dois acontecimentos definidos no espaço amostral Ω. A probabilidade condicional de A
dado B, é definida como
P( A ∩ B)
P( A | B) = , para P(B)>0
P( B)
A probabilidade condicional assume a ocorrência de B e calcula a probabilidade de ocorrência de A. Ao

assumir-se a ocorrência de B, um novo espaço amostral Ω = B é definido, bem como uma nova medida
de probabilidade P ( A | B ) .
Se B=A2 ∩A 3, podemos escrever

P ( A1 ∩ A2 ∩ A3 )
P ( A1 | A2 ∩ A3 ) = , para P( A2 ∩ A3 ) > 0
P ( A2 ∩ A3 )
Podemos também definir a probabilidade condicional de B dado A:
P( A ∩ B)
P ( B | A) = , para P(A)>0
P( A)
Regra da Multiplicação
Ao manipularmos a definição de probabilidade condicional podemos extrair uma expressão para a
probabilidade da ocorrência de A e B:
P ( A ∩ B ) = P ( A) • P ( B | A) = P ( B ) • P ( A | B )
E analogamente:
P( A1 ∩ A2 ∩ A3 ) = P( A1 ) • P( A2 | A1 ) • P ( A3 | A1 ∩ A2 )
Generalização para n acontecimentos:
P ( A1 ∩ ... ∩ An ) = P ( A1 ) • P( A2 | A1 ) • P( A3 | A1 ∩ A2 ) • ... • P( An | A1 ∩ ... ∩ An −1 )
Acontecimentos Independentes
A ideia que está por detrás do conceito de probabilidade condicional é de que a existência de informação
a respeito da ocorrência de certos acontecimentos em geral influencia a probabilidade da ocorrência de
outros acontecimentos. (Por exemplo: se existe informação de que a pessoa é fumador, a essa pessoa será
associada uma maior probabilidade de contracção de um tumor nos pulmões). Em geral, seria esperado
P ( A) ≠ P ( A | B )
A interpretação do caso P ( A) ≠ P ( A | B ) possui um significado importante. Se a probabilidade da

ocorrência de A permanece inalterada, dada a ocorrência ou não de B, podemos dizer que os dois
acontecimentos são estatisticamente independentes. (Por exemplo, saber se determinado indivíduo é alto
ou baixo não influencia no cálculo da probabilidade deste indivíduo contrair um tumor nos pulmões).
Definimos independência de dois acontecimentos A e B através da condição:
P ( A ∩ B ) = P ( A) • P ( B ) , que implica os seguintes resultados: P ( B ) = P ( B | A) e

P ( A) = P ( A | B ) . Verifica-se também que: P ( A | B ) = P ( A | B ) e P ( B | A) = P ( B | A)

A condição multiplicativa definindo a independência de dois acontecimentos também é válida para n
acontecimentos independentes:
P ( A1 ∩... ∩ An ) = P ( A1 ) • ... • P ( An )
É importante não confundir independência de acontecimentos com acontecimentos mutuamente

exclusivos. Por exemplo, se dois acontecimentos A e B com P(A)>0 e P(B)>0 são mutuamente
exclusivos, então P ( A ∩B ) = 0 , pois P (Ø) = 0 e A ∩ B = Ø . Neste caso,
P ( A ∩ B ) ≠ P ( A) • P ( B ) .
Curiosidade:Tabulação Cruzada
Em muitos casos o investigador está interessado em associações entre variáveis categóricas. O caso mais
simples é a observação de duas variáveis binárias, ou seja, existem duas variáveis, cada uma com dois
resultados possíveis. Por exemplo, suponha que para um indivíduo seleccionado aleatoriamente foi
verificado se ele é ou não fumador e se tem ou não algum tumor. Seja A o resultado de que o indivíduo é
fumador e B o resultado de que tem um tumor. Pode-se construir espaços amostrais separados { A, A} e
{B, B} para cada uma das duas variáveis. Alternativamente pode-se construir o espaço amostral de
pares ordenados: Ω={( A, B ), ( A, B ), ( A, B ), ( A, B )} .
Ao colocar este tipo de dados numa tabela, ter-se-ia apenas que contar o número de indivíduos
correspondentes a cada um dos quatro resultados possíveis. Nenhuma informação é perdida com respeito
às duas variáveis porque é sempre possível obter frequências para ambas as categorias de cada variável
através da soma das duas categorias da outra variável. Por exemplo, para calcular o número de indivíduos
que têm tumor, somam-se todos aqueles que fumam e têm tumor ( A, B ) com todos aqueles que não
fumam e têm tumor ( A, B ) .
Se a informação for disposta numa matriz, onde cada linha e cada coluna tenham presentes as categorias
de cada variável , podemos chamar a essa matriz uma tabela cruzada
Total
Total
A estrutura desta tabela é particularmente útil para verificar a independência entre acontecimentos.
Recorde-se que a probabilidade conjunta de dois acontecimentos independentes pode ser calculada como
o produto das probabilidades de dois acontecimentos individuais. Neste caso, se quisermos verificar se a
probabilidade conjunta na parte principal da tabela é igual ao produto das probabilidades marginais,
conseguimos verificar a independência dos acontecimentos.

3.7 Teorema da Probabilidade Total e fórmula
de Bayes
Relembre a seguinte informação:
O conjunto de acontecimentos A1,A2,A3,….,An é chamado decomposição disjunta de Ω, se as seguintes

condições se verificam:
• Ai ≠ Ø (i=1,2,…,n)
• Ai ∩ A k = 0 (i ≠ k;i,k=1,2,…,n)
• A1 ∪ A2 ∪ ..... ∪ An = Ω
Seja A1 , A2 ,..., An uma decomposição disjunta. Então, para qualquer acontecimento B ⊂ Ω com
P(B)>0:
P( B ) = P( B ∩ A1 ) + P( B ∩ A2 ) + ... + P( B ∩ An )
= P ( B | A1 ) • P ( A1 ) + P ( B | A2 ) • P ( A2 ) + ... + P ( B | An ) • P ( An )
n
= ∑ P( B | Ai ) • P ( Ai )
i =1
Fórmula de Bayes
Seja A1,A2,A3,….,An uma decomposição disjunta. Então, para qualquer acontecimento B ⊂ Ω com
P(B)>0 e probabilidades condicionais dadas P ( B | A1 ), P ( B | A2 ),..., P ( B | An )
P( B | A j ) • P( A j )
P( A j | B) = n
, ∀j = 1,..., n
∑ P( B | A ) • P( A )
i =1
i i
4. Variável Aleatória
4.1 Definição
Definição:
Uma variável aleatória é uma função que associa números reais a resultados de uma experiência aleatória.
Cada resultado possível da experiência ocorre com determinada probabilidade. Tomemos a seguinte
notação:
X: variável aleatória
xi , (i =1,..., n) resultado da n-ésima experiência aleatória (são os valores da variável aleatória X)

Uma variável aleatória é originada ao associarmos um número real a cada acontecimento Aj (resultado de
uma experiência). O acontecimento Aj é um elemento do conjunto de todos os resultados possíveis de
uma experiência ( Ω). A variável aleatória é assim definida como uma função que relaciona elementos
do conjunto Ωa elementos do conjunto dos números reais ( ℜ).
X : A j → X ( A j ) = x j . Podemos, no esquema seguinte, ver o funcionamento de uma variável

aleatória.
Aj → X → X ( Aj )
4.2 Uma experiência aleatória
No lançamento de uma moeda, os dois resultados possíveis são: cara (F) ou coroa (C).
Consideremos três lançamentos de uma moeda, e examinemos o número de faces obtidas.
Ω = {CCC , CCF , CFC , FCC , CFF , FCF , FFC , FFF }
Uma variável aleatória associa um número real (0,1,2,3) a cada elemento de Ωbaseado no número de
faces resultantes dos lançamentos.
Por exemplo:
Saída de uma única face: {( CCF ) ∪ (CFC ) ∪ ( FCC )} toma em ℜo valor 1.

Saída de duas faces: {( CFF ) ∪ ( FCF ) ∪ ( FFC )} toma em ℜo valor 2.
Saída de três faces: {( FFF )} toma em ℜo valor 3.
Saída de nenhuma face: {( CCC )} toma em ℜo valor 0.
A variável aleatória correspondente, representada por X, é definida como
X: número de faces em três lançamentos de uma moeda.
Tal definição implica que os valores possíveis que a variável aleatória X pode assumir correspondem a
um dos quatro possíveis: x1 = 0; x2 = 1; x3 = 2; x4 = 3 .
4.3 Variáveis aleatórias unidimensionais

discretas
Definição:

Uma variável aleatória é chamada de discreta se o conjunto de resultados possíveis x1 , x 2 ,... é finito
ou infinito numerável.
Função Densidade4
Definição:
A função densidade f calcula a probabilidade da variável aleatória X ser igual a xi. A probabilidade de xi
é f(xi). Esta função deverá verificar as seguintes propriedades:
o P ( X = xi ) = f ( xi ); (i =1,2,...)
o f ( xi ) ≥ 0 ,
o ∑ f ( x ) =1 .
i
i
Podemos representar graficamente esta função, recorrendo a um histograma.
Função de Distribuição
Definição:
A função de distribuição F de uma variável aleatória X, calculada a cada realização de x é definida como
a probabilidade do valor da variável aleatória X não ser superior ou igual a x.
F ( x ) = P ( X ≤ x) = ∑ f ( xi )
xi ≤x
A função de distribuição de uma variável aleatória discreta é uma função crescente em forma de escada,
cujos acréscimos ocorrem somente nos incrementos de xi. Tal função é, portanto, constante entre os
pontos xi e xi+1.
A função de distribuição permite-nos calcular a probabilidade de outros acontecimentos:
o P ( a < X ≤ b) = F (b) − F ( a )
o P( X > a) =1 − F (a) .
Exemplo: Contagem do número de faces (F) resultantes de três lançamentos de uma moeda.
Definimos a variável aleatória do seguinte modo:
4
A função densidade nas variáveis aleatórias discretas também é chamada de função probabilidade.

X: número de faces em três lançamentos de uma moeda.
com os seguintes valores possíveis:

x1 = 0; x2 = 1; x3 = 2; x4 = 3 .
Acontecimento Probabilidade Nº de Função de probabilidade

Aj P(Aj) faces xj P( X = x j ) = f ( x j )
A1={CCC} P(A1)=0.125 x1=0 f(x1)=0.125

A2={CCF} P(A2)=0.125
A3={CFC} P(A3)=0.125 x2=1 f(x2)=0.375
A4={FCC} P(A4)=0.125
A5={CFF} P(A5)=0.125
A6={FCF} P(A6)=0.125 x3=2 f(x3)=0.375
A7={FFC} P(A7)=0.125
A8={FFF} P(A8)=0.125 x4=3 f(x4)=0.125
Função de distribuição da variável discreta:
A função de distribuição é obtida ao se somar as probabilidades de diferentes valores da variável aleatória

X. Por exemplo
F(1)=f(0)+f(1)=0.125+0.375=0.5
Função de distribuição:
 0, x < 0
 0.1 2 5;0 ≤ x < 1 Função de distribuição de uma variável aleatória discreta:

F ( x) =  0.5 0 0;1 ≤ x < 2
 0.8 7 5;2 ≤ x < 3

1; x ≥ 3
4.4 Variáveis aleatórias unidimensionais contínuas

Definição: Uma variável aleatória contínua assume valores reais em um intervalo finito ou infinito.

Função Densidade
Se uma função f(x) apresenta as seguintes propriedades:
b
o P (a < X ≤ b) = ∫ f ( x )dx ; a ≤ b
a
o f ( x) ≥ 0
+∞
o ∫ f (x) =1
−∞
é chamada função densidade da variável aleatória contínua X.
Função Distribuição:
A função distribuição pode ser obtida a partir da função densidade:
x
F ( x ) = P (−∞ < X ≤ x ) = ∫ f (t )dt .
−∞
A função distribuição F(x) é equivalente à área sob a função densidade f(u) para −∞ <u ≤ x.
A função densidade, se existente, pode ser calculada como a primeira derivada da função distribuição :
∂F ( x)
= F ' ( x ) = f ( x) .
∂x
Exemplo:
Consideremos a função:

 0.2 5x − 0.5; 2 < x ≤ 4

f ( x) =  - 0 . 2 5+ 1x . 54 <; x ≤ 6 . A presente função é uma função de densidade?
0 ; o .v

∞
É necessário verificar se : ∫ f ( x)dx

−∞
=1 .
∞ 4 6
4 6
 x2   x2 
∫
−∞
f ( x) dx = ∫ (0.25 x − 0.5)dx +∫ ( −0.25 x +1.25 )dx =0.25
2 4  2
− 0.5 x  + − 0.25
2  2
+1.5 x  = 1
4
Isso indica que f(x) é uma função densidade. Em particular, é a densidade da distribuição triangular
(assim chamada devido à forma da função densidade, como se pode ver na figura abaixo).
4.5 Parâmetros
Uma variável aleatória é caracterizada completamente por sua densidade e função distribuição. Porém,
aspectos importantes da distribuição podem ser determinados a partir dos parâmetros de localização e
dispersão.
Valor Esperado
O valor esperado de uma variável aleatória X, E(X) ou µ ,corresponde à média aritmética de uma
distribuição de frequências empírica. O valor esperado é o “valor que se espera”, em média, como
resultado de uma experiência. Ao se repetir uma experiência várias vezes, o valor esperado E(X) será a
média de todos os resultados obtidos.
Definição:
Considere-se a variável aleatória X discreta com realizações xi e respectivas probabilidades f(xi).

A expressão E ( X ) = µ = ∑x
i
i f ( xi ) define o valor esperado da variável aleatória X.
Definição:
Numa variável aleatória contínua X, com função densidade f(x), o valor esperado é definido como
∞
E( X ) = µ = ∫ xf ( x)dx .
−∞
Propriedades do valor esperado:
Sejam X e Y duas variáveis aleatórias com valor esperado E(X) e E(Y). Portanto:
• Se Y=a+bX , (para quaisquer a,b ∈ ℜ ), E(Y)=E(a+bX )=a+bE(X)
• Se Z=X+Y, E(Z)=E(X+Y)=E/X)+E(Y)
• Se X,Y são variáveis independentes, E(XY)=E(X)E(Y)
Variância
Definição:
Variância, simbolizada por Var(X) ou σ 2 é definida como o valor esperado do quadrado da diferença
entre uma variável aleatória e seu valor esperado:
Var ( X ) = E[( X − E ( X )) 2 ] = E ( X 2 ) −[ E ( X )] 2
No caso de uma variável aleatória discreta a variância é definida como:
Var ( X ) = σ 2 = ∑[ xi − E ( X )] 2 f ( xi ) = ∑xi f ( xi ) −[ E ( X )] 2
2
i i
No caso de uma variável aleatória contínua a variância é definida como:

+∞
+∞
Var ( X ) = σ = ∫ [ x − E ( X )] 2 f ( x ) dx = ∫ x
2
2
f ( x )dx − [ E ( X )] 2
−∞
−∞
Propriedades da variância:
Considerando X e Y duas variáveis aleatórias com variâncias Var(X) e Var(Y). Então:

• Se Y=a+bX, (para quaisquer a,b ∈ ℜ ),
Var (Y ) = Var ( a + bX ) = b 2Var ( X )
• Se X,Y são variáveis aleatórias independentes e Z=X+Y
Var(Z)=Var(X)+Var(Y)
σ Z = σ X +Y = σ X2 + σ Y2
Desvio Padrão
O desvio padrão σ é definido como a raiz quadrada da variância e caracteriza a dispersão de uma
distribuição.
Estandardização (Padronização)
Por vezes, é útil transformar uma variável aleatória para se obter uma distribuição que não dependa de
nenhum parâmetro desconhecido. A variável aleatória padronizada
X − E( X )
Z =
σX
possui valor esperado E(Z)=0 e variância Var(Z)=1.
Desigualdade de Chebyshev
A desigualdade de Chebyshev fornece uma fronteira para a probabilidade de que uma variável aleatória
assuma valores em certo intervalo na vizinhança do valor esperado. A desigualdade somente requer o
conhecimento do valor esperado e da variância; a distribuição da variável aleatória não precisa ser
conhecida. A desigualdade se baseia no intervalo [ µ − kσ ; µ + kσ ] centrado em µ .
Definição:
Considere a variável aleatória X com valor esperado µ e variância σ . Para qualquer K>0,
1
P( µ − kσ ≤ X ≤ µ + kσ ) ≥ 1 −
k2
Para kσ = a , obtém-se
σ2
P( µ − a ≤ X ≤ µ + a) ≥ 1 − .
k2
Para o acontecimento complementar a desigualdade de Chebyshev fornece uma fronteira para a

probabilidade de que uma variável aleatória assuma valores fora de certo intervalo na vizinhança do valor
esperado, ou seja, { X −µ > kσ} .

1
P ( X − µ > kσ ) < ,
k2
e para kσ = a
σ2
P( X − µ > a ) < .
a2
5. Modelos Importantes de Distribuições

Apresentam-se algumas distribuições de probabilidade importantes, que são frequentemente utilizadas
em estatística. Essas distribuições podem ser descritas usando dois parâmetros. Em geral, quanto maior o
número de parâmetros usado na descrição de uma distribuição, mais flexível será a distribuição para
modelar o fenómeno em estudo.
Distribuição de Variáveis aleatórias discretas

5.1 Distribuição binomial
Uma distribuição binomial tem origem numa experiência aleatória onde são possíveis dois resultados:
O acontecimento A com probabilidade constante p ou o acontecimento complementar A com

probabilidade 1-p.
Suponhamos que a experiência aleatória seja repetida n vezes.
Uma variável aleatória discreta que contém um certo número de sucessos A após n repetições desta
experiência, tem uma distribuição binomial com parâmetros n e p. Sua função densidade de probabilidade
será:
 nCx p x (1 − p)n− x , p a xr= a0 , 1… , n2 ,

f ( x, n, p) =  .
o , r e s t av n a t leo s r e s
Denota-se: X~B(n,p)
A função de distribuição é dada por:

 x n k n− k
 ∑ Ck p (1 − p) , p a rx≥a 0
F ( x, n, p) =  k = 0
o , p a rx<a 0

O valor esperado e a variância de uma distribuição binomial B(n,p) são:
E(X)= n.p
Var(X)=np(1-p)
Podemos destacar algumas propriedades da distribuição binomial, a saber:
• Se X~B(n;p) e Y~B(m;p) são variáveis aleatórias independentes, então a variável aleatória

Z=X+Y tem distribuição binomial com parâmetros n+m e p, ou seja, Z~B(n+m;p).
• Se X~B(n;p) e Y= n – X, então Y~B(n;1-p)
A distribuição binomial encontra-se tabelada no nosso livro de trabalho para valores de n ≤20 e p ≤ 0,5
(sendo que os valores de p iniciam em 0,05, sofrendo acréscimos de 0,05 até ao valor de p=0,5).
Conforme se tem verificado nas aulas, estas tabelas minimizam bastante o cálculo da probabilidade, no
entanto apresentam algumas limitações.
Exemplo 1:
Existem 10 bolas em uma caixa, onde 3 são brancas e 7 são vermelhas. Considere os acontecimentos:
A= saída de bola branca e A = saída de bola vermelha, com as respectivas probabilidades:
P(A)=0.3 e P( A )=0.7. Após cada extracção, a bola é reposta na caixa. São seleccionadas 5 bolas no total
(n=5).
Os pressupostos de uma prova de Bernoulli são satisfeitas:
• Existem apenas 2 resultados possíveis em cada extracção.
• As probabilidades associadas a cada resultado são constantes porque há reposição das bolas.
• As extracções são independentes .
Queremos calcular a probabilidade de seleccionar duas bolas brancas, ou seja, P(X = 2).
Seja Xi – va- nº de bolas brancas na extracção i.
Logo: P(Xi=1)=0.3;P(Xi=0)=0.7para todo i=1,…,5.
Usando cinco repetições, obtemos a seguinte variável aleatória: X1,X2,X3,X4,X5, onde X= {nº de bolas
brancas em cinco extracções}.
X = ∑ X i . Então X~B(n;p)=B(5;0.3).
i

5 
A probabilidade pedida será: P ( X = 2) = f ( 2;5;0.3) = 
2 
.( 0.3) .( 0.7) = 0.3087
2 3
 
A tabela seguinte contém a densidade e a função de distribuição da distribuição binomial para esta
experiência:
x f ( x;5;0.3)F ( x;5;0.3)
0 0.1681 0.1681
1 0.3601 0.5282
2 0.3087 0.8369
3 0.1323 0.9692
4 0.0284 0.9976
5 0.0024 1.0000
Podemos calcular a probabilidade anterior através da função distribuição, ou seja:
f ( 2;5;0.3) = F ( 2;5;0.3) −F (1;5;0.3) =0.8369-0.5282=0.3087. A probabilidade de se

retirar 2 bolas brancas em 5 tentativas é igual a 0.3087.
A próxima figura esboça a função densidade de probabilidades da função f ( x;5;0.3) .
Exemplo 2:
Foi dirigido um questionário aos estudantes de uma universidade do nosso país relativamente ao trabalho
em part-time. Sessenta e cinco por cento dos estudantes responderam ter um part time. Qual a
probabilidade de que pelo menos 4 em cada 8 estudantes desta universidade escolhidos aleatoriamente
tenham um emprego de part time?
É necessário verificar se os requisitos de uma prova de Bernoulli são satisfeitos:
• Cada experiência pode conduzir a apenas um de dois acontecimentos possíveis: A = {estudante

tem emprego de part time}; A ={estudante não tem emprego de part time};P(A) = 0.65 ;
P ( A ) =0.35.
• As probabilidades associadas aos acontecimentos podem ser consideradas constantes e as
respostas dos estudantes são independentes (a probabilidade de escolher um estudante duas
vezes é muito próxima de zero).
O resultado desta experiência é a variável aleatória X ={número de estudantes com emprego de part
time}. Esta variável aleatória tem uma distribuição binomial: X~B(n;p)=B(8;0.65).

É pretendida o cálculo da probabilidade P ( X ≤ 4) , ou seja, valor determinado pela função de
distribuição F(4). Sabemos que a função distribuição não se encontra tabelada. A título de curiosidade,
vamos analisar o comportamento das funções de probabilidade para p=0.65 3 p=0.35.
x f ( x;8;0.65 )f ( x;8;0.35 )
0 0.0002 0.0319
1 0.0036 0.1691
2 0.0253 0.4278
3 0.1061 0.7064
4 0.2936 0.8939
5 0.5722 0.9747
6 0.8309 0.9964
7 0.9681 0.9998
8 1.0000 1.0000
• É patente a simetria de ambas as funções, simetria essa já referida nas propriedades da

distribuição (Se X~B(n;p) e Y= n – X, então Y~B(n;1-p)
A probabilidade de que pelo menos 4 estudantes de um total de 8 estudantes escolhidos aleatoriamente

tenham um emprego de part time é igual a 0.2936.
5.2Distribuição Hipergeométrica
A distribuição hipergeométrica é baseada numa experiência aleatória com as seguintes características:
• Número total de elementos = N
• Dos N elementos, M possuem uma dada característica e N-M não possuem essa característica.
Ou seja, apenas são possíveis dois acontecimentos: A e A .
• Escolha aleatória de n elementos de um total de N.
No entanto, a probabilidade P(A) não é constante de prova para prova e os acontecimentos não são
independentes. (essas alterações devem-se à não reposição dos elementos).

Uma variável aleatória X, que contabiliza o número de sucessos A após n repetições duma experiência,
apresenta uma distribuição hipergeométrica com parâmetros N, M e n, com a seguinte função densidade
de probabilidade:
  M  N − M 
    
x
    n − x  , p a r xa = m a x [n0- (, N- M ) ] , m.. . i, n [Mn ,]
f ( x; N ; M ; n) =   N 
  n 
  
 0 , r e s t a n vt easl o r e s
Representa-se por: X~H(N,M,n), e os seus parâmetros são descritos a seguir:
M M M  N −n
E( X ) = n ; Var ( X ) = n 1 − 
N N  N  N −1
Exemplo 1:
Um estudante é avaliado num teste constituído por 10 questões. Sabe-se que das 10 questões existentes, 4
são de fácil resposta, enquanto que as restantes apresentam um nível de dificuldade bastante elevado. É
proposto ao estudante que apenas responda a três questões seleccionadas aleatoriamente. Qual é a
probabilidade do estudante seleccionar apenas questões fáceis?
Temos os seguintes dados para o problema em questão:
N = 10 questões
M = 4 questões fáceis
N-M= 6 questões difíceis.
X = “número de questões fáceis presentes nas n questões escolhidas aleatoriamente”
Vamos verificar os valores que X poderá tomar:
max[0, n - (N - M)] ≤x ≤ min(n, M) , i.e, 0 ≤ X ≤ 3

Motivação para o uso da distribuição hipergeométrica:
• Número finito de questões,
• A repetição das questões não faz sentido nesta situação,
• As extracções não são independentes,
• Isto significa que P(A) depende das extracções previamente retiradas.

Aplicando a função de probabilidade temos:
 4 10 − 4 

3 
 3 −3 
f (3;10 ;4;3) =    = 4.1 = 1
P(X=3)=
10  120 30

3 
 
Qual é a probabilidade de que o estudante escolha pelo menos uma questão fácil?
P ( X ≥ 1) = 1 − P ( X < 1) = 1 − P ( X = 0) .
 4 10 − 4 

0 
 3 −0  1.20
  = 1
P ( X = 0) = f (0;10 ;4;3) = =
10  120 6

3 
 
Segue-se que:
P ( X ≥ 1) = 1 − P ( X < 1) = 1 − P ( X = 0) =1-1/6=5/6.
Exemplo 2:
Um agente de seguros sabe por experiência que 70% de seus 20 clientes renovam seus contractos. Foram
seleccionados aleatoriamente 4 clientes. Qual é a probabilidade de que, pelo menos metade dos clientes
seleccionados, venham a renovar os seus contratos?
Temos os seguintes dados para o problema em questão:
Temos um total de N = 20 clientes.
Destes clientes, 14 (M) renovam suas apólices e N-M clientes não renovam. Assim, a experiência tem
apenas dois resultados possíveis. Como foram escolhidos 4 clientes aleatoriamente, não faz de todo
sentido modelar a variável aleatória recorrendo à reposição dos clientes.
A variável aleatória X é definida como ''número de clientes, dos 4 seleccionados aleatoriamente, que
renovam os seus contractos”.
X tem a seguinte distribuição hipergeométrica: H(N;M;n) = H(20;14;4). O menor valor possível de X é 0

= (max[0,n - (N - M)]), ou seja, nenhum dos 4 clientes renova seus contratos. O maior valor para X será
4. Precisamos determinar P ( X ≥ 2) , que poderá ser calculada do seguinte modo:
14  20 −14 

2 
 4 −2   91 .15
P ( X = 2) = f (2;20 ;14 ;4) =   = = 0.2817
 20  4845

4 
 

14  20 −14 

3 
 4 −3   364 .6
P ( X = 3) = f (3;20 ;14 ;4) =   = = 0.4508
 20  4845

4 
 
14  20 −14 

4 
 4 −4   1001 .1
P ( X = 4) = f ( 4;20 ;14 ;4) =   = = 0.2066
 20  4845

4 
 
Isto significa que: P ( X ≥ 2) = 0.2817 + 0.4508 + 0.2066 = 0.9391.
A probabilidade de que pelo menos metade dos quatro clientes seleccionados decida renovar suas
apólices é de 0.9391.
5.3 Distribuição Poisson

“A distribuição Poisson caracteriza-se por uma variável aleatória discreta que toma valores inteiros não
negativos. Mas existem outras características que devem estar presentes para que determinado fenómeno
possa ser descrito através da distribuição de Poisson – são as chamadas características inerentes ao
vulgarmente designado Processo de Poisson.
O Processo de Poisson
Suponha que se observa a ocorrência de certo acontecimento num determinado espaço contínuo, por
exemplo num intervalo de tempo:
Se se verificarem as seguintes condições:
1) O número de ocorrências em intervalos não sobrepostos são variáveis aleatórias independentes.
2) A probabilidade de um certo número de ocorrências se verificar é a mesma para intervalos da mesma

dimensão; isto é, aquela probabilidade depende apenas da amplitude do intervalo e não da posição em que
se situa esse intervalo. Tudo se passa como se o número de ocorrências tivesse sempre a mesma
densidade média.
3) A probabilidade de se verificarem duas ou mais ocorrências num período muito pequeno é

negligenciável, quando comparada com a probabilidade de se verificar apenas uma ocorrência.
Se estas condições (hipóteses) se verificarem para determinado fenómeno, então pode-se dizer que tal
fenómeno se adequa a uma distribuição de Poisson e poderá ser descrito através desta distribuição.”5
5
Retirado do livro adoptado, págs 206 e 207.

Uma variável aleatória descrita pela seguinte função densidade de probabilidade, diz-se seguir uma
distribuição Poisson de parâmetro λ :
 λ xe− λ

f ( x, λ ) =  x! para x = 0,1,2,..., λ > 0
0 res tan tes valores
.
Tal distribuição é simbolizada por X ~ P (λ)
A sua função de distribuição tem a seguinte forma:
 x λ xe− λ
 ∑ ; k ≥ 0; λ > 0
F ( x, λ ) =  k = 0 x!
 0; k < 0

O valor esperado e a variância da distribuição Poisson são respectivamente:
E ( X ) = Var ( X ) = λ
Propriedades da distribuição Poisson
Considere-se duas variáveis aleatórias independentes: X ~ P (λ1 ) e Y ~ P( λ2 ) . Seja Z=X+Y, então

Z ~ P (λ1 + λ2 ) .
Distribuição Poisson para um intervalo arbitrário:
Se o número de resultados em um determinado intervalo tem distribuição Poisson, então o número de

resultados em um intervalo de comprimento t também terá distribuição Poisson com parâmetro λt

 (λ t ) x e − λ t

f (x, λ t) =  x! para x = 0,1,2,..., (λt ) > 0
 0 res tan tes valores

Exemplo:
Uma cidade tem 20.000 habitantes que precisam ser vacinados. A probabilidade de que a vacina
provoque uma reacção adversa em uma pessoa inoculada é de 0,0001.
De fato, esta é uma prova de Bernoulli, onde:
1. A= Ocorrência de um efeito adverso; A = Nenhum efeito adverso da vacina.
2.P(A) = 0.0001 é constante.
3. Independência na realização das provas, ou seja, das vacinações.
Para obter as probabilidades de reacções adversas, a distribuição binomial pode ser usada. Entretanto, a
pequena probabilidade associada a um resultado e o grande número de tentativas sugerem que uma
distribuição Poisson poderia ser utilizada como uma aproximação, uma vez que n>30 e p ≤ 0,05 .
λ = np = 20000 * 0.0001 = 2 .Este é o número esperado de casos com reacções adversas. A função
densidade de probabilidade de X~ P (λ = 2) é representada abaixo:
A probabilidade de que ninguém sofra reacções adversas é P(X = 0) = P(X ≤0) = F(0) = 0.1353
A probabilidade de que uma pessoa tenha uma reacção ruim à vacinação é:
P(X =1) = P(X ≤ 1) - P(X ≤0) = F(1) - F(0) = 0.2707. A probabilidade de que mais de 4 pessoas
tenham efeitos adversos é: P(X > 4) = 1 - F(4)

O valor de F(4) pode ser encontrado na tabela para distribuição de Poisson para λ = 2 e X = 4. Então
F(4) = 0.9473 e P(X > 4) = 1 - 0.9473 = 0.0527
Exemplo:
O seguinte exemplo ilustra a distribuição Poisson.
Suponha numa linha fabril, que uma determinada máquina reporta 2 defeitos, em média, por semana. Seja
t = número de intervalos com comprimento fixo (em semanas).
a) A probabilidade de que nenhum defeito seja reportado em uma semana é:
Y1: "número de defeitos por semana" (com t=1).
E(Y1)= λ =2; Y1 ~P( λ = 2 ).
(λt ) y1 −λx (2 * 1) 0 −2*1

P (Y1 = 0) = f ( y1 , λ) = e = e = e −2 = 0.1353
y1! 0!
b) A probabilidade de reportar nenhum defeito em 2 semanas:
Y2: "número de defeitos em 2 semanas" (com t=2).
E(Y2)= λt =2*2=4; Y2 ~P( λ = 4 ).
( 4) 0 −4
P (Y2 = 0) = f ( y 2 , λ) = e = 0.0183
0!
Em geral, a probabilidade de que nenhum defeito seja reportado em t semanas é dada por:
: "número de defeitos em t semanas".
E(Y) = λt Y ~P( λt )
P (Y = 0) = e −λt
Distribuição de Variáveis aleatórias contínuas

5.5 Distribuição Exponencial

Uma variável aleatória contínua X tem uma distribuição exponencial com parâmetro λ > 0 se a sua
função densidade de probabilidade for definida como:
 λ e− λ x p a xr≥ 0a λ ; > 0
f (x; λ ) =  .
 0 p a xr< a0
Simboliza-se por X~Exp (λ) . A sua função de distribuição é dada por:
 1 − e − λ x p a xr≥ 0a λ ; > 0
F (x; λ ) = 
 0 p a xr< a0
O valor esperado e a variância de uma variável com distribuição exponencial é dada por:
1 1
E( X ) = ; Var(X) = .
λ λ2
Quando λ → ∞ , a função densidade se aproxima de 0 e a função de distribuição se aproxima de 1.

Sebenta Probabilidades Estatistica 2007 2008

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Sebenta Probabilidades Estatistica 2007 2008

Enviado por

Direitos autorais:

Formatos disponíveis

1.

O objectivo científico da análise de dados é o de descrever a nossa percepção do mundo. A descrição de

Estatística e o Processo Científico

Dr. Ricardo São João 2006/2007 ESGS Probabilidade e Estatística 1

Para identificar todos os elementos relevantes em certa investigação, é necessário especificar as

Exemplo: Censo Populacional em Portugal

• Característica: Ser Cidadão Português.

A recolha de informação de uma parte da população dá origem a uma amostra.

Populações podem ter tamanho finito ou infinito.

1.3 Variável Estatística

Dr. Ricardo São João 2006/2007 ESGS Probabilidade e Estatística 2

Idade (arredondada para anos)

Sexo {feminino, masculino}

1.4 Escalas de Medida

A diferença fundamental entre variáveis quantitativas e qualitativas se encontra nas propriedades da

Nominal, ordinal, intervalar e de razão.

1.5 Variáveis Qualitativas

Dr. Ricardo São João 2006/2007 ESGS Probabilidade e Estatística 3

1.6 Variáveis Quantitativas

Exemplo: Produção mensal de carros ou número de estrelas no universo.

Dr. Ricardo São João 2006/2007 ESGS Probabilidade e Estatística 4

o A possibilidade de repetição da experiência em condições similares;

o A existência de regularidade quando a experiência é repetida várias vezes.”3

Denotaremos por Ωo conjunto de todos os resultados possíveis de uma experiência aleatória.

Considere o lançamento de um dado. O conjunto de resultados possíveis é Ω ={1,2,3,4,5,6}.

Contudo, podemos estar interessados em saber se o resultado do lançamento é um número par, um

Exemplo: O Lançamento único de um dado resulta na ocorrência de um dos acontecimentos elementares:

{1}, {2}, {3}, {4}, {5}, {6}.

Dr. Ricardo São João 2006/2007 ESGS Probabilidade e Estatística 5

Nota: event = acontecimento; sample =amostra

2.2 Relações e Operações com Acontecimentos

A e B são acontecimentos equivalentes se e somente se A ⊂ BeB ⊂ A.

Se A ⊂ B definimos então o complemento de A, representado por A , como o conjunto de elementos

Dr. Ricardo São João 2006/2007 ESGS Probabilidade e Estatística 6

Exemplo: Lançamento de um dado

A={1,2} e B={2,4,6}. Define-se A ∪ B ={1,2,4,6}.

Dr. Ricardo São João 2006/2007 ESGS Probabilidade e Estatística 7

Exemplo: Lançamento de um dado

Define-se A={1,2} e B={2,4,6}.

Dois conjuntos ou acontecimentos são considerados disjuntos (ou mutuamente exclusivos) se a

Exemplo: Lançamento de um dado.

Define-se A={1,3,5} e B={2,4,6}. Então B= A e A= B

Dr. Ricardo São João 2006/2007 ESGS Probabilidade e Estatística 8

Define-se A={1,2,3} e B={3,4}.Então A-B={1,2} e B-A={4}

Decomposição Disjunta do Espaço Amostral

Exemplo: Lançamento de um dado de seis faces

Espaço amostral: Ω = {1,2,3,4,5,6}

Define-se: A1={1}, A2={3,4},A3={1,3,4}, A4={5,6}, A5={2,5},A6={6}

Uma possível decomposição disjunta é dada por A1,A2,A5,A6.

Algumas Leis da Teoria dos Conjuntos

Dr. Ricardo São João 2006/2007 ESGS Probabilidade e Estatística 9

A e B não podem ocorrem simultaneamente A e B são acontecimentos disjuntos A∩ B = Ø

A ocorre se e somente se algum Ai ocorre A é a união de Ai’s A=  Ai

Probabilidade é a medida P( . ) que quantifica o grau de (in)certeza associado a um acontecimento.

3.1 Conceito Clássico

Dr. Ricardo São João 2006/2007 ESGS Probabilidade e Estatística 10

Exemplo: Lançamento de um dado. Espaço amostral: Ω ={1,2,3,4,5,6}.

3.2 Conceito Frequencista

Considere-se hn ( A) como a frequência absoluta da ocorrência de A dada n repetições da experiência. A

De acordo com o conceito estatístico de probabilidade, temos:

Como 0 ≤ f n ( A) ≤ 1 segue que 0 ≤ P ( A) ≤1 .

Exemplo: Lançamento de uma moeda

Define-se C como o acontecimento 'cara'. As frequências absoluta e relativa de C após n lançamentos