Você está na página 1de 64

CENTRO UNIVERSITÁRIO FAVENI

PROBABILIDADE

GUARULHOS – SP
SUMÁRIO

1 INTRODUÇÃO ........................................................................................................ 3

2 TEORIA DAS PROBABILIDADES .......................................................................... 4

2.1 Gerolamo Cardano ............................................................................................. 4

2.2 Blaise Pascal ...................................................................................................... 5

2.3 Jakob Bernoulli ................................................................................................... 5

2.4 Pierre-Simon Laplace ......................................................................................... 6

3 EXPERIMENTOS ALEATÓRIOS ............................................................................ 7

3.1 Contagem ........................................................................................................... 7

3.2 Espaço amostral ................................................................................................. 8

3.3 Evento ................................................................................................................. 9

4 EVENTOS ............................................................................................................. 10

4.1 Eventos mutuamente excludentes e eventos complementares ........................ 10

4.2 Eventos independentes e eventos dependentes .............................................. 10

5 PROBABILIDADE CLÁSSICA E FREQUENTISTA............................................... 11

5.1 Definição clássica ............................................................................................. 12

5.2 Definição frequentista ....................................................................................... 14

6 AXIOMAS E PROPRIEDADES DE PROBABILIDADE ......................................... 15

6.1 Axiomas de Kolmogorov ................................................................................... 16

6.2 Propriedades da probabilidade ......................................................................... 16

7 PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA ...................................... 19

8 TEOREMA DE BAYES ......................................................................................... 22

9 VARIÁVEL ALEATÓRIA ....................................................................................... 28

9.1 Variável aleatória discreta ................................................................................. 28

9.1.1 Função de distribuição acumulada de probabilidade ...................................... 30

9.1.2 Variável aleatória discreta média ou esperança .............................................. 30

1
9.1.3 Variância e desvio padrão ............................................................................... 30

9.2 Variável aleatória contínua ............................................................................... 30

9.2.1 Função de distribuição acumulada de probabilidade ...................................... 31

9.2.2 Variável aleatória contínua média ou esperança ............................................. 31

9.2.3 Variância e desvio padrão ............................................................................... 31

10 DISTRIBUIÇÕES DISCRETAS ............................................................................. 31

10.1 Uniforme ........................................................................................................... 32

10.2 Bernoulli ........................................................................................................... 34

10.3 Binomial............................................................................................................ 36

10.4 Poisson............................................................................................................. 38

10.5 Geométrica ....................................................................................................... 40

10.6 Hipergeométrica ............................................................................................... 41

11 DISTRIBUIÇÕES CONTÍNUAS ............................................................................ 42

11.1 Uniforme ........................................................................................................... 43

11.2 Exponencial ...................................................................................................... 44

11.3 Laplace............................................................................................................. 46

11.4 Logística ........................................................................................................... 47

12 DISTRIBUIÇÃO NORMAL .................................................................................... 48

13 TEOREMAS LIMITES ........................................................................................... 53

13.1 Lei Fraca dos Grandes Números ...................................................................... 54

13.2 Lei Forte dos Grandes Números ....................................................................... 54

13.3 Teorema Central do Limite ............................................................................... 56

13.3.1 Processo de soma parcial ............................................................................. 56

REFERÊNCIAS ......................................................................................................... 60

2
1 INTRODUÇÃO

Prezado aluno!

O Grupo Educacional FAVENI, esclarece que o material virtual é semelhante


ao da sala de aula presencial. Em uma sala de aula, é raro – quase improvável - um
aluno se levantar, interromper a exposição, dirigir-se ao professor e fazer uma
pergunta, para que seja esclarecida uma dúvida sobre o tema tratado. O comum é
que esse aluno faça a pergunta em voz alta para todos ouvirem e todos ouvirão a
resposta. No espaço virtual, é a mesma coisa. Não hesite em perguntar, as perguntas
poderão ser direcionadas ao protocolo de atendimento que serão respondidas em
tempo hábil.
Os cursos à distância exigem do aluno tempo e organização. No caso da nossa
disciplina é preciso ter um horário destinado à leitura do texto base e à execução das
avaliações propostas. A vantagem é que poderá reservar o dia da semana e a hora
que lhe convier para isso.
A organização é o quesito indispensável, porque há uma sequência a ser
seguida e prazos definidos para as atividades.

Bons estudos!

3
2 TEORIA DAS PROBABILIDADES

A probabilidade foi introduzida na vida das pessoas de forma empírica, de


acordo com suas necessidades. Na idade antiga, como já foi dito, o tema começou a
ser discutido pelos estudiosos - não só os matemáticos, mas também filósofos,
advogados, juristas – em função dos jogos de azar, que eram bastante praticados
naquela época (SILVA e COUTINHO, 2005).
A ideia de acaso, segundo alguns estudiosos, existia antes mesmo do
nascimento de Cristo. Na filosofia grega, Aristóteles (384 - 322 a.c.) já falava na sorte,
boa ou má, como consequência de uma escolha racional num processo de curso
aleatório (ROTUNNO, 2007).

2.1 Gerolamo Cardano

Gerolamo Cardano (1501-1576) era um matemático, médico, físico, filósofo e


astrólogo de origem italiana. Seu livro “Ars Magna” é considerado um dos pilares da
história da álgebra e o trabalho que espalhou a fórmula geral para resolver equações
de terceiro grau. Ele também é creditado com a invenção do componente mecânico
do Cardan, essencial para a indústria automotiva, tendo publicado mais de 200 artigos
de diferentes áreas e duas enciclopédias de ciências naturais.
Quando se fala em organização de dados e aplicação simples da teoria da
probabilidade, o nome de Gerolamo Cardano não pode deixar de ser citado, pois foi o
primeiro homem na história a sistematizar dados e a entender a lógica de alguns
processos que até então eram tidos como aleatórios para grande parte da
humanidade.
Cardano, numa época em que a matemática era pouco desenvolvida e a
álgebra e a geometria ainda estavam dando os primeiros passos, fez estudos sobre a
teoria dos jogos e acabou escrevendo um tratado de 32 capítulos, o então intitulado
“Livro dos jogos de azar”, no qual ele inicia um estudo simplificado, mas de grande
valia, da teoria da probabilidade.
Em seu tratado, fez um estudo sobre a teoria da aleatoriedade, voltado para os
jogos que fazia apostas: dados, gamão, cartas, astrágalos e até um pouco de xadrez.

4
E para facilitar seus estudos, dividiu esses jogos em dois grupos: os que precisavam
de estratégias e os que eram regidos pelo puro acaso.

2.2 Blaise Pascal

Para alguns estudiosos da história da matemática, a teoria da probabilidade só


começou a existir, de fato, após os estudos de Pascal e Pierre de Fermat. Em 1654,
Pascal fazia um estudo completo sobre cônicas quando o seu amigo, o Chevalier de
Meré, apresentou-lhe uma questão que era conhecida como problema dos pontos.
Esta questão enunciava o seguinte: suponha que duas pessoas estão participando de
um jogo, com lançamento de dados, em que ambos têm a mesma chance de vencer,
e o vencedor é quem atingir uma determinada quantidade de pontos. Porém, o jogo é
interrompido quando um dos jogadores está na liderança. Qual é a maneira mais justa
de dividir o dinheiro apostado? (BOYER, 1996; MLODINOW, 2009).
Pascal ficou intrigado com as questões e começou a se corresponder com
Fermat para que os dois chegassem a uma solução. Para alguns matemáticos foi essa
correspondência entre os dois que realmente deu início à teoria da probabilidade
(PERERO, 1994; BOYER,1996).
Nas correspondências ficou evidente que tanto Fermat quanto Pascal
resolveram corretamente as questões, porém de maneiras diferentes. Fermat
aperfeiçoou a regra geral de Cardano, baseando o cálculo de probabilidades no
cálculo combinatório e Pascal ligou o estudo das probabilidades ao triângulo
aritmético, que hoje é conhecido como o triangulo de Pascal. O triangulo aritmético já
existia há mais de 600 anos, mas recebeu esse nome porque Pascal descobriu novas
propriedades para ele (BOYER, 1996; LIGHTNER, 1991 apud SILVA e COUTINHO,
2005). Fermat e Pascal foram os primeiros matemáticos a resolver problemas não
numéricos de probabilidade, porém nenhum dos dois chegou a desenvolver teoremas
sobre o assunto (SILVA e COUTINHO, 2005).

2.3 Jakob Bernoulli

Dentre as principais contribuições de Jacob Bernoulli na área da matemática,


destacam-se a primeira integração de uma equação diferencial, na qual o termo

5
integral apareceu com o seu real sentido de integração; os tratados sobre Álgebra e
Geometria; o trabalho sobre séries infinitas, que posteriormente ficou conhecido como
a “desigualdade de Bernoulli”; as pesquisas sobre série exponencial, as quais levaram
a considerá-lo o pai do cálculo exponencial; a publicação de trabalhos sobre
logaritmos e integração; a investigação sobre as curvas de cáusticos, especialmente,
as associadas com as curvas de parábola, a espiral logarítmica e a epicicloide; a
lemniscata de Bernoulli; a aplicação do cálculo na construção de pontes suspensas;
a resolução da equação y’= p(x).y + q(x).yn, que hoje conhecemos como a “equação
de Bernoulli”; entre outros.
Bernoulli trabalhou extensivamente com cálculo diferencial e integral e
equações diferenciais, mas tinha verdadeiro fascínio pelas séries e divertia-se
tentando a solução de problemas populares a época, como por exemplo achar a curva
da catenária. Seu trabalho mais original foi a “Ars Conjectandi”, publicado
postumamente em 1713, por seu sobrinho Nicolau I, é a mais antiga obra sobre teoria
das probabilidades. O trabalho informou sobre os resultados conhecidos da teoria da
probabilidade e da enumeração, incluindo a aplicação da teoria da probabilidade em
jogos de azar e sua introdução ao teorema conhecido como a lei dos grandes
números. Os termos “julgamento Bernoulli” e “números de Bernoulli” são os frutos
deste trabalho (SILVA e COUTINHO, 2005).

2.4 Pierre-Simon Laplace

Laplace deu grandes contribuições a nível da evolução do cálculo das


probabilidades. Deve-se a ele a definição clássica de probabilidade, expressa na
conhecida Lei de Laplace: "a probabilidade de um acontecimento é o quociente entre
o número de casos favoráveis ao acontecimento e o número de casos possíveis,
supondo que todos os casos são igualmente possíveis". Relativamente a este tema,
uma das suas obras mais célebres é o livro "Theórie Analytique des Probabilités"
(Teoria Analítica das Probabilidades), que foi publicada em 1812 (LIGHTNER, 1991
apud SILVA e COUTINHO, 2005).
Após a publicação, os estudos sobre a teoria da probabilidade ganharam
proporção, e brilhantes matemáticos como Poisson, Gauss e Poincaré deram

6
continuidade aos estudos probabilísticos que, inicialmente, foram desenvolvidos por
Cardano.

3 EXPERIMENTOS ALEATÓRIOS

A teoria das probabilidades é um ramo da matemática que cria, elabora e


pesquisa modelos para estudar experimentos ou fenômenos aleatórios. Há certos
fenômenos (ou experimentos) que, embora sejam repetidos muitas vezes e sob
condições idênticas, não apresentam os mesmos resultados. Por exemplo, no
lançamento de uma moeda perfeita, o resultado é imprevisível, não se pode
determiná-lo antes de ser realizado e não podemos prever, mas podemos saber quais
são os possíveis resultados. Aos fenômenos (ou experimentos) desse tipo damos o
nome de fenômenos aleatórios (ou casuais) (SILVEIRA, 2018).
Pelo fato de não sabermos o resultado exato de um fenômeno aleatório é que
buscamos os resultados prováveis, as chances e as probabilidades de um
determinado resultado ocorrer (SILVEIRA, 2018).

3.1 Contagem

A definição de contagem é o ato de determinar um número de elementos de


um conjunto (finito), e existem evidências arqueológicas que possibilitam concluir que
o processo de contar tenha sido utilizado há mais de 50 mil anos por culturas primitivas
para acompanhar os dados econômicos e sociais, como:
 Quantidade de membros do grupo, das presas;
 Propriedades e dívidas.
Princípio de contagem levou ao desenvolvimento da notação matemática, dos
sistemas numéricos e da escrita atual. Ela ainda pode ocorrer de várias formas, por
exemplo, verbalmente, falando cada número em voz alta (ou mentalmente) para
acompanhar o progresso, utilizado com frequência para contar objetos presentes em
vez de uma variedade de coisas no decorrer do tempo (horas, dias, semanas, etc.).
Também pode ser por meio de marcações, com base de contagem unitária,
registrando uma marca para cada objeto e contando seu total, o que é útil quando se
deseja contar objetos ao longo de períodos, como o número de ocorrências de algo

7
durante um dia. A contagem usual é realizada em base decimal, já os computadores
usam base binária (zeros e uns) (SILVA, 2019).
A realização da contagem permite determinar a quantidade de elementos de
determinado conjunto, por exemplo, o censo demográfico, que, por meio dela, sabe o
número de elementos dos seguintes conjuntos:
 Quantidade de pessoas que vivem em determinado estado ou cidade;
 Quantidade de pessoas do sexo masculino e do feminino que vivem em
determinado lugar.
No exemplo anterior, o estado ou a cidade podem ser o conjunto da contagem,
assim como o sexo.

Exemplo:
Qual é o número possível de placas de automóveis.

Solução:
O alfabeto possui 26 letras, sendo usadas 3 para placas, assim:

𝑚1 = 26³

São disponibilizados 10 algarismos, sendo utilizados 4:

𝑚2 = 104

Resultando em:

263 × 104 = 175.760.000 𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒𝑠

3.2 Espaço amostral

Em um experimento (ou fenômeno) aleatório, o conjunto formado por todos os


resultados possíveis é chamado espaço amostral, que vamos indicar por U ou Ω
(SILVEIRA, 2018).
Veja os seguintes exemplos.

8
 Lançar uma moeda e observar a face voltada para cima: U = {cara,
coroa}.
 Lançar um dado e observar a face voltada para cima: U = {1, 2, 3, 4, 5,
6}.

3.3 Evento

Chama-se evento todo subconjunto de um espaço amostral, ou seja, os


resultados que poderão ocorrer em um determinado fenômeno. Resultados esses que
queremos que aconteçam ou não (SILVEIRA, 2018).
No lançamento de um dado, por exemplo, em relação à face voltada para cima,
podemos ter os seguintes eventos:
 O número é par: {2, 4, 6}.
 O número é menor que 5: U = {1, 2, 3, 4}.
 O número é 8: {}.

Exemplo:
Uma urna contém 10 bolas numeradas de 1 a 10. Retira-se uma bola ao acaso
e se observa o número indicado. Descrever de forma explícita os seguintes conjuntos
e dar o número de elementos de cada um:
a) o espaço amostral U.
b) o evento A: o número da bola é ímpar.
c) o evento B: o número da bola é múltiplo de 3.

Solução:
a) O conjunto de todos os resultados possíveis é representado pelo seguinte
espaço amostral: U = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}. O número de elementos desse
conjunto é n(U) = 10.
b) Se o número da bola é ímpar, temos o evento: A = {1, 3, 5, 7, 9}. O número
de elementos desse conjunto é n(A) = 5.
Se o número da bola é múltiplo de 3, temos o evento: B = {3, 6, 9}. O número
de elementos desse conjunto é n(B) = 3.

9
4 EVENTOS

4.1 Eventos mutuamente excludentes e eventos complementares

Eventos que não podem ocorrer conjuntamente são conhecidos com eventos
mutuamente excludentes (também chamados de eventos mutuamente
exclusivos). Caso dois ou mais eventos sejam mutuamente excludentes, no máximo
um deles irá ocorrer a cada vez que repetirmos o experimento. Por conseguinte, a
ocorrência de um evento exclui a ocorrência do outro, ou de outros eventos
(SILVEIRA, 2018).
Considerando, por exemplo, dois lançamentos de uma moeda, esse
experimento tem quatro resultados possíveis: cara/cara, cara/coroa, coroa/cara,
coroa/coroa. Esses resultados são mutuamente excludentes, uma vez que um, e
somente um, deles irá ocorrer ao lançarmos a moeda duas vezes (SILVEIRA, 2018).
Chama-se evento complementar de um evento A e é representado por Ā o
conjunto formado por todos os elementos do espaço amostral U que não pertencem
ao evento A (SILVEIRA, 2018).
No lançamento de um dado, temos o seu espaço amostral: U = {1, 2, 3, 4, 5,
6}. Considere os eventos a seguir.
 O evento A: o número obtido é menor que 3.
 O evento Ā: o número obtido é maior ou igual a 3.

Observe que os eventos A = {1, 2} e Ā = {3, 4, 5, 6}. Estes são complementares,


pois, A ∩ Ā = { } e A Ā = U, a interseção (o que há de comum entre os conjuntos) entre
os dois conjuntos resulta em um resultado vazio, visto que os dois conjuntos não
possuem resultados em comum, e a união (unir todos os elementos dos conjuntos
envolvidos) entre os dois conjuntos resulta no conjunto espaço amostral U.

4.2 Eventos independentes e eventos dependentes

Dois eventos são independentes quando a ocorrência ou a não ocorrência de


um evento não tem efeito algum na probabilidade de ocorrência do outro evento
(SILVEIRA, 2018).

10
Dois eventos são dependentes quando a ocorrência ou a não ocorrência de
um evento afeta a probabilidade de ocorrência do outro evento (SILVEIRA, 2018).
Os eventos independentes e dependentes são chamados de com e sem
reposição, respectivamente.
 Com reposição: significa o retorno do evento sorteado ao seu conjunto
de origem. É isso que mantém a probabilidade de sorteio constante, portanto, não se
altera a probabilidade de sorteio do evento seguinte.
 Sem reposição: significa o não retorno do evento sorteado ou do seu
conjunto de origem, alterando a probabilidade de sorteio do evento seguinte.

Exemplo de evento independente:


Dois lançamentos sucessivos de uma moeda não viciada são considerados
como eventos independentes, uma vez que o resultado do primeiro lançamento não
tem efeito algum nas probabilidades de ocorrer uma cara ou uma coroa no segundo
lançamento (SILVEIRA, 2018).

Exemplo de evento dependente:


A retirada de duas bolas, sem reposição, de uma urna contendo 20 bolas
numeradas de 1 a 20 são dependentes, pois as probabilidades do resultado da
retirada da segunda bola estão diretamente ligadas a retirada da primeira bola.
Especificamente, se na primeira bola retirada saiu a de número 10, e se não houver
reposição, com certeza não existirá a probabilidade de que, na segunda retirada, a
bola 10 apareça, pois esta não se encontra mais na urna, ou seja, a primeira retirada
afetou completamente as probabilidades de retirada da segunda bola (SILVEIRA,
2018).

5 PROBABILIDADE CLÁSSICA E FREQUENTISTA

Aqui será vista uma definição clássica de probabilidade (estudadas por Fermat
e Pascal, metade do século XVII), em seguida será apresentada a definição em termos
da frequência relativa dos eventos associados a um experimento (acontecimento)
aleatório (DEGROOT, 2012).

11
5.1 Definição clássica

Considere um espaço amostral Ω finito em que todos os seus eventos


elementares são igualmente prováveis. Nessas condições, a probabilidade de um
evento A⊂ Ω é calculada como a razão entre o número de casos favoráveis ao evento
A (eventos elementares de A) e o número de casos possíveis (número de eventos
elementares de Ω) (DEGROOT, 2012). Ou seja:

nº de casos favoráveis a A #A
𝑃(𝐴) = =
𝑛º 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑠í𝑣𝑒𝑖𝑠 #Ω

Exemplo:

Encontre a probabilidade de se obter um número par em um lançamento de um


dado.

Solução:
Esse experimento tem um total de seis resultados: 1, 2, 3, 4, 5 e 6. Todos estes
são igualmente possíveis. Considere A um evento em que um número par seja
observado no dado. O evento A inclui três resultados possíveis: 2, 4 e 6, ou seja,

𝐴 = {2,4,6}

Caso qualquer um desses três números seja obtido, considera-se que o evento
A tenha ocorrido. Assim sendo,

3
𝑃(𝐴) =
6

Simplificando, ou seja, dividindo o numerador e o denominador pelo mesmo


valor, neste caso, dividindo os dois valores por 3, obtemos:

1
𝑃(𝐴) =
2

12
Se dividirmos o valor fracionário, ou seja,

1 ÷ 2 = 0,50

E se multiplicarmos por 100 esse valor numérico, iremos obter o valor


fracionário:

0,50 𝑥 100 = 50%

Resumindo: qualquer uma das 3 respostas são iguais (válidas) e podem ser
apresentadas.
1
= 0,50 = 50%
2

Interpretando o resultado obtido:


1
– - A cada 2 vezes que o dado for jogado, temos a probabilidade de 1 dessas
2

jogadas ser o valor par.


0,50 – A probabilidade de acontecer um evento é exatamente a metade, ou
seja, cada vez que se joga 2 vezes o dado, a probabilidade é que a metade das vezes
(0,5) aconteça de sair o valor par.
50%– A probabilidade de acontecer o evento favorável, no caso números pares,
é de exatamente 50% a cada 2 vezes que for jogado o dado.

Fique atento:
Os valores do espaço amostral: no exemplo acima, foi jogado apenas um dado.
Como ficaria o valor do espaço amostral se jogássemos, ao mesmo tempo, 2, 3 ou
mais dados?
Ao jogarmos 1 dado, chegamos à conclusão de que teremos 6 possíveis
respostas, todas as mesmas possibilidades. Mas, ao jogarmos 2 dados ao mesmo
tempo, esse valor não será o mesmo. Vamos pensar um pouco e verificar as possíveis
respostas: (1,1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2,
6), (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5,

13
1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6,2), (6, 3), (6, 4), (6, 5) e (6, 6). Isso totaliza
36 possíveis respostas, mas podemos chegar a esse valor de uma maneira muito mais
rápida, utilizando a seguinte operação:

6𝑛

𝑛: é a quantidade de dados que estão sendo utilizados.

Dois dados:

62 = 6 × 6 = 36.

Três dados:

63 = 6 × 6 × 6 = 216.

E assim por diante.

5.2 Definição frequentista

Considere que um experimento aleatório seja realizado n vezes e seja n A o


número de vezes que o evento A ocorre. A frequência relativa de A, nesse caso, é
dada por (DEGROOT, 2012):

𝑛𝐴 frequência do evento A
𝑓𝑛 (𝐴) = = , 0 ≤ 𝑓𝑛 (𝐴) ≤ 1
𝑛 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑟𝑒𝑎𝑙𝑖𝑧𝑎çõ𝑒𝑠

Dessa forma, pode ser mostrado que a probabilidade do evento A ocorrer é


dada por:

𝑃(𝐴) = lim 𝑓𝑛 (𝐴)


n→∞

Ou seja, se n for grande, 𝑓𝑛 se aproxima da probabilidade do evento A ocorrer.

14
Exemplo:
Considere o problema em decidir se uma moeda é honesta. Para resolver esse
problema, considere que a moeda seja lançada 100 vezes, caso a moeda seja
honesta, qual o número aproximado de caras que esperamos obter?

Simulação de lançamentos de uma moeda honesta.


A frequência relativa obedece às seguintes propriedades.
1. 𝑓𝑛 (𝐴): P(Ω) → ℝ
2. 𝑓𝑛 (𝐴) ∈ [0,1]
3. 𝑓𝑛 (Ω) = 1
4. Se A,B ∈ P(Ω) são disjuntos,

𝑓𝑛 (𝐴UB) = 𝑓𝑛 (𝐴) + 𝑓𝑛 (B)

5. Se A,B ∈ P(Ω) são quaisquer,

𝑓𝑛 (𝐴UB) = 𝑓𝑛 (𝐴) + 𝑓𝑛 (B) − 𝑓𝑛 (𝐴 ∩ B)

Como 𝑓𝑛 (𝐴) se aproxima da P(A) à medida que n cresce, é intuitivo que as


propriedades apresentadas anteriormente também satisfaçam essas propriedades.

Tabela 1: Frequência relativa da variável “Face da moeda”.


Face n = 10 n = 50 n = 100 n = 1000
Cara 0,6 0,44 0,49 0,494
Coroa 0,4 0,56 0,51 0,506

6 AXIOMAS E PROPRIEDADES DE PROBABILIDADE

A noção clássica da teoria da probabilidade, que começa com a noção de casos


igualmente prováveis, dominou por 200 anos. Seus elementos foram postos em
prática no início do século XVIII e permaneceram assim até o início do século XX.
Ainda hoje a probabilidade clássica é utilizada no cálculo de probabilidades
(DEGROOT, 2012).
15
No início do século XX, muitos matemáticos estavam insatisfeitos com o que
viram como uma falta de clareza e rigor no cálculo de probabilidades. A chamada mais
célebre de esclarecimento veio de David Hilbert. O sexto dos vinte e três problemas
então em aberto que Hilbert apresentou ao Congresso Internacional de Matemáticos,
em Paris, em 1900, foi para tratar axiomaticamente a teoria das probabilidades.
A teoria matemática da probabilidade, como a conhecemos hoje, é de origem
relativamente recente. Foi Andrei Nikolaevich Kolmogorov que axiomatiza a
probabilidade em sua obra fundamental “Foundatins of the Theory of Probability” em
1933. De acordo com este desenvolvimento, eventos aleatórios são representados
por conjuntos e probabilidade é apenas uma medida padronizada definida nesses
conjuntos (DEGROOT, 2012).

6.1 Axiomas de Kolmogorov

Para todo A ∈ Α que associe um número real P(A), chamado de Probabilidade


de A, de modo que os axiomas a seguir sejam satisfeitos (DEGROOT, 2012):
 𝑃(𝐴) ≤ 0, ∀ A ∈ A; a probabilidade de qualquer acontecimento é maior
ou igual a zero
 𝑃(Ω) = 1; o espaço amostral contém todas os possíveis resultados do
experimento, assim é um evento certo
𝑛(∞)
 𝐴𝑖 ∩ 𝐴𝑗 = ∅ com i≠j então: 𝑃(∪𝑖 𝐴𝑖 ) = ∑𝑖=1 𝑃(𝐴𝑖 ); se dois eventos Ai e

Aj são mutuamente exclusivos então a probabilidade de A i ou Aj é igual a


probabilidade de i somada à probabilidade de Aj. O mesmo vale para qualquer número
de eventos mutuamente exclusivos.

6.2 Propriedades da probabilidade

 Como 𝐴 ∪ 𝐴𝑐 = Ω, o axioma 2, implica em 𝑃(𝐴 ∪ 𝐴𝑐 ) = 1. Já o axioma 3


implica em 𝑃(𝐴) = 𝑃(𝐴𝑐 ) = 1, ou seja,

𝑃(𝐴𝑐 ) = 1 − 𝑃(𝐴)

16
Exemplo:
No lançamento de um dado comum de seis faces, a probabilidade de o
1
resultado ser igual ao número 3 (evento A) é igual a 6. Qual a probabilidade de o

resultado não ser o número 3 (evento complementar de A)?

Solução:
O evento complementar de A é formado por todos os resultados possíveis, que
não o evento A. Sendo assim, AC = {1, 2, 4,5,6), e a probabilidade de ocorrência de
AC é igual a:

1
𝑃(𝐴𝑐 ) = 1 −
6
5
𝑃(𝐴𝑐 ) =
6

 Da teoria de conjuntos temos que A ∪ B = (A ∩ 𝐵 𝑐 ) ∪ (A ∩ B) ∪ (𝐴𝑐 ∩


B). Onde A ∩ 𝐵 𝑐 , A ∩ B e 𝐴𝑐 ∩ B são mutuamente exclusivos, pelo axioma 3 temos
que:

P(A ∪ B) = P(A ∩ 𝐵 𝑐 ) + P(A ∩ B) + P(𝐴𝑐 ∩ B)


Mas, A = (A ∩ 𝐵 𝑐 ) ∪ (A ∩ B) e B = (𝐴𝑐 ∩ B) ∪ A ∩ B
Assim: P(A) = P(A ∩ 𝐵 𝑐 ) + P(A ∩ B) e P(B) = P(𝐴𝑐 ∩ B) + P(A ∩ B)

Substituindo estas expressões na equação acima:

P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

Exemplo:
Sejam A, B e C três eventos quaisquer definidos em um espaço amostral S.
Então, P(A) + P(B) + P(C) − P(A ∩ B) − (A ∩ C) − (B ∩ C) refere-se à probabilidade
da ocorrência de:
a) um ou dois dos eventos;
b) exatamente um dos eventos;
c) pelo menos um dos eventos;
17
d) no máximo dois eventos;
e) pelo menos dois eventos.

Solução:
P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − (A ∩ C) − (B ∩ C) + P(A ∩ B ∩ C)
P(A) + P(B) + P(C) − P(A ∩ B) − (A ∩ C) − (B ∩ C) = P(A ∪ B ∪ C) − P(A ∩ B ∩ C)
Portanto, a expressão do enunciado é igual a P(A ∪ B ∪ C) − P(A ∩ B ∩ C).
Desenhando o diagrama, podemos visualizar melhor essa probabilidade:

A área hachurada representa a expressão P(A ∪ B ∪ C) − P(A ∩ B ∩ C). Ou


seja, refere-se à probabilidade de ocorrer A ou B ou C ou (A ∩ B) ou (A ∩ C) ou (B ∩
C). Ou seja, um ou dois eventos, tendo como alternativa correta A.

 Se ∅ é o evento impossível:

P(∅) = 0

Exemplo:
Se P(Ω) = P(∅ ∪ Ω) = P(∅) + P(Ω) = 1
Isso implica, P(∅) = 1 − P(Ω) = 1 − 1 = 0

 Se A implica B, ou seja A ⊂ B, então:

P(A) ≤ 𝑃(𝐵)

18
7 PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA

A probabilidade condicional refere-se à probabilidade de um evento ocorrer


com base em um anterior e, evidentemente, ambos precisam ser conjuntos não vazios
pertencentes a um espaço amostral finito (BRITO, 2018).
Por exemplo, se no lançamento simultâneo de dois dados obtêm-se números
em suas faces superiores, qual a probabilidade de que a soma desses números seja
8, desde que seus resultados sejam ímpares? Veja que ela está condicionada aos
resultados ímpares nos dois dados, logo, lançamentos que têm um ou dois números
pares na face superior podem ser descartados, havendo uma redução no espaço
amostral.
O novo espaço amostral é composto dos seguintes pares:

{1,1}; {1,3}; {1,5}; {3,1}; {3,3}; {3,5}; {5,1}; {5,3} e {5,5}

Desses, apenas {3,5} e {5,3} possuem soma 8. Logo, a probabilidade de se


obter 8 no lançamento de dois dados é de 2/9, considerando que os resultados obtidos
são ambos ímpares.
Para entender melhor a probabilidade condicional, considere um espaço
amostral S finito não vazio e um evento A de S, se quiser outro evento B desse espaço
S, a nova probabilidade é indicada por P(B|a), denominada como a probabilidade
condicional de B em relação ao A. Assim, ela formará um novo espaço amostral, pois
agora este será A e os elementos do evento B pertencerão a B ∩ A, como você pode
ver a seguir.

Fonte: Brito (2018, documento on-line).

19
Há diversos casos para ilustrar a probabilidade condicional, por exemplo, as
chances de um bebê nascer menina é um evento A, mas a probabilidade de essa
criança ter doença celíaca (intolerância ao glúten) se trata de um evento B. Essa
situação pode ser considerada uma probabilidade condicional, porque a doença
celíaca atinge mais mulheres do que homens. Se as chances fossem iguais para
pessoas dos dois gêneros, esses eventos não estariam condicionados e seriam uma
probabilidade marginal ou incondicional, pois a possibilidade de que um deles ocorra
não influencia na do outro (BRITO, 2018).
Assim, se os eventos forem independentes, a probabilidade não será
condicional, pois você representa a probabilidade condicional com a seguinte
expressão: P(A|B), que se lê “a probabilidade condicional de A em relação a B”
(BRITO, 2018). Já a fórmula para calculá-la é:

𝑃(𝐴 ∩ 𝐵)
P(A|B) =
𝑃(𝐵)

Exemplo:
Maria ganhou de João nove pulseiras, quatro delas de prata e cinco de ouro.
Maria ganhou de Pedro onze pulseiras, oito delas de prata e três de ouro. Ela guarda
todas essas pulseiras – e apenas essas – em sua pequena caixa de joias. Uma noite,
arrumando-se apressadamente para ir ao cinema com João, Maria retira, ao acaso,
uma pulseira de sua pequena caixa de joias. Ela vê, então, que retirou uma pulseira
de prata. Levando em conta tais informações, a probabilidade de que a pulseira de
prata que Maria retirou seja uma das pulseiras que ganhou de João é igual a?

Solução:
Verificamos que a condição é ser uma pulseira de prata, por isso, precisamos
saber o total de pulseiras de prata que Maria ganhou: 12.
Ela quer saber a probabilidade de que essa pulseira que ela está pegando no
escuro tenha sido dada de presente pelo João. Então, precisamos verificar quantas
pulseiras de prata João deu de presente: 4.

Utilizando a fórmula:

20
4
P(A|B) =
12
1
P(A|B) =
3
P(A|B) = 0,3333 × 100
P(A|B) = 33,33%

Quando dois eventos são independentes, a probabilidade de ocorrerem ao


mesmo tempo é dada por:

𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) × 𝑃(𝐵)

Já se você colocar isso na fórmula da probabilidade condicional, encontrará:

𝑃(𝐴 ∩ 𝐵)
P(A|B) =
𝑃(𝐵)
𝑃(𝐴) × 𝑃(𝐵)
P(A|B) =
𝑃(𝐵)
P(A|B) = 𝑃(𝐴)

Portanto, a probabilidade de A ocorrer não se altera.

Fique atento:
Salienta-se que a independência de eventos não deve ser confundida com
eventos disjuntos ou eventos mutuamente exclusivos. Dois eventos, cada um com
probabilidade não nula, mutuamente exclusivos, serão dependentes desde que a
ocorrência de um interfira na ocorrência do outro. Da mesma forma, se A e B são
independentes e P(A) > 0, P(B) > 0, então A e B não podem ser mutuamente
exclusivos (BRITO, 2018).

Exemplo:
Uma urna contém 8 bolas, das quais três são vermelhas e as restantes são
brancas. Qual a probabilidade de serem retiradas duas bolas, sucessivamente, sem
reposição, sendo a 1ª vermelha e a 2ª branca?

21
Solução:
Calculando a probabilidade de ocorrer o primeiro evento, em que dentro da urna
há 8 bolas (espaço amostral) e queremos sortear uma bola vermelha, tendo, dentro
da urna, um total de 3 dessa cor (evento):

3
P(A) =
8

Calculando a probabilidade de ocorrer o segundo evento, e sabendo que não


houve reposição, dentro da urna há 7 bolas (espaço amostral), e queremos sortear,
desta vez, uma bola branca, sabendo que, dentro dessa urna, há um total de 5 bolas
dessa cor (evento):

5
P(B) =
7

Calculando a probabilidade de que os eventos ocorram como fora solicitado,


utilizaremos a fórmula da probabilidade dos eventos independentes:

𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) × 𝑃(𝐵)


3 5
𝑃(𝐴 ∩ 𝐵) = ×
8 7
15
𝑃(𝐴 ∩ 𝐵) = = 0,2678
56
𝑃(𝐴 ∩ 𝐵) = 0,2678 × 100
𝑃(𝐴 ∩ 𝐵) = 26,78%

8 TEOREMA DE BAYES

O teorema de Bayes é uma fórmula matemática usada para o cálculo da


probabilidade de um evento dado que outro já ocorreu, o que se chama probabilidade
condicional. Para esse teorema, precisa-se ter alguma informação anterior ou saber
que determinado evento já ocorreu e qual sua probabilidade. Baseada nessa
inferência bayesiana, surge a expressão grau de crença, ou a confiança em algum
evento anterior (SILVA, 2019).
22
Uma das muitas aplicações do teorema de Bayes é a inferência bayesiana, uma
abordagem particular da inferência estatística. Assim, quando for aplicado, as
probabilidades envolvidas nele podem ter diferentes interpretações de probabilidade
(SILVA, 2019).
Com a interpretação bayesiana, o teorema expressa como a probabilidade de
um evento (ou seu grau de crença) deve ser alterada após considerar as evidências
sobre sua ocorrência. Apesar do pioneirismo, essa abordagem caiu em esquecimento
nas ciências e foi preterida pela frequentista, que ainda é hegemônica, mas devido ao
grande aumento na capacidade de processamento dos computadores, a bayesiana
renasceu com muita força (SILVA, 2019).
Para calcular pelo teorema de Bayes a probabilidade de um evento A dado que
um B ocorreu, P(A|B), tem-se a seguinte fórmula:

𝑃(𝐵|𝐴) × 𝑃(𝐴)
𝑃(𝐴|𝐵) =
𝑃(𝐵)

Considerando os eventos A e B permutáveis, o termo é igual a e, dessa forma,


pode ser escrita como:

𝑃(𝐵 ∩ 𝐴) = 𝑃(𝐵|𝐴) × 𝑃(𝐴)

Por fim, tem-se a seguinte relação:

𝑃(𝐵|𝐴)
𝑃(𝐴|𝐵) = × 𝑃(𝐴)
𝑃(𝐵)

Nesse caso, a probabilidade 𝑃(𝐴) é denominada probabilidade a priori, isto é,


a informação sobre o evento A antes que se soubesse algo sobre o evento B. Mais
adiante, quando se tenha conhecimento sobre B, a probabilidade relacionada ao
evento A deve ser atualizada pela probabilidade do evento B. A probabilidade 𝑃(𝐴|𝐵)
𝑃 (𝐵|𝐴)
é agora denominada probabilidade a posteriori. Sendo a razão o fator de
𝑃(𝐵)

atualização das informações sobre o evento A.

23
Para compreender com mais detalhes o Teorema de Bayes é necessário
entender a regra da probabilidade total (RPT), que expressa a probabilidade total de
um resultado por meio de vários eventos disjuntos (SILVA, 2019).
Inicialmente, considere o problema em encontrar o valor para a probabilidade
do evento A.

Considere agora que seja possível particionar o espaço Ω em partes Bi sem


intersecções entre si. Note que a união das partes Bi formam Ω.

A probabilidade A pode ser determinada pela intersecção entre o evento A e


cada partição Bi.

24
Nos espaços amostrais Ω formados pela união de partes Bi disjuntas
(mutuamente exclusivas) a probabilidade de qualquer evento de Ω é:

𝑃(𝐴) = 𝑃(𝐴 ∩ 𝐵1 ) + 𝑃(𝐴 ∩ 𝐵2 )+. . . +𝑃(𝐴 ∩ 𝐵𝑁 )


𝑃(𝐴) = 𝑃(𝐴|𝐵1 ) × 𝑃(𝐵1 ) + 𝑃(𝐴|𝐵2 ) × 𝑃(𝐵2 )+. . . +𝑃(𝐴|𝐵𝑁 ) × 𝑃(𝐵𝑁 )

Dessa forma, a probabilidade do evento A pode ser representado por:

𝑃(𝐴) = ∑ 𝑃(𝐴|𝐵𝑖 ) × 𝑃(𝐵𝑖 )


𝑖=1

Exemplo:
Um amigo muito próximo lhe pediu R$1.000,00 emprestado (V emprestado) para
solução financeira de uma emergência. Você é um investidor nato e não suporta a
ideia de perder o patrimônio conquistado. Embora você decida ajudar seu amigo, você

25
está preocupado com o risco do não pagamento do empréstimo e, por isso, cobrará
juros (Tjuros) sobre o montante inicial emprestado:

𝑉𝑑𝑒𝑣𝑜𝑙𝑣𝑖𝑑𝑜 = 𝑉𝑒𝑚𝑝𝑟𝑒𝑠𝑡𝑎𝑑𝑜 × (1 + 𝑇𝑗𝑢𝑟𝑜𝑠 )

Você percebeu que o valor devolvido (Vdevolvido) do seu “investimento” ao final


do período de empréstimo está sujeito às “variações do mercado”, que, nesse caso,
estão relacionadas a um evento incerto do não pagamento da dívida. Com isso, você
define o valor esperado (Vesperado) como o valor recebido ao final do período
considerando tal incerteza.
Seja A o evento indicativo do pagamento do seu amigo, então o valor esperado
(Vesperado) ao final do período de empréstimo é a média ponderada entre as
possibilidades de valores devolvidos, Vdevolvido e 0, e suas respectivas
probabilidades, 𝑃(𝐴) e 1 − 𝑃(𝐴):

𝑉𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 = 𝑉𝑑𝑒𝑣𝑜𝑙𝑣𝑖𝑑𝑜 × 𝑃(𝐴) + 0 × [1 + 𝑃(𝐴)]


𝑉𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 = [𝑉𝑒𝑚𝑝𝑟𝑒𝑠𝑡𝑎𝑑𝑜 × (1 + 𝑇𝑗𝑢𝑟𝑜𝑠 )] × 𝑃(𝐴) + 0 × [1 + 𝑃(𝐴)]
𝑉𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 = [𝑉𝑒𝑚𝑝𝑟𝑒𝑠𝑡𝑎𝑑𝑜 × (1 + 𝑇𝑗𝑢𝑟𝑜𝑠 )] × 𝑃(𝐴)

Da relação anterior, é possível obter a taxa de juros adotada:

𝑉𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜
𝑇𝑗𝑢𝑟𝑜𝑠 = −1
𝑉𝑒𝑚𝑝𝑟𝑒𝑠𝑡𝑎𝑑𝑜 × 𝑃(𝐴)

Você decide que o valor dos juros será determinado de maneira que o valor
esperado seja igual ao investimento inicial, isto é, 𝑉𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 = 𝑉𝑒𝑚𝑝𝑟𝑒𝑠𝑡𝑎𝑑𝑜 . Dessa
forma, a taxa de juros utilizada será:

1000 1
𝑇𝑗𝑢𝑟𝑜𝑠 = −1= − 1
1000 × 𝑃(𝐴) 𝑃(𝐴)

Você utilizará uma proxy o evento A baseado no cadastro nacional de bons ou


maus pagador. Infelizmente, você não tem acesso à esse cadastro. No entanto, você

26
sabe que, assim como você, seu amigo possui conta no banco ABC, que regularmente
publica informações agregadas sobre as operações com os clientes.
Tal banco realizou um levantamento informando que 1 em cada 10 clientes
possuem registo ativo no cadastro nacional de maus pagadores. Dessa forma, a
9
probabilidade do pagamento do seu amigo se concretizar é de 𝑃(𝐴) = 10 = 90%.

Dito isso, utilizando a taxa de juros que você deve adotar é:

1
𝑇𝑗𝑢𝑟𝑜𝑠 = −1
0,9
𝑇𝑗𝑢𝑟𝑜𝑠 = 11.111%

Dessa forma, a priori, seu amigo deveria lhe pagar R$ 1.111,11 ao final do
período para garantir que, em média e desconsiderando inflação, seu investimento
inicial seja recuperado.
Nos informativos do banco também consta que 2 em cada 4 maus pagadores
atrasam o pagamento do boleto, enquanto dentre os bons pagadores, apenas 1 a
cada 20 atrasam suas obrigações.
Durante a conversa, seu amigo te informou que possui boletos atrasados nesse
banco. Baseado nessa nova informação, qual a probabilidade do seu amigo ser mau
pagador dado que atrasou o pagamento? Qual a nova taxa de juros que você deve
adotar para proteger seu “investimento”?
O Teorema de Bayes responde diretamente essa pergunta. Antes disso, vamos
modelar os eventos e identificar suas probabilidades. Considere o evento A o cliente
ser um bom pagador e o evento B o atraso do pagamento de um boleto da obrigação
financeira nesse banco.
9
 Ser bom pagador: evento A. Sendo 𝑃(𝐴) = 10
1
 Ser mal pagador: evento Ac. Sendo 𝑃(𝐴𝑐 ) = 1 − 𝑃(𝐴) = 10

 Atraso no pagamento: evento B. Sendo 𝑃(𝐵) = 𝑛ã𝑜 𝑖𝑛𝑓𝑜𝑟𝑚𝑎𝑑𝑜


 Atraso no pagamento dos bons pagadores: evento B|A. Sendo 𝑃(𝐵|𝐴) =
1
20

 Atraso no pagamento dos mal pagadores: eventos B|Ac.


2
Sendo 𝑃(𝐵|𝐴𝑐 ) = 4
27
 Probabilidade do seuamigo ser bom pagador caso tenha atrasado o
pagamento. 𝑃(𝐴|𝐵) = ?

Utilizando o Teorema de Bayes e a RPT em 𝑃(𝐵), tem-se que:

𝑃(𝐵|𝐴)
𝑃(𝐴|𝐵) = × 𝑃(𝐴)
𝑃(𝐵)
𝑃(𝐵|𝐴)
𝑃(𝐴|𝐵) = ⌊ ⌋ × 𝑃(𝐴)
𝑃(𝐵|𝐴) × 𝑃(𝐴) + 𝑃(𝐵|𝐴𝑐 ) × 𝑃(𝐴𝑐 )
1
20 9
𝑃(𝐴|𝐵) = ⌊ ⌋×
1 9 2 1 10
20 × 10 + 4 × 10
38 9
𝑃(𝐴|𝐵) = ⌊ ⌋ ×
20 10
𝑃(𝐴|𝐵) = 47,36%

Dessa forma, após saber que ele não pagou o boleto do banco, a probabilidade
de ser bom pagador a posteriori reduz em quase a metade da priori. Dessa forma, a
1
nova taxa de juros é 0,4736 − 1 = 111.111% fazendo com que o valor cobrado seja de

R$ 2.111,11.

9 VARIÁVEL ALEATÓRIA

Uma variável aleatória X é uma função com valores numéricos, cujo valor é
determinado por fatores de chance, ou seja, podem estar sujeitos à influência conjunta
dos fatores associados ao experimento que interagem conjuntamente. Tal variável
pode ser discreta ou contínua (SILVA, 2015).

9.1 Variável aleatória discreta

Uma variável aleatória X é dita discreta quando puder assumir apenas valores
inteiros ao longo de uma escala. Se, para cada um dos valores da variável aleatória
discreta, teremos a sua probabilidade definida por (SILVA, 2015):

28
𝑓(𝑥) = 𝑃(𝑋 = 𝑥)

Onde:
𝑓(𝑥): função matemática de x;
𝑃(𝑋 = 𝑥) : probabilidade da variável aleatória X em determinado ponto da
escala x.

Como estamos lidando com um valor discreto do espaço amostral da variável


em estudo, para, teremos apenas valores inteiros (SILVA, 2015).
A função de probabilidade da variável aleatória discreta também é chamada
função massa de probabilidade (FMP) e satisfaz os seguintes pressupostos:

0 ≤ 𝑓(𝑥) ≤ 1

∑ 𝑓(𝑥𝑖 ) = 1

Por exemplo, uma moeda equilibrada é lançada duas vezes. A variável X é o


número de caras nesses lançamentos. O espaço amostral é descrito por C (coroa) e
K (cara).

Ω = (CC, CK, KC, KK)


1
X = 0 ⇾ f(0) = P(CC) =
4
2
X = 1 ⇾ f(1) = P(CK × KC) =
4
1
X = 2 ⇾ f(2) = P(KK) =
4

x 0 1 2
f(x) 1 2 1
4 4 4

29
9.1.1 Função de distribuição acumulada de probabilidade

A função distribuição ou função distribuição acumulada de probabilidade de


uma variável aleatória discreta X é definida, para qualquer número real 𝑥, pela
seguinte expressão (SILVA, 2015):

𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥)

9.1.2 Variável aleatória discreta média ou esperança

Dada uma variável aleatória discreta, assumindo os valores x1,x2,..., xn,


chamamos valor médio ou esperança de X ao valor (SILVA, 2015):

𝑥 = 𝐸(𝑋) = ∑ 𝑥𝑖 𝑝(𝑥𝑖 )
𝑖=1

9.1.3 Variância e desvio padrão

Chamamos de variância de uma variável aleatória discreta ao valor (SILVA,


2015):

𝜎𝑥2 = 𝑉(𝑋) = ∑(𝑥𝑖− 𝑥 )² × 𝑝(𝑥𝑖 )


𝑖=1

𝜎𝑋 = √𝑉(𝑋) é 𝑜 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 𝑑𝑒 𝑋

9.2 Variável aleatória contínua

É o tipo de variável que assume todos os valores em um intervalo de números.


A distribuição de probabilidade de X é descrita por uma curva de densidade. A
distribuição de uma variável aleatória contínua associa as probabilidades às áreas sob
uma curva de densidade f(x) (SILVA, 2015). Neste caso, os valores de X pertencem
ao conjunto dos reais.
Condições:
a) 𝑓(𝑥) ≥ 0
30
+∞
b) ∫−∞ 𝑓(𝑡)𝑑𝑡 = 1

9.2.1 Função de distribuição acumulada de probabilidade

Dada uma variável aleatória. X com função densidade de probabilidade f(x),


podemos definir a sua função de distribuição acumulada (FDA), F(x) como:

𝐹(𝑥) = ∫ 𝑓(𝑡)𝑑𝑡
−∞

9.2.2 Variável aleatória contínua média ou esperança

Dada uma variável aleatória. contínua, assumindo os valores num intervalo de


números reais, chamamos valor médio ou esperança de X ao valor:

+∞

𝜇𝑥 = 𝐸(𝑋) = ∫ 𝑡𝑓(𝑡)𝑑𝑡
−∞

9.2.3 Variância e desvio padrão

Chamamos de variância de uma variável aleatória. contínua ao valor:

+∞

𝜎𝑥2 = 𝑉(𝑋) = ∫ (𝑡 − 𝜇𝑥 )² × 𝑓(𝑡)𝑑𝑡


−∞

𝜎𝑋 = √𝑉(𝑋) é 𝑜 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 𝑑𝑒 𝑋

10 DISTRIBUIÇÕES DISCRETAS

Muitas vezes, ficar pensando em espaço amostral e todas as possibilidades de


funções pode ser complicado e desnecessário. Por esse motivo, algumas distribuições
foram criadas por sua frequência de uso e seu uso ser útil em variáveis com
comportamentos similares e predefinidos. Essas distribuições têm funções
matemáticas predefinidas (SILVA, 2015).

31
10.1 Uniforme

Uma variável aleatória X tem distribuição de uniforme discreta com parâmetro


n se Im(X) é um conjunto finito com n elementos e a probabilidade de X assumir
qualquer um do n elementos é a mesma, independente do elemento (SILVA, 2015).
Suponha que seu professor de estatística decida dar aos alunos um livro
próprio como um presente. Como ele não queria favorecer nenhum aluno em
particular, decidiu selecionar aleatoriamente o vencedor entre os 45 alunos da turma.
Para tanto, numerou os nomes dos alunos de 1 a 45, escreveu esses números em
pedaços iguais de papel, dobrou-os ao meio para torná-los invisíveis e, em seguida,
sorteou um deles. Qual é a probabilidade de você ganhar este livro? Qual é a
probabilidade de o aluno com a pontuação mais baixa no primeiro teste vencer? Qual
é a pontuação mais alta?
As coisas importantes a serem observadas neste exemplo são as seguintes: O
professor tomou todas as precauções necessárias, especialmente não favorecendo
nenhum aluno. Isso significa que todos os alunos têm chances iguais de ganhar este
livro. Portanto, temos um exemplo de uma distribuição discreta uniforme.
Note que, em uma distribuição discreta uniforme, todos os valores são
igualmente prováveis. Veja que o parâmetro n é o número de valores que a variável
aleatória pode assumir e por isso n pode ser qualquer valor no conjunto ℕ. Chamamos
de espaço paramétrico o conjunto de valores que o parâmetro de uma distribuição
pode assumir. Nesse caso, o espaço paramétrico para o parâmetro n é o conjunto dos
números naturais, isto é, ℕ (SILVA, 2015).
Vamos denotar a distribuição uniforme discreta com parâmetro n por Unif(n).
Nesse caso, se quisermos indicar que uma variável aleatória X segue a distribuição
Uniforme Discreta com parâmetro n podemos simplesmente escrever: X ∼ Unif(n) (lê-
se: a variável aleatória X tem distribuição uniforme discreta com parâmetro n) (SILVA,
2015).
Seja X ∼ Unif(n) e suponha Im(X) = {x1,x2,...,xn}. Logo a sua função de
probabilidade é definida por:

1
𝑝𝑋(𝑥𝑖 ) = 𝑃(𝑋 = 𝑥𝑖 ) = ∀𝑖 = 1,2, … , 𝑛
𝑛
32
Na figura a seguir estão os gráficos da função de probabilidade e função de
distribuição de uma variável aleatória discreta. Veja que como a probabilidade
associada a cada elemento 𝑥𝑖 de Im(X) é o mesmo ∀𝑖 , os degraus no gráfico da função
de distribuição tem mesmo tamanho.

1 1 1
 Média: 𝐸(𝑋) = 𝑛 × 𝑥1 + 𝑛 × 𝑥2 + ⋯ + 𝑛 × 𝑥𝑛 = 𝑥̅
1 1
 Variância: 𝑉𝑎𝑟(𝑋) = 𝐸[𝑋 − 𝐸(𝑋)]2 = 𝑛 × (𝑥1 − 𝑥̅ )² + 𝑛 × (𝑥2 − 𝑥̅ )² +
1
⋯ + 𝑛 × (𝑥𝑛 − 𝑥̅ )² = 𝜎𝑥2

Exemplo:
Considere o lançamento de uma moeda. Vamos definir a seguinte variável
aleatória X associada a esse experimento:

0, se ocorre cara
𝑋={
1, se ocorre coroa

Verifique se X é variável aleatória uniforme discreta e calcule sua média e


variância.

Solução:
Para que essa variável aleatória tenha distribuição uniforme, é necessário
supor que a moeda seja honesta e, nesse caso,

33
1
𝑃𝑥(0) = 𝑃𝑥(1) =
2
0+1 1
𝐸(𝑋) = =
2 2
1 1 2 1 1 2 1 1 1 1 1
𝑉𝑎𝑟(𝑋) = × (0 − ) + × (1 − ) = × + × =
2 2 2 2 2 4 2 4 4

10.2 Bernoulli

Um ensaio de Bernoulli, ou experimento de Bernoulli, é um experimento


aleatório com apenas dois resultados possíveis; por convenção, um deles é chamado
“sucesso” e o outro, “fracasso” (SILVA, 2015).
Considere o lançamento de uma moeda. A característica de tal experimento
aleatório é que ele possui apenas dois resultados possíveis. Uma situação análoga
surge quando da extração da carta de um baralho, em que o interesse está apenas
na cor (preta ou vermelha) da carta sorteada.
Suponha que seja realizado um ensaio de Bernoulli e, baseado nesse
experimento, seja definida a variável aleatória X:

1, se ocorre sucesso
𝑋={
0, se ocorre fracasso

Uma variável aleatória X tem distribuição de Bernoulli com parâmetro p se ela


é uma variável indicadora de algum evento, denominado “sucesso”, com probabilidade
p de ocorrência (SILVA, 2015).
Vamos denotar a distribuição de Bernoulli com parâmetro p por Bern(p). Nesse
caso, se quisermos indicar que uma variável aleatória X segue a distribuição de
Bernoulli com parâmetro p podemos simplesmente escrever: X ∼ Bern(p) (lê-se: a
variável aleatória X tem distribuição de Bernoulli com parâmetro p) (SILVA, 2015).
A função de probabilidade de X ∼ Bern(p) pode também ser escrita da seguinte
forma:
𝑝𝑥 (𝑥) = 𝑃(𝑋 = 𝑥) = 𝑝 𝑥 (1 − 𝑝)1−𝑥 𝑥 = 0,1

Verifique que 𝑃(𝑋 = 1) = 𝑝 e 𝑃(𝑋 = 0) = 1 − 𝑝 . Já a sua função de


distruibuição acumulada é dada por:
34
0 𝑠𝑒 𝑥 < 0
𝐹𝑋 (𝑥) {1 − 𝑝 𝑠𝑒 0 ≤ 𝑥 < 1
1 𝑠𝑒 𝑥 ≥ 1

Na figura, temos os gráficos da função de probabilidade e da função de


distribuição acumulada de uma variável de Bernoulli. Como Im(X) é um conjunto com
apenas dois elementos, Im(X) = {0, 1}, a função de distribuição de X só tem dois pontos
de descontinuidade, em 0 e em 1.

 Média: 𝐸(𝑋) = 𝑝
 Variância: 𝑉𝑎𝑟(𝑋) = 𝑝 × (1 − 𝑝)

Exemplo:
Considere o lançamento de uma moeda. Vamos definir a seguinte variável
aleatória X associada a esse experimento:

0, se ocorre cara
𝑋={
1, se ocorre coroa

1
Seja p a probabilidade de cara, 0 < p < 1. Já vimos que se 𝑝 = 2 então X é

uniforme discreta. Encontre a distribuição de X qualquer que seja o valor de p.

Solução:

35
Como Im(X) = {0, 1}, X tem distribuição de Bernoulli com parâmetro p, qualquer
que seja p. Nesse caso o “sucesso” é definido como a saída cara, e ocorre com
probabilidade p, e o “fracasso” a saída coroa.
1
Note que se 𝑝 = 2 X pode ser considerada uma v.a. de Bernoulli ou uniforme

discreta, para os outros valores de p X só pode ser considerada v.a. de Bernoulli.


1
Nesse caso, a Bernoulli com parâmetro 𝑝 = 2 é equivalente à distribuição uniforme.

10.3 Binomial

A distribuição binomial é utilizada quando temos um número de repetições de


um experimento, uma probabilidade de sucesso associada ao acontecimento positivo
do que estamos estudando e uma probabilidade de fracasso sobre esse mesmo
evento. São situações em que pode haver sucesso ou não, e nenhuma outra hipótese
é permitida como o número de caras em 50 lançamentos de uma moeda (SILVA,
2015).
Então, temos um experimento com espaço amostral associado, além de
repetições desse experimento. Temos, também, p probabilidade de um evento desse
espaço amostral ocorrer em cada uma das repetições do experimento (SILVA, 2015).
Na distribuição binomial, o evento ocorre ou não — temos somente essas duas
opções. Então, se temos uma probabilidade p desse evento ocorrer, temos uma
probabilidade 𝑞 = 1 − 𝑝 desse evento não ocorrer (SILVA, 2015).
Costuma-se denominar como p sendo a probabilidade de sucesso e q como
sendo a probabilidade de fracasso. Vale ressaltar que, dependendo do evento que
estejamos estudando, o sucesso não necessariamente seja uma afirmativa positiva.
Quando utilizamos o termo sucesso, estamos dizendo que é a probabilidade de
sucesso de ocorrer o evento em particular que estamos investigando,
independentemente de ele ter um resultado considerado positivo ou não (SILVA,
2015).
A forma da distribuição binomial é demonstrada no gráfico da figura, a seguir,
considerando 60 repetições de um experimento e uma probabilidade de sucesso de
15%. Anotamos uma distribuição binomial por B(n,p), no caso do gráfico B(20;0,15).

36
A fórmula da função matemática para cálculo de uma distribuição binomial é
dada por:

𝑓(𝑥) = 𝑃(𝑋 = 𝑥) = ( 𝑛𝑥 ) × −𝑝 𝑥 × 𝑞 𝑛−𝑥

Onde:
𝑥: é o valor do espaço amostral que se quer calcular a probabilidade;
𝑛: é o número de repetições;
𝑝: é a probabilidade de sucesso;
𝑞 = 1 − 𝑝: é a probabilidade de fracasso.

Fique atento:
Observe que, na fórmula, temos o termo ( 𝑛𝑥 ). Isso é resolvido por análise
𝑛!
combinatória e significa 𝑛 combinação 𝑥, ou seja: ( 𝑛𝑥 ) = em que o ponto de
𝑥! ×( 𝑛− 𝑥)!

exclamação significa fatorial.


Em algumas calculadoras científicas, a tecla para a resolução desse termo da
função é nCr.

Por exemplo, atualmente, sabemos que as redes sociais são utilizadas para
comercialização de produtos. Sabe-se, por uma pesquisa realizada, que cerca de 15%
dos itens postados são efetivamente vendidos. Primeiramente, queremos saber a
probabilidade de, pelo menos, 2 itens serem vendidos em um dia que 10 itens foram
37
postados para venda. Os valores que pode assumir são x = (2,3,4,5,6,7,8,9,10). Para
não precisarmos calcular todas essas probabilidades, podemos fazer uso da
propriedade do complementar e tirar do espaço amostral os valores que não fazem
parte dessa sentença e têm probabilidade 1.

𝑃(𝑋 ≥ 2) = 1 − 𝑃(𝑋 < 2) = 1 − (𝑃(𝑋 = 0) + 𝑃(𝑋 = 1) =


1 − (( 10 0
0 ) × 0,15 × 0,85
10−0
+ ( 10 1
0 ) × 0,15 × 0,85
10−1
) = 0,4557 = 45,57%

A segunda questão é a probabilidade de vender um produto. Para isso,


calculamos apenas x = 1.

𝑃(𝑋 = 1) = ( 10 1
0 ) × 0,15 × 0,85
10−1
= 0,3474 = 34,74%
Por fim, calcularemos a probabilidade de que sejam vendidos menos de 3
produtos. Aqui, o x pode assumir os seguintes valores: x = 0,1,2.

𝑃(𝑋 < 3) = (( 10 0
0 ) × 0,15 × 0,85
10−0
+ ( 10 1
0 ) × 0,15 × 0,85
10−1
+ ( 10
0 ) × 0,15
2

× 0,8510−2 )
= 0,8202 = 82,02%

10.4 Poisson

Assim como a distribuição binomial, a de Poisson também conta sucessos.


Porém, ao invés de eles serem observados em um número de repetições, são feitos
em um intervalo contínuo de tempo ou espaço. O sucesso da distribuição Poisson é
observado em um intervalo contínuo, e o da binomial é em um número de repetições
(SILVA, 2015).
Segundo Doane e Seward (2014), a distribuição de Poisson foi assim
denominada em homenagem ao matemático francês Simèon-Denis Poisson (1781-
1840) e descreve o número de ocorrências de um evento dentro de uma unidade de
tempo (por exemplo, minuto ou hora), escolhida aleatoriamente, ou de espaço (por
exemplo, metro quadrados ou quilômetros lineares). Para se usar a distribuição, os
eventos devem ocorrer aleatória e independentemente no espaço ou em tempo
contínuo.
38
Por exemplo, se nossa variável X fosse número de chamadas não atendidas
em uma central telefônica, caso observássemos essa variável em um dia que
ocorreram 300 ligações, teríamos a proporção de chamadas não atendidas (nossa
probabilidade de sucesso) em 300 repetições do experimento, o que caracterizaria
uma distribuição binomial. Porém, se observássemos a quantidade de chamadas não
atendidas em um turno de 8 horas de trabalho, teríamos a taxa de ocorrência por 8
horas de trabalho, o que caracterizaria uma distribuição de Poisson.
A distribuição de Poisson é representada por P(λ), sendo λ a taxa de ocorrência
do evento em estudo da variável x. Para percebermos o comportamento da função da
distribuição de Poisson, observaremos o gráfico resultante de uma Poisson com λ =
5 × 𝑃(5), na figura.

A função matemática para o cálculo dessa distribuição é dada por:

𝑒 −λ × λ𝑥
f(x) = P(X = x) =
𝑥!

Onde:
𝑥: é o valor do espaço amostral em que se quer calcular a probabilidade;
λ: é a taxa de ocorrência.

Fique atento:

39
Observe que, na fórmula, temos o termo 𝑒, que representa a constante Euler.
É um valor constante, assim como o conhecido 𝜋. Para calcular a expressão 𝑒 −λ nas
calculadoras científicas, utilizamos a tecla 𝑒 𝑥 .
Relembrando: o ponto de exclamação representa o fatorial.

Exemplo:
Imagine essa central telefônica e que a taxa de chamadas não atendidas em
um turno de 8 horas é de 10 chamadas. Queremos investigar a probabilidade de não
termos chamadas não atendidas em uma hora.
Observem que a taxa é dada por 8 horas, mas queremos calcular a
probabilidade por hora. e então, a primeira coisa a se fazer é descobrir a taxa por hora
de chamadas não atendidas. Isso se resolve com uma regra de três.

10 chamadas 8 horas
λ 1 hora

Então temos λ = 1,25.


Agora, calcularemos a probabilidade de não termos chamada não atendida. e
então, queremos calcular a probabilidade de x = 0.

𝑒 −1,25 × 1,250
f(0) = P(X = 0) = = 0,2685 = 26,85%
0!

10.5 Geométrica

A distribuição geométrica discreta se aplica a uma sequência de experimentos


independentes de Bernoulli com um evento de interesse que tem probabilidade p
(SILVA, 2015).
Se a variável aleatória X for o número total de ensaios necessários para
produzir um evento com a probabilidade p, a função de massa de probabilidade (FMP)
de X é dada por:

f(x) = {p(1 − p)𝑥−1 𝑞𝑢𝑎𝑛𝑑𝑜 x ∈ {1,2,3 … }

40
E X apresenta as seguintes propriedades:
1
 Média: 𝑝
1−𝑝
 Variância: 𝑝

Se a variável aleatória Y for o número de não eventos que ocorrem antes de o


primeiro evento com a probabilidade p ser observado, a função de massa de
probabilidade (FMP) de Y é dada por:

f(y) = {p(1 − p)𝑦 𝑞𝑢𝑎𝑛𝑑𝑜 𝑦 ∈ {0,1,2, … }

E Y apresenta as seguintes propriedades:


1−𝑃
 Média: 𝑝
1−𝑝
 Variância: 𝑝²

Onde:
𝑋: número total de ensaios necessários para produzir um evento, 𝑌 + 1
𝑌: número de não eventos que ocorrem antes do primeiro evento
𝑃: probabilidade de ocorrência de um evento em cada ensaio

10.6 Hipergeométrica

A distribuição hipergeométrica é usada para amostras extraídas de populações


relativamente pequenas, sem substituição (SILVA, 2015). Por exemplo, você tem uma
remessa de N televisores, onde N1 são bons (sucessos) e N2 são defeituosos (falha).
Se você amostrar n televisores de N aleatoriamente, sem substituição, pode encontrar
a probabilidade de que exatamente x dos n televisores estão bons.
A função de massa de probabilidade (FMP) é:

(𝑁𝑥1 )× (𝑛−𝑥
𝑁2
)
𝑓(𝑥) = 𝑁 , 𝑚á𝑥 (0, 𝑛 − 𝑁 + 𝑁1 ) ≤ 𝑥 ≤ 𝑚í𝑛 (𝑛, 𝑁1 )
𝑛

41
𝑁1
 Média: 𝑛 × 𝑁
𝑁−𝑛 𝑁 𝑁
 Variância: 𝑛 × ( 𝑁−1) × ( 𝑁1 ) × ( 𝑁2 )

Onde:
𝑁: N1 + N2 = tamanho da população
N1: número de eventos na população
N2: número de não eventos na população
𝑛: tamanho amostral
𝑥: número de eventos na amostra

11 DISTRIBUIÇÕES CONTÍNUAS

Nas distribuições contínuas de probabilidade, estamos lidando com variáveis


aleatórias contínuas, ou seja, que resultam de uma medição. Nesses casos, não
temos valores únicos em uma escala, mas, sim, em intervalos, pois, na variável
aleatória contínua, podemos ter qualquer valor na reta dos reais (SILVA, 2019).
Dessa forma, a função densidade de probabilidade (FDP), que terá uma função
matemática associada, necessitará uma integral para a resolução do cálculo de
probabilidade. Nesse caso, estamos calculando intervalos abaixo de uma curva, como
mostrado na figura (SILVA, 2019).

Fonte: Freund (2006, p. 215).

Conforme podemos observar na figura, para obtermos a probabilidade, no caso


da distribuição contínua, não podemos obtê-la em um ponto único, mas apenas em
intervalos, como em um intervalo entre os pontos e quaisquer abaixo de uma curva.

42
Concluímos, então, que, na distribuição contínua de probabilidade, não existe
probabilidade no ponto.
Matematicamente, a resolução dessas probabilidades se dá com a integração
da função da distribuição em estudo. Isso nem sempre é simples, pois nem todas as
integrações de funções de probabilidade são de fácil resolução. Para isso, funções
comumente utilizadas contêm tabelas para auxiliar no cálculo de probabilidade. Esse
é o caso da distribuição normal, a mais importante distribuição de probabilidade em
estatística. É do pressuposto de normalidade dos dados que muitas inferências são
possíveis (SILVA, 2019).
Mas, independentemente de estarmos estudando distribuições discretas ou
distribuições contínuas de probabilidade, alguns axiomas continuam valendo, como:
0 ≤ f(x) ≤ 1 e a área total abaixo da curva sempre somarão 1 na distribuição acumulada
(SILVA, 2019).

11.1 Uniforme

A distribuição uniforme é a mais simples distribuição contínua, entretanto uma


das mais importantes e utilizadas dentro da teoria de probabilidade. A distribuição
uniforme tem uma importante característica a qual a probabilidade de acontecer um
fenômeno de mesmo comprimento é a mesma (SILVA, 2019).
Uma variável aleatória X tem distribuição uniforme no intervalo [a,b] se sua
função densidade de probabilidade for dada por:

1
𝑓(𝑥) = {𝑏 − 𝑎 , se a ≤ x ≤ b
0, caso contrário

O gráfico abaixo ilustra a função densidade da distribuição uniforme com


parâmetros a=0 e b=1.

43
Exemplo:
A ocorrência de panes em qualquer ponto de uma rede telefônica de 7 km foi
modelada por uma distribuição uniforme no intervalo [0,7]. Qual é a probabilidade de
que uma pane venha a ocorrer nos primeiros 800 metros? E qual a probabilidade de
que ocorra nos 3 km centrais da rede?

Solução:
1
A função densidade da distribuição uniforme é dada por 𝑓(𝑥) = se 0 ≤ x ≤ 7
7

e zero, caso contrário. Assim, a probabilidade de ocorrer pane nos primeiros 800
metros é:
0,8
0,8 − 0
ℙ(𝑋 ≤ 0,8) = ∫ 𝑓(𝑥)𝑑𝑥 = = 0,1142
7
0

E a probabilidade de ocorrer pane nos 3 km centrais da rede é:

5
5 2
ℙ(2 ≤ 𝑋 ≤ 5) = ∫ 𝑓(𝑥)𝑑𝑥 = ℙ(𝑋 ≤ 5) − ℙ(𝑋 ≤ 2) − ≈ 0,4285
7 7
2

11.2 Exponencial

Para o caso da distribuição de probabilidade exponencial, segundo Doane e


Seward (2014), no modelo exponencial, o foco está no tempo de espera até o evento
44
subsequente: uma variável contínua. A função densidade de probabilidade
exponencial aproxima-se de zero à medida que o valor de x aumenta. Isso é útil para
calcular tempo de vida de alguns componentes.

−𝜆𝑥
𝑓(𝑥) = {𝜆𝑒 , se x ≥ 0
0, se x < 0

Onde:
𝜆: é a taxa média pelo tempo ou espaço;
𝑥: é o valor da variável aleatória que se quer obter a probabilidade.

Representamos a distribuição exponencial por x~Exp(λ), ou seja, a variável x


aproxima-se de uma distribuição exponencial de parâmetro λ, conforme gráfico da
figura.

Fonte: Portal Action (2017, documento on-line).

A função de distribuição acumulada F(x) é dada por:

𝑥 −𝜆𝑥
𝐹(𝑥) = ∫ 𝑓(𝑠)𝑑𝑠 = {1 − 𝑒 , se x ≥ 0
0 0 se x < 0

45
Exemplo:
Suponha que o tempo de vida de uma determinada espécie de inseto tenha
1
uma distribuição exponencial de parâmetro λ = dia. Suponha também que estes
12

insetos atinjam a maturidade sexual após 3 dias de seu nascimento. Qual a função
densidade de probabilidade, em dias, dos insetos que conseguem se reproduzir? E
qual a probabilidade de que um inseto reprodutor viva mais de 24 dias?

Solução:
Seja X a distribuição do tempo de vida dos insetos, e Y a distribuição do tempo
de vida dos insetos que chegam à reprodução. Observem que Y=X+3, assim:

𝐹𝑦 (𝑦) = ℙ(𝑌 ≤ 𝑦) = ℙ(𝑋 + 3 ≤ 𝑦) = ℙ(𝑋 ≤ 𝑦 − 3) = 𝐹𝑥 (𝑦 − 3)

Portanto, a função densidade de probabilidade de Y é dada por:

1 −(𝑦−3)
𝑓𝑦 (𝑥) = {12 𝑒
12 , se y ∈ (3, ∞)

0, caso contrário

Agora falta encontramos qual a probabilidade de que o inseto reprodutor dure


mais de 24 dias. Usando a densidade acima temos que:

ℙ(𝑌 > 24) = 1 − ℙ(𝑌 ≤ 24) = 1 − 𝐹𝑦 (24) =


24 24
1 −(𝑦−3)
1 − ∫ 𝑓𝑦 (𝑦)𝑑𝑦 = 1 − ∫ 𝑒 12 ≈ 0,1738
−∞ 3 12

11.3 Laplace

A distribuição de probabilidade de Laplace, também chamada de exponencial


dupla, pois, algumas vezes, é como se tivéssemos uma exponencial positiva junto a
uma exponencial negativa. Pode ser utilizada para dados de modelagem em biologia
e finanças (SILVA, 2019). Tem por função a distribuição de probabilidade:

46
1 (|𝑥−μ|)
𝑓(𝑥) = 𝑒 σ , −∞ < 𝑥 < ∞, −∞ < μ < ∞, −∞ < σ < ∞

Onde:
𝜎: é o desvio-padrão;
μ: é a média;
x: é o valor da variável aleatória que se quer obter a probabilidade.

Representamos a distribuição Laplace por x~Laplace(μ, 𝜎), ou seja, a variável


x aproxima-se de uma distribuição Laplace de parâmetros μ e 𝜎. A forma da
distribuição de Laplace é semelhante à normal, porém com um pico bem mais fino e
acentuado, como na figura.

Fonte: Suporte ao Minitab (2017, documento on-line).

11.4 Logística

Outra distribuição de probabilidade contínua de grande utilização é a


distribuição logística, utilizada mais largamente para dados demográficos e de vendas,
quando se investiga o crescimento (SILVA, 2019). A função é definida por:

(𝑥−μ)
𝑒− σ
𝑓(𝑥) = (𝑥−μ)
, −∞ < 𝑥 < ∞, −∞ < μ < ∞, −∞ < σ < ∞

σ (1 + 𝑒 σ )²

47
Onde:
𝜎: é o desvio-padrão;
μ: é a média;
x: é o valor da variável aleatória que se quer obter a probabilidade.

Representamos a distribuição logística por x~Logist(μ, 𝜎), ou seja, a variável x


aproxima-se de uma distribuição logística de parâmetros μ e 𝜎. A forma da distribuição
logística é semelhante à normal, porém com caudas mais longas, como na figura.

Fonte: Suporte ao Minitab (2017, documento on-line).

12 DISTRIBUIÇÃO NORMAL

Esta é a distribuição de probabilidade contínua mais importante e utilizada


dentro da estatística. Muito da inferência estatística parte do pressuposto da
normalidade dos dados, além, é claro, de grande parte das variáveis encontradas
seguir esse modelo de distribuição (SILVA, 2019).
Essa distribuição tem como parâmetros a média que é uma medida de posição
e o desvio-padrão que é a medida de variabilidade. Então, o formato dessa distribuição
depende da variabilidade — quanto mais achatada for a distribuição, maior será a
variabilidade dos dados e, ao contrário, quanto mais estreita for a distribuição, menor
será a variabilidade. Já a média situa no eixo em que os dados se concentram (SILVA,
2019).

48
É com base na teoria da distribuição de probabilidade normal que podemos
estruturar testes de hipótese, estabelecer intervalos de confiança e calcular tamanhos
de amostra (SILVA, 2019).
A função matemática que descreve a distribuição de probabilidade normal é
dada por:

1 (𝑥−μ)²

𝑓(𝑥) = 𝑒 2σ² , −∞ < 𝑥 < ∞, −∞ < μ < ∞, −∞ < σ < ∞
√2𝜋σ

Representamos a distribuição normal por x~N(μ, 𝜎), ou seja, a variável x


aproxima-se de uma distribuição normal de parâmetros μ (média) e 𝜎 (desvio-padrão).
O formato da distribuição normal é parecido com um sino. Por esse motivo,
alguns a chamam de distribuição em forma de sino, ou distribuição de Gauss (SILVA,
2019).
Veja, a seguir, as propriedades da distribuição normal.
 A distribuição normal é simétrica em torno da média (μ).
 A média, a moda e a mediana são iguais e localizam-se no pico mais
alto da distribuição.
 Quanto maior for o desvio-padrão, mais achatado será o gráfico da
distribuição normal.
 A área total abaixo da curva soma 1 (1 corresponde a 100%).
 Os parâmetros são a média (μ) e o desvio-padrão (𝜎).
 Não existe probabilidade menor do que zero, nem maior do que 1.

Fonte: Doane e Seward (2014, p. 254).


49
Como pode perceber, a resolução de uma integral para a FDP da normal é
bastante elaborada. Por esse motivo, fazemos uso de uma tabela para nos auxiliar no
cálculo de probabilidade (SILVA, 2019).
Como a média e o desvio-padrão variam de variável para variável e só temos
uma tabela, estabeleceu-se, para fins de cálculo da tabela, que a média seria igual a
zero, e o desvio-padrão igual a 1. Claramente, na vida real, as médias das variáveis
não são iguais a 1, e o desvio-padrão também não é igual a 0 (SILVA, 2019).
Precisamos, então, antes de usarmos a tabela, padronizar a nossa variável com a
seguinte fórmula:

𝑥−μ
𝑍=
σ

Padronizamos a variável x com sua média e seu desvio-padrão específicos e


transformamos na variável z com média 1 e desvio-padrão 0, para podemos fazer uso
da tabela da normal padrão (SILVA, 2019).
Existe apenas uma tabela, porém existem apresentações distintas dela. Em
uma delas, é apresentada a área total abaixo da curva, sendo acumulada de – ∞ até
+ ∞. A outra forma de apresentação é apenas com metade da curva normal de 0 até
+ ∞ (SILVA, 2019).

50
Vamos utilizar um exemplo para aprendermos como encontrar as
probabilidades nessa tabela. Suponha uma financeira que empresta, em média, R$
2.000,00 para seus clientes com um desvio-padrão de R$ 900,00. Calcularemos a
probabilidade de a financeira emprestar menos de R$ 2.200,00 a um cliente.

2200 − 2000
𝑃(𝑋 < 2200) = 𝑃 = (𝑧 < ) = 𝑃(𝑧 < 0,22)
900

Observem que, até aqui, apenas fizemos a padronização da variável com


média de 2000 e desvio-padrão de 900 em uma variável z com média 1 e desvio-
padrão 0. Depois da padronização, precisamos observar a tabela para encontrarmos
a probabilidade.
Procuramos, na tabela, o cruzamento da linha com o 0,2 até a coluna do 0,02,
que é a nossa segunda casa decimal. Nesse cruzamento, encontramos o valor de
0,08706. Estamos trabalhando em uma tabela que tem apenas metade da
distribuição. Nesse caso, precisamos adicionar a outra metade que não está na tabela
a esse valor de probabilidade encontrado. A área de cálculo é mostrada na figura.

51
Fonte: Freund (2006, p. 492).

𝑃(𝑋 < 2200) = 0,08706 + 0,5 + 0,58706 = 58,71%

Agora queremos calcular a probabilidade de a financeira emprestar mais de R$


2100,00.

2100 − 2000
𝑃(𝑋 > 2100) = 𝑃 = (𝑧 < ) = 𝑃(𝑧 < 0,11)
900

Olhamos na linha do 0,1 até a coluna do 0,01 da tabela e encontramos o valor


de 0,04380. A esse valor, novamente somamos a outra metade da curva, devido à
apresentação da tabela.

𝑃(𝑋 > 2100) = 0,04380 + 0,5 + 0,54380 = 54,38%

Se quisermos calcular a probabilidade de a financeira emprestar entre R$


2.100,00 e R$ 2.200,00, este seria o cálculo:

𝑃(2100 < 𝑋 < 2200)


2200 − 2000
𝑃 = (𝑧 < ) = 0,22
900
2100 − 2000
𝑃 = (𝑧 < ) = 0,11
900

Olhamos, na tabela, os valores referentes a essas duas padronizações e


encontramos, respectivamente, 0,08706 e 0,04380.
52
𝑃(2000 < 𝑋 < 2200) = 0,08706 − 0,04380 = 0,04326 = 4,33%

Vale ressaltar que, com a tabela normal com a área total abaixo da curva, a
utilização é diferente para encontrarmos a probabilidade (SILVA, 2019).
Ainda como exemplo de distribuições contínuas de probabilidade, temos a
distribuição t-student. Ela tem uma curva muito semelhante à normal, também tem
parâmetros de média e desvio-padrão, porém é influenciada pelo tamanho da
amostra. Quando n tende a infinito, a distribuição normal e a distribuição t são
equivalentes (SILVA, 2019).
A distribuição t-student é utilizada nos casos em que temos amostras de
tamanho inferior a 30 ou não conhecemos o desvio-padrão populacional, quando a
população tem distribuição aproximadamente normal (SILVA, 2019).

Fonte: Suporte ao Minitab (2017, documento on-line).

13 TEOREMAS LIMITES

Os teoremas limites clássicos de probabilidade se referem a sequências de


variáveis aleatórias independentes e identicamente distribuídas (IID) (SILVA, 2019).
Se X1,X2,... é uma sequência de variáveis aleatórias com uma média comum, 𝐸(𝑋) =
𝜇 < ∞, e seja a variável aleatória Sn=X1+...+Xn.

53
13.1 Lei Fraca dos Grandes Números

É um resultado em teoria da probabilidade também conhecido como Teorema


de Bernoulli. De acordo com a lei, a média dos resultados obtidos por um grande
número de tentativas é próximo a média da população (SILVA, 2019).
Seja Xi...Xn uma sequência de variáveis aleatórias identicamente distribuídas e
independentes, cada uma possuindo média μ e variância σ 2. E a variável aleatória 𝑋̅
definida como:

𝑋1 + ⋯ + 𝑋𝑛 𝑆𝑛
𝑋̅ = ( )=
n n

Então o valor esperado da variável aleatória 𝑋̅ é:

𝑋1 + ⋯ + 𝑋𝑛
𝐸(𝑋̅) = 𝐸 ( )
n
1
𝐸(𝑋̅) = [𝐸(𝑋1 ) + ⋯ + 𝐸(𝑋𝑛 )]
n
𝑛𝜇
𝐸(𝑋̅) = =𝜇
n

E a variância é:

𝑋1 + ⋯ + 𝑋𝑛
𝑉(𝑋̅) = 𝑉 ( )
n
1
𝑉(𝑋̅) = [𝑉(𝑋1 ) + ⋯ + 𝑉(𝑋𝑛 )]

1
𝑉(𝑋̅) = [𝜎 2 + ⋯ + 𝜎 2 ]

𝜎2
𝑉(𝑋̅) =
n

13.2 Lei Forte dos Grandes Números

A lei forte dos grandes números assegura que com probabilidade 1 a sequência
𝑆1 𝑆2 𝑆3
de médias ; ; 3 ,... tende a média μ e se comporte dessa forma (SILVA, 2019).
1 2

54
𝑆𝑛
ℙ ( lim = 𝜇) = 1
𝑛→∞ 𝑛

Em resumo a lei dos grandes números demonstra que:

𝑆𝑛
− 𝜇 → 0, 𝑛→∞
𝑛

A seguir é apresentado dois exemplos dessa convergência, a partir da


simulação de valores de uma população binomial e uma normal.

55
13.3 Teorema Central do Limite

É um dos teoremas mais importante dentro da estatística e probabilidade. É um


teorema limite que foi considerado como “Central” pelo matemático húngaro George
Pólya (SILVA, 2019).
Brevemente, o teorema estabelece que a distribuição da soma (ou média) de
um grande número de variáveis aleatórias independentes e identicamente distribuídas
(IID) será aproximadamente normal, independentemente da distribuição subjacente
(dessas variáveis). Esse é um dos motivos porque a distribuição normal é utilizada em
tantos testes estatísticos (SILVA, 2019).

13.3.1 Processo de soma parcial

Suponha que X1,X2,... é uma sequência de variáveis aleatórias independentes


e identicamente distribuídas, com uma distribuição de densidade fX(x), média μ e
variância σ2 em comum. Assumimos que 0 < σ2 < ∞, para que as variáveis aleatórias
sejam realmente aleatórias e não constantes (SILVA, 2019).
Seja,

𝑆𝑛 = 𝑋1 + ⋯ + 𝑋𝑛 , 𝑛∈ℕ

Por convenção temos que:


 S0=0, uma vez que a soma é sobre um conjunto vazio.
 O processo aleatório (estocástico) S0,S1,S2,... é chamado de processo
de soma parcial associado com X.
Em termos estatísticos (para diferenciar da teoria de probabilidade), a
sequência X1,X2,... corresponde ao processo de amostragem de uma dada população
(ou distribuição). De forma particular, (X1,X2,...,Xn) é uma amostra aleatória de
tamanho n dessa distribuição, e a correspondente média amostral é:

𝑛
𝑆𝑛 𝑋1 + ⋯ + 𝑋𝑛 1
𝑋̅ = = = ∑ 𝑋𝑖
𝑛 𝑛 𝑛
𝑖=1

56
E pela Lei dos Grandes Números Sn → 𝜇 quando n → ∞ com probabilidade 1.
Note que, se 𝑛 ∈ ℕ, então pela propriedade da linearidade do valor esperado,
para variáveis aleatórias independentes:

𝐸[𝑆𝑛 ] = 𝑛𝜇
𝑉[𝑆𝑛 ] = 𝑛𝜎²

Como pode-se notar acima não podemos esperar que S n tenha uma
distribuição limitante quando n → ∞, pois a V(Sn) → ∞ bem como o E[Sn] → ∞.Porém
antes mesmo de estabelecer esses limites podemos verificar a forma da distribuição
à medida que n aumenta, e visualizar a pressuposição e deduções dos teoremas e
leis apresentadas até aqui (SILVA, 2019).
Através de uma simulação Monte Carlo verificaremos a forma de uma
distribuição da variável aleatória Sn, que é a soma de variáveis aleatórias
independentes e identicamente distribuídas (SILVA, 2019).

𝑆𝑛 = 𝑋1 + ⋯ + 𝑋𝑛
𝑆2 = 𝑋1 + 𝑋2

𝑆𝑛 = 𝑋1 + ⋯ + 𝑋𝑛
𝑆3 = 𝑋1 + 𝑋2 + 𝑋3

57
𝑆𝑛 = 𝑋1 + ⋯ + 𝑋𝑛
𝑆6 = 𝑋1 + 𝑋2 + 𝑋3 + 𝑋4 + 𝑋5 + 𝑋6

Nota-se que a forma da distribuição Sn converge em uma distribuição normal


com 𝐸[𝑆𝑛 ] = 𝑛𝜇 e 𝑉[𝑆𝑛 ] = 𝑛𝜎²
Porém note que a distribuição irá se degenerar quando n → ∞, pois:
 quando 𝐸[𝑆𝑛 ] → ∞ e 𝑉[𝑆𝑛 ] → ∞.
𝑆𝑛 𝜎²
 De forma similar para = 𝑋̅,𝐸(𝑋̅) → 𝜇 e 𝑉(𝑋̅) = → 0.
𝑛 𝑛
𝑆𝑛
Assim sabemos que → 𝜇 quando 𝑛 → ∞ com probabilidade 1, e a
𝑛
𝑆𝑛
distribuição limite da soma de variáveis aleatórias S n ou da média amostral = 𝑋̅ irá
𝑛

se degenerar.
𝑆𝑛
Então para se obter uma distribuição limitante de S n ou = 𝑋̅ que não se
𝑛

degenere, precisaremos considerar, não as variáveis aleatórias por si, mas as


variáveis normalizadas,

58
𝑆𝑛 − 𝑛𝜇 𝑋̅ − 𝜇
𝑍𝑛 = = 𝜎
√𝑛𝜎
√𝑛

Note que o teorema não restringe a sua dedução à algum tipo específico de
distribuição de X. Dessa forma o teorema é válido para qualquer tipo de distribuição
(SILVA, 2019).

59
REFERÊNCIAS

BIBLIOGRAFIA BÁSICA:

BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 6ª ed. São Paulo: Saraiva,


2010.

MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. 7ª ed.


São Paulo: EDUSP, 2010.

MONTGOMERY, D. C.; RUNGER, G. C. Estatística aplicada e probabilidade para


engenheiros. 2ª ed. Rio de Janeiro: LTC, 2008.

BIBLIOGRAFIA COMPLEMENTAR

ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística aplicada à


administração e economia. 2. ed. São Paulo: Cengage Learning, 2011.

BARBETTA, P. A. Estatística aplicada às ciências sociais. Florianópolis: Editora da


UFSC, 2014.

BARBETTA, P. A.; REIS, M. M.; BORNIA, A. C. Estatística: para cursos de


engenharia e informática. 3. ed. São Paulo: Atlas, 2010.

BOYER, C. B. História da Matemática. São Paulo: Editora Edgard Blucher Ltda,


1996.

BRITO, R. Probabilidade condicional: o que é, exemplos e exercícios! Stoodi, 22


jul. 2018. Disponível em: https://www.stoodi.com.br/blog/2018/07/11/probabilidade-
condicional/. Acesso em: 15 abr. 2021.

CASELLA, G.; Berger, R. L. Statistical Inference. Duxbury Press, 1a. ed. 1990.

COUTINHO, C. de Q. e S. Conceitos probabilísticos: quais contextos a história


nos aponta? Revista Eletrônica de Educação Matemática. v. 2.3, p. 50-67, 2007.

60
DANTAS, C. A. B. Probabilidade: um curso introdutório. 3. ed. São Paulo: EDUSP,
2008.

DEGROOT, M. H.; M. J. Schervish. 2012. Probability and Statistics. Addison-


Wesley.

DOANE, D. P.; SEWARD, L. E. Estatística aplicada à administração e economia.


4. ed. Porto Alegre: AMGH, 2014.

DOMINGUES, H. “Cardano: o intelectual jogador”. In: HAZZAN, Samuel.


Fundamentos de matemática elementar. São Paulo: Editora Atual, 1993.

FREUND, J. E. Estatística aplicada: economia, administração e contabilidade. 11.


ed. Porto Alegre: Bookman, 2006.

JAMES, B. R. Probabilidade: Um curso em nível intermediário. IMPA, 3a. ed. 2004.

PORTAL ACTION. Distribuição exponencial. 2017. Disponível em:


<http://www.portalaction.com.br/probabilidades/612-distribuicao-exponencial>.
Acesso em: 19 abr. 2021.

MAGALHÃES, M. N. Probabilidade e Variáveis Aleatórias. Edusp. 2011.

MANN, P. S. Introdução à estatística. Rio de Janeiro: LTC, 2006.

MEYER, P. L. Probabilidade: Aplicações a Estatística. Editora LTC. 2011.

MLODINOW, L. O andar do bêbado: como o acaso determina nossas vidas. Rio


de Janeiro: Jorge Zahar, 2009.

MORETTIN, L. G. Estatística básica: probabilidade e inferência. São Paulo:


Pearson Prentice Hall, 2010.

MURTEIRA, B. J. F. Probabilidades e estatística. 2. ed. Lisboa: McGraw-Hill, 1990.


2 v.

MURTEIRA, B. J. et al. Introdução à estatística. 2. ed. Lisboa: McGraw Hill, 2002.

61
NAVIDI, W. Probabilidade e estatística para ciências exatas. Porto Alegre:
Bookman, 2012.

OYSTEIN, O. Cardano, the Gambling Scholar. New York: Dover Publications, 1965.

PERERO, M. História e histórias de matemática. México: Grupo editorial


Iberoamericano, 1994

ROHATGI, V. K. An Introduction To Probability And Statistics. Wiley, 2a. ed. 2008.

ROTUNNO, S. A. M. Estatística e Probabilidade: Um Estudo sobre a inserção


desses conteúdos no Ensino Fundamental. Dissertação de Mestrado. Curitiba:
UFPR, 2007.

SILVA, C. B.; COUTINHO, C. de Q. e S. O nascimento da Estastísticas e sua


relação com o surgimento da Teoria da Probabilidade. Revista Integração. v. ano
XI, n. 41, p. 191-196, 2005.

SILVA, J. S. F. da. Estatística. Soluções Educacionais Integradas – SAGAH, 2015.

SILVA, J. S. F. da. Estatística. Soluções Educacionais Integradas – SAGAH, 2019.

SILVA, F. M. da. Inteligência artificial. Soluções Educacionais Integradas – SAGAH,


2019.

SILVEIRA, J. Estatística. Soluções Educacionais Integradas – SAGAH, 2018.

SILVEIRA, J. F. Raciocínio lógico matemático: curso completo preparatório para


concursos. [2015?]. Disponível em: <http://www.professorjamur.com.br/downloads/
APOSTILA%20-%20RACIOC%C3%8DNIO%20L%C3%93GICO%20
%20PROF.%20JAMUR.pdf>. Acesso em: 16 abr. 2021.

SPIEGEL, M. R.; SCHILLER, J.; SRINIVASAN, A. Probabilidade e estatística. Porto


Alegre: Bookman, 2013.

SUPORTE AO MINITAB. Distribuição de Laplace. 2017. Disponível em:


<https://support.minitab.com/pt-br/minitab/18/help-and-how-to/probability

62
distributions-andrandom-data/supporting-topics/distributions/laplace-distribution/>.
Acesso em: 19 abr. 2021.

SUPORTE AO MINITAB. Distribuição logística. 2017. Disponível em:


<https://support.minitab.com/pt-br/minitab/18/help-and-how-to/probability-
distributions-and-randomdata/supporting-topics/distributions/logistic-distribution/>.
Acesso em: 19 abr. 2021.

SUPORTE AO MINITAB. Selecione a distribuição e os parâmetros. 2017.


Disponível em:<https://support.minitab.com/pt-br/minitab/18/help-and-how-
to/graphs/how-to/probability-distribution-plot/create-the-graph/select-the-distribution-
and-parameters/#t>. Acesso em: 19 abr. 2021.

SWOKOWSKI, E. W. Calculus with Analytic Geometry. Prindle, Weber & Schmidt,


2a. ed. 1979.

TABORDA, A. Mapa mental: probabilidade. Desconversa, 13 ago. 2015. Disponível


em: <https://descomplica.com.br/blog/matematica/mapa-mental-probabilidade/>.
Acesso em: 15 abr. 2021.

WALPOLE, R. E. et al. Probabilidade e estatística para engenharia e ciências. 8.


ed. São Paulo: Pearson Prentice Hall, 2014.

63

Você também pode gostar