Escolar Documentos
Profissional Documentos
Cultura Documentos
Objetivo
Ao final desta unidade, você deverá ser capaz de:
Conteúdo Programático
Esta unidade está organizada de acordo com os seguintes temas:
Gauss, sem dúvida, foi muito importante para o desenvolvimento teórico neste campo,
tendo desenvolvido e utilizado a equação da curva normal em pesquisas em
Astronomia. Porém, esse mérito parece ser mais um dos vários exemplos de uma lei
formulada por Stephen Stigler, lá pelos idos dos anos 1980. Segundo essa lei,
chamada de Lei de Stigler da Eponímia, “nenhuma descoberta científica é designada
com o nome do seu fundador original”.
Note que cada evento pertencente a esse espaço amostral está associado a um único
número real, representado por um valor de X. Desta maneira, dizemos que X é uma
“variável aleatória”.
X P(X)
0 0,25
1 0,5
2 0,25
Vamos rever e aprofundar alguns conceitos já vistos na unidade anterior. Como vimos,
existem dois tipos de variáveis aleatórias: discretas e contínuas.
Imaginemos, agora, que haja interesse em estudar a chegada de carros a uma praça
de pedágio numa rodovia, num intervalo de uma hora. Sendo X = quantidade de
carros que chegam em um intervalo de uma hora, essa variável aleatória pode assumir
qualquer valor inteiro não negativo. Não sabemos, a priori, qual é o maior valor
possível, mas podemos enumerar facilmente esse conjunto.
Para ilustrar essa diferença entre os dois tipos de variáveis aleatórias, vamos
considerar uma pesquisa nos domicílios de uma região. Uma das perguntas poderia
ser a respeito da idade do chefe da família, enquanto outra poderia ser relativa à renda
familiar. Por mais que seja possível encontrar pessoas com mais de cem anos de
idade, os valores possíveis para a primeira variável aleatória X=idade do chefe da
família são enumeráveis. Por sua vez, os valores possíveis para a segunda variável
aleatória Y=renda familiar são inúmeros, não enumeráveis, o que justifica que ela seja
considerada contínua.
Uma universidade fez uma pesquisa com alunos do primeiro período de um curso, na
qual, entre outras informações, buscou saber a quantidade de disciplinas em que
estavam matriculados. Sendo assim, teremos a variável aleatória discreta
X=quantidade de disciplinas em que está matriculado. Após receber os formulários
preenchidos, foi possível elaborar a seguinte tabela com os resultados, chamada de
tabela de distribuição de frequências:
X Frequência
1 15
2 20
3 45
4 50
5 60
Total 190
0 0
1 15
2 20
3 45
4 50
5 60
Sendo b > a, teremos que P(X < b) = P(a < X) + P(a ≤ X ≤ b). Ou seja, a probabilidade
de X ser menor que b é a soma da probabilidade de X ser maior que a somada à
probabilidade de X estar no intervalo entre a e b. Resolvendo para a probabilidade de
X estar no intervalo entre a e b, teremos:
P(a≤ X ≤b) = P(a < X < b) = P(X < b) - P(X < a) =P(X ≤ b) - P(X ≤ a)
Em termos matemáticos, para uma variável aleatória discreta, o valor esperado E(X) é
a média ponderada de todos os possíveis valores de X com pesos iguais às
respectivas probabilidades desses valores.
0 0 0,00 0 . 0 = 0,00
Cada célula na quarta coluna dessa nova tabela corresponde à multiplicação do valor
de X pela sua probabilidade P(X=x). Portanto, o valor de 3,61, correspondente à soma
dos valores da quarta coluna, é exatamente o valor esperado da variável X.
Vale observar que 3,61 é o valor esperado (ou seja, a média), da quantidade de
disciplinas em que um aluno se matriculou, porém, esse nem é um valor possível para
a variável X. Se sortearmos um aluno da amostra que respondeu à pesquisa, jamais
encontraremos um que tenha sido matriculado em 3.61 disciplinas. No entanto, se
sorteássemos muitos alunos e calculássemos a média da quantidade de disciplinas
em que eles estavam matriculados, o valor obtido seria muito próximo a 3,61.
Variância
A “variância” de uma variável aleatória X é uma medida de sua dispersão estatística, e
corresponde ao valor esperado do quadrado de quanto ela se afasta de seu valor
esperado. O valor dado por X-E(X) corresponde ao desvio de X em relação a sua
média. Logo, para calcular a variância, usamos as seguintes fórmulas:
Na quinta coluna dessa tabela, calculamos o quadrado da diferença entre cada valor
assumido pela variável X e o valor esperado de X. Na sexta coluna, multiplicamos
esse resultado pela probabilidade associada a cada um desses itens, que é
exatamente a mesma probabilidade associada a cada valor de X. O valor de 1,56,
correspondente à soma dos valores da sexta coluna é exatamente a variância da
variável X.
Exercício
Com isso, concluir que o valor esperado da quantidade de vendas por dia é
de 1,55 unidades, a variância é de 1,25 e o desvio padrão é de
=1,12 unidades.
Para o último caso, devemos pensar que “vender no máximo dois motores”
significa “vender um motor” ou “vender dois motores”. A probabilidade
procurada, então, é a soma das probabilidades correspondentes às linhas
de X=1 e X=2. Ou seja, P(X = 0 ou X=1 ou X=2) = P (X=0) + P(X=1) +
P(X=2) = 0,20 + 0,30 + 0,30 =0,80.
Tema 2
Distribuição de probabilidade discreta: Binomial
e Poisson
Distribuição Binomial
Em muitas situações práticas, lidamos com fenômenos que apresentam duas
possibilidades excludentes de resultados, cada qual com uma probabilidade
associada. Certo/errado, preto/branco, verdadeiro/falso, doente/saudável,
perfeito/defeituoso etc.
Porém, não é incomum ser mais importante saber não apenas a probabilidade de
ocorrência de um único resultado, mas de uma combinação de várias repetições do
fenômeno que leva a eles. Por exemplo, vamos imaginar que uma linha de produção
seja capaz de gerar peças sem defeitos com 99% de probabilidade. Um possível
problema de interesse para a área de controle de qualidade é estimar qual a
quantidade de peças defeituosas que será encontrada em um lote com 1000 unidades.
Com certeza, podemos afirmar que a quantidade de peças defeituosas vai estar entre
zero e 1000. Contudo, qual a probabilidade de cada um desses valores possíveis?
Qual o valor esperado da quantidade de peças defeituosas? Se o cliente recusar o lote
de 1000 peças caso haja mais de dez peças defeituosas, será que a probabilidade de
haver problemas é muito alta?
Esse fenômeno é modelado perfeitamente pela Distribuição Binomial, e a variável
aleatória discreta associada à situação descrita é X = quantidade de peças defeituosas
em um lote de 1000 unidades. A propósito, a distribuição que modela o fenômeno
descrito por “fabricar uma peça sem defeitos”, que está na base da situação analisada
e cujos resultados possíveis são {sem defeito, com defeito}, é chamada de
Distribuição de Bernoulli.
X~Bin(n; p)
em .
J1: 6
Igual a seis (1 face
J2: 6 3 1
possível)
J3: 6
Igual a seis (1
face possível)
J1: 6
Diferente de seis (5
J2: 6 2 5
faces possíveis)
Igual a seis J3: 1, 2, 3, 4 ou 5
(1 face
possível) J1: 6
Igual a seis (1 face
J2: 1, 2, 3, 4 ou 5 2 5
possível)
Diferente de J3: 6
seis (5 faces
possíveis) J1: 6
Diferente de seis (5
J2: 1, 2, 3, 4 ou 5 1 25
faces possíveis)
J3: 1, 2, 3, 4 ou 5
J1: 1, 2, 3, 4 ou 5
Igual a seis (1 face
J2: 6 2 5
possível)
J3: 6
Igual a seis (1
face possível)
J1: 1, 2, 3, 4 ou 5
Diferente de seis (5
J2: 6 1 25
Diferente faces possíveis)
J3: 1, 2, 3, 4 ou 5
de seis (5
faces
J1: 1, 2, 3, 4 ou 5
possíveis) Igual a seis (1 face
J2: 1, 2, 3, 4 ou 5 1 25
possível)
Diferente de J3: 6
seis (5 faces
possíveis) J1: 1, 2, 3, 4 ou 5
Diferente de seis (5
J2: 1, 2, 3, 4 ou 5 0 125
faces possíveis)
J3: 1, 2, 3, 4 ou 5
A primeira linha desta tabela correspondente à situação de conseguir 6 na primeira
jogada, 6 na segunda e 6 na terceira, ou seja, obtermos 3 “sucessos”. Essa
combinação ocorre apenas uma vez. Com isto, a frequência associada a ela é 1(última
coluna). Já a segunda linha correspondente à situação de conseguir 6 na primeira
jogada, 6 na segunda, mas não conseguir 6 na terceira, o que acontece quando se
obtém os valores de 1 a 5. Nestes casos, temos 2 “sucessos” e percebemos que esta
situação ocorre 5 vezes. Sendo assim, completamos a última coluna desta linha com o
valor 5. Esse mesmo raciocínio vale para as demais linhas da tabela.
Podemos resumir todos estes casos, somando as frequências associadas a cada valor
possível para a quantidade de “sucessos” nestas diversas situações relacionadas
acima. Com isto, criamos uma tabela de frequências, para a variável aleatória
X=quantidade de vezes que saiu 6, apresentada a seguir:
X Frequência P(X=x)
0 125
1 75
2 15
3 1
Isso ocorre porque as variáveis X1,X2, ⋯,Xn~Be(p) e todas elas são independentes
entre si.
Vamos então comparar os resultados da aplicação da fórmula com aqueles que
obtivemos anteriormente, pela contagem dos resultados possíveis.
Como vemos, os resultados são exatamente os mesmos, como era de se esperar!
E a variância será:
Teste com outros valores: compare este resultado, por exemplo, com a
probabilidade de haver duas peças defeituosas. Talvez você se
surpreenda com o fato de que a probabilidade de que haja cinco peças
defeituosas num lote de 100 peças fabricadas é maior que a probabilidade
de haver duas! Confira os cálculos! Veja que a probabilidade de haver
duas peças defeituosas é de 8,1%.
Distribuição de Poisson
A Distribuição de Poisson é adequada para modelar fenômenos quando não estamos
interessados exatamente na quantidade de sucessos em uma determinada quantidade
de repetições, mas na frequência de sucessos, calculada pela quantidade de sucessos
em um determinado intervalo de tempo ou distância. No caso, a ocorrência de novos
sucessos é independente da quantidade de sucessos obtidos previamente.
Essa distribuição tem como parâmetro apenas a frequência média de sucesso (λ) no
intervalo de tempo considerado, e é representada da seguinte maneira:
X~Poi(λ)
E(X)=Var(X)=λ
X~Poi(4)
Esses cálculos podem ser muito facilitados com o uso de planilhas eletrônicas e
calculadoras científicas.
Tema 3
Distribuição de probabilidade contínua: Normal
Muitos fenômenos naturais e sociais podem ser descritos por meio de uma distribuição
Normal de probabilidades. Além disso, um importante resultado teórico, enunciado
como o Teorema Central do Limite, mostra que amostras retiradas de populações que
apresentem quaisquer distribuições apresentam distribuições amostrais de
probabilidade normais, desde que tenham um número suficientemente grande de
elementos. Sendo assim, a distribuição Normal é uma das mais utilizadas em todas as
aplicações práticas e teóricas da Estatística.
Para definir completamente uma distribuição normal, são necessários dois parâmetros:
a média e o desvio-padrão. É uma distribuição contínua, infinita para os dois lados,
cujo gráfico tem formato de sino, simétrico ao redor da média e com uma largura que
depende do desvio-padrão.
Representamos a variável X com distribuição normal da seguinte maneira:
X~N(μ,σ2)
Podemos perceber isso na figura abaixo. As curvas A e B têm mesma média, porém o
desvio-padrão de A é maior que o desvio-padrão de B, logo, a curva A é mais
achatada que a curva B. As curvas B e C têm o mesmo desvio-padrão, então têm o
mesmo formato. Porém, a média de C é superior à média de B, então a curva C está
mais à direita.
Como observamos no gráfico, os valores de X se estendem pelo intervalo (-∞,+∞), e a
probabilidade associada a eles vai diminuindo conforme se afastam da média, de tal
forma que é muito pequena (mas nunca igual a zero) quando os valores são extremos.
Isso significa que é muito improvável encontrar valores muito distantes da média, tanto
para direita quanto para esquerda. Na prática, nem sempre vamos encontrar situações
em que o intervalo de valores da variável aleatória seja estritamente infinito em ambos
os sentidos. Porém, pela característica explicada anteriormente, em muitas situações
podemos considerar a Distribuição Normal uma boa aproximação para a faixa de
valores observada.
E(X)=μ
Var(X)=σ2
Assim, a nova variável tem média zero e desvio-padrão 1. Dizemos, portanto, que:
Z~N(0,12)
Porém,
P(Z ≤ z) = P(Z ≤ 0) + P(0 ≤ Z ≤ z)
Além disso, devemos lembrar que a distribuição normal é simétrica. Logo, se no lugar
de P(Z ≤ z) quisermos calcular P(Z ≥ z), vamos lembrar que:
P(Z ≥ z) = 1 - P(Z ≤ z)
Considerando o valor do exemplo, consultamos uma tabela da distribuição normal
padronizada, e obtemos o valor:
P(0 ≤ Z ≤ 1) = 0,3413
Logo, concluímos que
P(Z ≤ 1) = 0,5 + 0,3413 = 0,8413
Considere agora que os alunos que tirarem menos de cinco serão chamados para
fazer aulas de recuperação. Qual a porcentagem da turma que deve ir para
recuperação?
A figura abaixo ilustra este raciocínio. A área azul à esquerda de X=5 (que
corresponde a Z=-1) é a probabilidade que queremos calcular, e, por simetria, ela é
igual à área azul à direita de X=8 (que corresponde a Z=1).
Vamos considerar ainda que o professor vai oferecer aos alunos que tirarem entre
cinco e seis a possibilidade de também frequentarem as aulas de recuperação. A que
porcentagem da turma deverá ser oferecida esta alternativa?
Para resolver esta situação, devemos pensar no seguinte: como a nota cinco é menor
que a nota seis, a probabilidade de que a nota do aluno seja menor que seis engloba a
probabilidade de ela ser menor que cinco, o que não serve para o nosso cálculo.
Então, a probabilidade que estamos procurando encontrar é a da nota ser menor que
seis, mas temos que tirar deste valor a probabilidade dela ser menor que cinco. Ou
seja, escrevendo em linguagem estatística, podemos resumir este raciocínio com a
seguinte expressão:
Além disso, como vimos no primeiro exemplo, P(Z ≥ z) = 1 - P(Z ≤ z). Logo,
Usamos o valor absoluto de z (ou seja, tiramos o sinal) para procurar na tabela o valor
PT correspondente, e subtraímos de 0,5
Usamos o valor absoluto de z (ou seja, tiramos o sinal) para procurar na tabela o valor
PT correspondente, e somamos 0,5
Vamos aplicar estes conhecimentos, mostrando outro exemplo que ilustra o uso da
distribuição Normal.
Considere uma distribuição normal, com média 1.000 e desvio padrão 40. Calcule:
a) P(X ≥ 1.060)
b) P(X ≤ 960)
c) P(976 ≤ X ≤ 1.016)
Vamos começar a solução calculando os z-scores de cada item.
No primeiro caso, temos P(X ≥ 1.060) = P(Z ≥ 1,5). Como o z-score é positivo, usamos
seu próprio valor para procurar a probabilidade correspondente na tabela de
distribuição normal padronizada, encontrando PT=0,4332. Para calcular P(Z ≥ 1),
então, vamos fazer:
No segundo caso, temos P(X ≤ 960) = P(Z ≤ -1). Como o z-score, neste caso, é
negativo, usamos seu valor absoluto (ou seja, z=1) para procurar a probabilidade
correspondente na tabela de distribuição normal padronizada, encontrando
PT= 0,3413. Para calcular P(Z ≥ 1), então, vamos fazer:
segundo z-score é negativo, então vamos usar seu valor absoluto (ou seja, z = -0,6)
para procurar a probabilidade correspondente na tabela de distribuição normal
padronizada, encontrando PT=0,2257. Para calcular P(Z ≥ -0,6), então, vamos fazer:
Com isso,
Por meio da variável aleatória que está associada aos possíveis resultados, cujas
chances de ocorrência são representadas por uma função denominada distribuição de
probabilidades