Aula 13 - Roteiro 5 - Distribuicao Normal No R

Roteiro 5
Distribuição Normal
Vimos na aula teórica que podemos usar duas funções do R, no lugar de recorrermos a
famosa tabela de distribuição Normal padronizada (que geralmente todos os livros de
estatística trazem em seus apêndices).
Vamos explorar as seguintes funções dnorm(), pnorm( ), qnorm( ) e rnorm( ).
Antes de falarmos dessas funções tenha sempre em mente a relação entre:

• probabilidade e área de uma região abaixo da curva de distribuição;
• distribuição normal (qualquer média e desvio padrão) e distribuição normal
padrão (média zero, desvio padrão 1).
Vimos que UMA das opções de tabela de distribuição normal é que ela fornecer
SOMENTE a área a esquerda de um valor 𝑧 (padronizado), conforme ilustrado pela figura
abaixo:
Assim, quando queremos calcular a probabilidade, por exemplo, de “𝑥 ser menor ou

igual a 100”, isto é, 𝑃(𝑥 ≤ 100), padronizamos o valor 𝑥 = 100, e então consultamos
na tabela da distribuição Normal padrão o valor da área (ou seja, da probabilidade).
A padronização é dada por:

𝑥−𝜇
𝑧 =
𝜎
Onde 𝜇 e 𝜎, são respectivamente, os parâmetros média e desvio padrão da distribuição

da variável 𝑥, que segue uma distribuição normal (uma boa pergunta é que cabe aqui é:
como sabemos se uma variável segue uma distribuição Normal? Veremos parte dessa
resposta ao final desse roteiro e a complementaremos quando estudarmos os testes de
hipóteses).
Assim, supondo que 𝜇 = 80, 𝜎 = 10 e 𝑥 = 100:

100 − 80 20
𝑧 = = =2
10 10
Isso significa que calcular 𝑃(𝑥 ≤ 100) = 𝑃(𝑧 ≤ 2). Para obter a resposta basta
consultar na tabela de distribuição Normal padrão, o valor da área a esquerda do valor
de 𝑧 = 2.
Temos três tipos (?) de perguntas de probabilidade, sendo os parâmetros 𝜇 e 𝜎

conhecidos:
1. Qual probabilidade de 𝒙 ser menor (ou menor igual) ...?
Por exemplo: 𝑃(𝑥 ≤ 100) = 𝑃(𝑥 < 100) = ?
A resposta é obtida imediatamente já que a tabela fornece a área a esquerda.
2. Qual probabilidade de 𝒙 ser maior (ou maior igual) ...?
Por exemplo: 𝑃(𝑥 ≥ 75) = 𝑃(𝑥 > 75) = ?
Como a tabela fornece 𝑃(𝑥 ≤ 75), a resposta é dada por 1 - 𝑃(𝑥 ≤ 75), ou seja,
a área a direita de z.
3. Qual probabilidade de 𝒙 estar entre dois valores ...?
Por exemplo: 𝑃(85 ≤ 𝑥 ≤ 115) = 𝑃(85 < 𝑥 < 115) = ?
Como a tabela fornece 𝑃(𝑥 ≤ 85) e 𝑃(𝑥 ≤ 115), a resposta é dada por
𝑃(𝑥 ≤ 115) − 𝑃(𝑥 ≤ 85), isto é, área maior menos área menor.
© Pergunta da Alexandra na aula teórica, excelente pergunta. Existe uma

quarta pergunta:
4. Qual probabilidade de x ser igual a um valor... ?
Por exemplo: 𝑃(𝑥 = 75) = ?
A tabela não fornece essa resposta, pois a tabela só fornece área, como bem
observado pela Alexandra, que parece que... deveria ser de exatas :-)
Vamos considera o exemplo da aula téorica:
Em uma amostra aleatória de mulheres com idade entre 20 e 34 anos, a média do nível
de colesterol total era de 181 miligramas por decilitro com desvio padrão de 37,6
miligramas por decilitro. Suponha que os níveis de colesterol total sejam normalmente
distribuídos.
PARTE 1 – uso da função dnorm( )

9 ! /(<: ! )
Vimos que a distribuição normal é dada pela equação 𝑦(𝑥) = :√<= 𝑒 ?(@?A)
Para responder a pergunta feita pela Alexandra, 𝑃(𝑥 = 75) = ?, podemos usar a
equação da distribuição normal, substituindo 𝑥 = 75; 𝜇 = 181 𝑒 𝜎 = 37,6
(#$%)! (()$*+*)!
9 ? 9 ?
𝑦(𝑥) = 𝑃(𝑥) = :√<= 𝑒 !'! ⇒ 𝑃(𝑥 = 75) = HI,J√<= 𝑒 !(,(,.)! = 0,0105
Que é equivalente a usar a função dnom do R: dnorm(x=175, mean=181, sd=37.6)
PARTE 2 – uso da função pnorm( )

1. Qual é a probabilidade de que uma mulher com idade entre 20 e 34 anos, tenha
colesterol inferior a 175 miligramas por decilitro?
Queremos calcular 𝑃(𝑥 < 175) , no R usamos a função pnorm().
Do enunciado temos que a média é 181 e o desvio padrão é 37,6.
O comando no R é:
pnorm(175, mean=181, sd=37.6)
A resposta fornecida pelo R é:
Isso quer dizer que 𝑃(𝑥 < 175) = 0,4366 ou 43,66%, ou ainda, arredondando
podemos dizer que a probabilidade uma mulher com idade entre 20 e 34 ter
colesterol inferior a 175 miligramas por decilitros é de 44%.
EXTRA
Observe que o comando pnorm(175, mean=181, sd=37.6) pode ser abreviado para
pnorm(175, 181, 37.6), mas a sequência dos argumentos devem ser o valor de x, média
e desvio padrão. Também é permitido trocar a ordem dos argumentos desde que eles
sejam nomeados, ou seja, é permitido pnorm(175, sd=37.6, mean=181), bem como
pnorm(sd=37.6, mean=181, 175).
colesterol superior a 185 miligramas por decilitro?
Queremos calcular 𝑃(𝑥 > 185). Então calculamos 1 − 𝑃(𝑥 < 185).
O comando no R é:
1 - pnorm(185, 181, 37.6)
A resposta fornecida pelo R é
O que quer dizer 0.4576? Elabore uma frase de interpretação para o resultado.
EXTRA
A função pnorm( ) fornece por default a área a esquerda, como a tabela que estudamos
na teoria, mas podemos obter a área a direita passando mais um argumento para
função: pnorm(185, 181, 37.6, lower.tail = F)
O argumento lower.tail = F, significa que área a direita é a que será fornecida, assim não
precisamos fazer o cálculo: 1 – área a esquerda de z.
lower.tail = T lower.tail = F
Quando colocamos o valor do argumento lower.tail = F, igual a F (de FALSE, ou falso em

português), obtemos a área a direita do valor de z, em uma tradução livre seria dizer
que “lower tail” é “cauda inferior”, então simplesmente estamos dizendo que não
queremos a cauda inferior (a esquerda) do valor de z. Observe as respostas:
colesterol entre 175 e 185 miligramas por decilitro?
Queremos calcular 𝑃(175 < 𝑥 < 185). Então calculamos a diferença 𝑃(𝑥 <
185) − 𝑃(𝑥 < 175). No R:
pnorm(185, 181, 37.6) - pnorm(175, 181, 37.6)
Sempre faça interpretação do resultado. Observe que se o calculo fosse

pnorm(175, 181, 37.6) - pnorm(185, 181, 37.6) , ou seja, área menor - área
maior, o valor obtido seria o mesmo porém, com sinal negativo. Assim como não
existe área negativa, não existe probabilidade negativa. Probabilidade é sempre
um valor entre 0 e 1, ou em porcentagem, 0% e 100%.
OBSERVAÇÃO
Note que no R “pulamos” a etapa da padronização do valor de x para z. Para
comparamos com a tabela da distribuição normal vamos padronizar o valor 𝑥 = 175.
# Usando o R como calculadora:
m <- 181
dp <- 37.6
x <- 175
z <- ( x - m )/ dp
z
Podemos verificar que 𝑃(𝑥 < 175) = 𝑃(𝑧 < −0.1595745):
Verifique se você compreendeu esse conceito. Observe que em pnorm(z), estamos
passando como argumento um valor padronizado, então não precisamos informar o
valor da média e desvio padrão, o R considera como sendo a distribuição normal padrão,
que como vimos, ela tem média zero e desvio padrão igual a 1.
PARTE 3 – uso da função qnorm( )

A função qnorm( ) faz o caminho inverso da pnorm( ). Veja as setas abaixo:
1. Usamos a qnorm( ) quando queremos responder 𝑃(𝑥 < ? ) = 0,4366, isto é,

dada a probabilidade qual o valor mínimo de 𝑥?
No R fica: qnorm(0.4366, mean=181, sd=37.6)
E observe que resposta não foi 175, por quê?

2. Observe a sequência de comandos sempre que passamos o valor da
probabilidade igual a 0,5:
qnorm(0.5, mean=181, sd=37.6)
qnorm(0.5, mean=200, sd=40)
qnorm(0.5, mean=1000, sd=345)
qnorm(0.5, mean=0, sd=1)
Qual valor esperado para x? Veja resposta:
É sempre a média? Por quê? Por causa da SIMETRIA DA DISTRIBUIÇÃO NORMAL em

relação a média. O valor da área de cada lado da média é igual a 0,5.
PARTE 4 – função rnorm( )

Com a função rnorm( ) podemos SIMULAR uma distribuição normal e verificar muitas
de suas propriedades. O r da função rnorm( ), vem de randômico, assim, com essa
função vamos gerar valores aleatórios que seguem uma distribuição normal.
1. Vamos simular uma distribuição Normal que tem média igual 175 e desvio
padrão igual a 3. Pense que é a altura de pessoas (centímetros) de uma dada
amostra, vamos simular uma amostra de tamanho 500.
O comando no R é:
rnorm(500, mean=175, sd=3)
A resposta será 500 números aleatórios que seguem uma distribuição normal
com média 175 e desvio padrão 3.
Se você executar esse comando novamente, novos 500 números serão gerados! Para
“travar” os números gerados usamos a função set.seed( ), antes de gera-los a partir da
função rnorm( ). Da seguinte forma:
set.seed(1)
rnorm(500, mean=175, sd=3)
EXTRA
O número entre parênteses de set.seed( ) indica a “semente” dos números aleatórios
que foram gerados, você pode usar qualquer outro número, aí você terá um novo
conjunto de dados.
2. Armazene esses números em um objeto (dê num nome, por exemplo, dados)
para ficar mais fácil explorarmos algumas características da distribuição Normal:
dados <- rnorm(500, mean=175, sd=3)
3. Faça o histograma e analise a forma do histograma. Parece existir uma simetria

em torno do valor da média?
hist(dados)
4. Faça o boxplot e observe sua forma. A caixa parece simétrica? Ou ela é alongada?
A mediana é um valor próximo da média?
boxplot(dados)
Os gráficos servem como diagnósticos para analisarmos se os dados seguem distribuição

Normal.
5. Faça o gráfico Q-Q da seguinte forma:

qqnorm(dados)
qqline(dados, col = "red")
O Q-Q plot fornece o seguinte diagnóstico: se os dados seguem distribuição

Normal eles tendem a ficar sobre a reta em vermelho.
6. Compare o histograma, o boxplot e o gráfico Q-Q para outras distribuições, por

exemplo a distribuição Uniforme (simétrica) e a distribuição Qui-quadrado
(assimétrica).
Distribuição Uniforme: runif( ) Distribuição Qui-quadrado: rchisq( )
set.seed(1) set.seed(1)
dadosunif <- runif(500, min=160, dadoschi <- rchisq(500, df = 3)
max=180)
hist(dadosunif) hist(dadoschi)
boxplot(dadosunif) boxplot(dadoschi)
qqnorm(dadosunif) qqnorm(dadoschi)
qqline(dadosunif, col = "red") qqline(dadoschi, col = "red")

Aula 13 - Roteiro 5 - Distribuicao Normal No R

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula 13 - Roteiro 5 - Distribuicao Normal No R

Enviado por

Direitos autorais:

Formatos disponíveis

Roteiro 5

Vamos explorar as seguintes funções dnorm(), pnorm( ), qnorm( ) e rnorm( ).

Antes de falarmos dessas funções tenha sempre em mente a relação entre:

Assim, quando queremos calcular a probabilidade, por exemplo, de “𝑥 ser menor ou

A padronização é dada por:

Onde 𝜇 e 𝜎, são respectivamente, os parâmetros média e desvio padrão da distribuição

Assim, supondo que 𝜇 = 80, 𝜎 = 10 e 𝑥 = 100:

Temos três tipos (?) de perguntas de probabilidade, sendo os parâmetros 𝜇 e 𝜎

© Pergunta da Alexandra na aula teórica, excelente pergunta. Existe uma

PARTE 1 – uso da função dnorm( )

Que é equivalente a usar a função dnom do R: dnorm(x=175, mean=181, sd=37.6)

PARTE 2 – uso da função pnorm( )

Quando colocamos o valor do argumento lower.tail = F, igual a F (de FALSE, ou falso em

Sempre faça interpretação do resultado. Observe que se o calculo fosse

PARTE 3 – uso da função qnorm( )

1. Usamos a qnorm( ) quando queremos responder 𝑃(𝑥 < ? ) = 0,4366, isto é,

E observe que resposta não foi 175, por quê?

Qual valor esperado para x? Veja resposta:

É sempre a média? Por quê? Por causa da SIMETRIA DA DISTRIBUIÇÃO NORMAL em

PARTE 4 – função rnorm( )

dados <- rnorm(500, mean=175, sd=3)

3. Faça o histograma e analise a forma do histograma. Parece existir uma simetria

Os gráficos servem como diagnósticos para analisarmos se os dados seguem distribuição

5. Faça o gráfico Q-Q da seguinte forma:

O Q-Q plot fornece o seguinte diagnóstico: se os dados seguem distribuição

6. Compare o histograma, o boxplot e o gráfico Q-Q para outras distribuições, por

Você também pode gostar