Você está na página 1de 10

Roteiro 5

Distribuição Normal
Vimos na aula teórica que podemos usar duas funções do R, no lugar de recorrermos a
famosa tabela de distribuição Normal padronizada (que geralmente todos os livros de
estatística trazem em seus apêndices).

Vamos explorar as seguintes funções dnorm(), pnorm( ), qnorm( ) e rnorm( ).

Antes de falarmos dessas funções tenha sempre em mente a relação entre:


• probabilidade e área de uma região abaixo da curva de distribuição;
• distribuição normal (qualquer média e desvio padrão) e distribuição normal
padrão (média zero, desvio padrão 1).

Vimos que UMA das opções de tabela de distribuição normal é que ela fornecer
SOMENTE a área a esquerda de um valor 𝑧 (padronizado), conforme ilustrado pela figura
abaixo:

Assim, quando queremos calcular a probabilidade, por exemplo, de “𝑥 ser menor ou


igual a 100”, isto é, 𝑃(𝑥 ≤ 100), padronizamos o valor 𝑥 = 100, e então consultamos
na tabela da distribuição Normal padrão o valor da área (ou seja, da probabilidade).

A padronização é dada por:


𝑥−𝜇
𝑧 =
𝜎

Onde 𝜇 e 𝜎, são respectivamente, os parâmetros média e desvio padrão da distribuição


da variável 𝑥, que segue uma distribuição normal (uma boa pergunta é que cabe aqui é:
como sabemos se uma variável segue uma distribuição Normal? Veremos parte dessa
resposta ao final desse roteiro e a complementaremos quando estudarmos os testes de
hipóteses).

Assim, supondo que 𝜇 = 80, 𝜎 = 10 e 𝑥 = 100:



100 − 80 20
𝑧 = = =2
10 10

Isso significa que calcular 𝑃(𝑥 ≤ 100) = 𝑃(𝑧 ≤ 2). Para obter a resposta basta
consultar na tabela de distribuição Normal padrão, o valor da área a esquerda do valor
de 𝑧 = 2.

Temos três tipos (?) de perguntas de probabilidade, sendo os parâmetros 𝜇 e 𝜎


conhecidos:
1. Qual probabilidade de 𝒙 ser menor (ou menor igual) ...?
Por exemplo: 𝑃(𝑥 ≤ 100) = 𝑃(𝑥 < 100) = ?
A resposta é obtida imediatamente já que a tabela fornece a área a esquerda.
2. Qual probabilidade de 𝒙 ser maior (ou maior igual) ...?
Por exemplo: 𝑃(𝑥 ≥ 75) = 𝑃(𝑥 > 75) = ?
Como a tabela fornece 𝑃(𝑥 ≤ 75), a resposta é dada por 1 - 𝑃(𝑥 ≤ 75), ou seja,
a área a direita de z.
3. Qual probabilidade de 𝒙 estar entre dois valores ...?
Por exemplo: 𝑃(85 ≤ 𝑥 ≤ 115) = 𝑃(85 < 𝑥 < 115) = ?
Como a tabela fornece 𝑃(𝑥 ≤ 85) e 𝑃(𝑥 ≤ 115), a resposta é dada por
𝑃(𝑥 ≤ 115) − 𝑃(𝑥 ≤ 85), isto é, área maior menos área menor.

© Pergunta da Alexandra na aula teórica, excelente pergunta. Existe uma


quarta pergunta:
4. Qual probabilidade de x ser igual a um valor... ?
Por exemplo: 𝑃(𝑥 = 75) = ?
A tabela não fornece essa resposta, pois a tabela só fornece área, como bem
observado pela Alexandra, que parece que... deveria ser de exatas :-)
Vamos considera o exemplo da aula téorica:
Em uma amostra aleatória de mulheres com idade entre 20 e 34 anos, a média do nível
de colesterol total era de 181 miligramas por decilitro com desvio padrão de 37,6
miligramas por decilitro. Suponha que os níveis de colesterol total sejam normalmente
distribuídos.

PARTE 1 – uso da função dnorm( )


9 ! /(<: ! )
Vimos que a distribuição normal é dada pela equação 𝑦(𝑥) = :√<= 𝑒 ?(@?A)

Para responder a pergunta feita pela Alexandra, 𝑃(𝑥 = 75) = ?, podemos usar a
equação da distribuição normal, substituindo 𝑥 = 75; 𝜇 = 181 𝑒 𝜎 = 37,6
(#$%)! (()$*+*)!
9 ? 9 ?
𝑦(𝑥) = 𝑃(𝑥) = :√<= 𝑒 !'! ⇒ 𝑃(𝑥 = 75) = HI,J√<= 𝑒 !(,(,.)! = 0,0105

Que é equivalente a usar a função dnom do R: dnorm(x=175, mean=181, sd=37.6)

PARTE 2 – uso da função pnorm( )


1. Qual é a probabilidade de que uma mulher com idade entre 20 e 34 anos, tenha
colesterol inferior a 175 miligramas por decilitro?
Queremos calcular 𝑃(𝑥 < 175) , no R usamos a função pnorm().
Do enunciado temos que a média é 181 e o desvio padrão é 37,6.
O comando no R é:
pnorm(175, mean=181, sd=37.6)
A resposta fornecida pelo R é:

Isso quer dizer que 𝑃(𝑥 < 175) = 0,4366 ou 43,66%, ou ainda, arredondando
podemos dizer que a probabilidade uma mulher com idade entre 20 e 34 ter
colesterol inferior a 175 miligramas por decilitros é de 44%.
EXTRA
Observe que o comando pnorm(175, mean=181, sd=37.6) pode ser abreviado para
pnorm(175, 181, 37.6), mas a sequência dos argumentos devem ser o valor de x, média
e desvio padrão. Também é permitido trocar a ordem dos argumentos desde que eles
sejam nomeados, ou seja, é permitido pnorm(175, sd=37.6, mean=181), bem como
pnorm(sd=37.6, mean=181, 175).

2. Qual é a probabilidade de que uma mulher com idade entre 20 e 34 anos, tenha
colesterol superior a 185 miligramas por decilitro?
Queremos calcular 𝑃(𝑥 > 185). Então calculamos 1 − 𝑃(𝑥 < 185).
O comando no R é:
1 - pnorm(185, 181, 37.6)
A resposta fornecida pelo R é

O que quer dizer 0.4576? Elabore uma frase de interpretação para o resultado.

EXTRA
A função pnorm( ) fornece por default a área a esquerda, como a tabela que estudamos
na teoria, mas podemos obter a área a direita passando mais um argumento para
função: pnorm(185, 181, 37.6, lower.tail = F)
O argumento lower.tail = F, significa que área a direita é a que será fornecida, assim não
precisamos fazer o cálculo: 1 – área a esquerda de z.

lower.tail = T lower.tail = F

Quando colocamos o valor do argumento lower.tail = F, igual a F (de FALSE, ou falso em


português), obtemos a área a direita do valor de z, em uma tradução livre seria dizer
que “lower tail” é “cauda inferior”, então simplesmente estamos dizendo que não
queremos a cauda inferior (a esquerda) do valor de z. Observe as respostas:

3. Qual é a probabilidade de que uma mulher com idade entre 20 e 34 anos, tenha
colesterol entre 175 e 185 miligramas por decilitro?
Queremos calcular 𝑃(175 < 𝑥 < 185). Então calculamos a diferença 𝑃(𝑥 <
185) − 𝑃(𝑥 < 175). No R:
pnorm(185, 181, 37.6) - pnorm(175, 181, 37.6)

Sempre faça interpretação do resultado. Observe que se o calculo fosse


pnorm(175, 181, 37.6) - pnorm(185, 181, 37.6) , ou seja, área menor - área
maior, o valor obtido seria o mesmo porém, com sinal negativo. Assim como não
existe área negativa, não existe probabilidade negativa. Probabilidade é sempre
um valor entre 0 e 1, ou em porcentagem, 0% e 100%.

OBSERVAÇÃO
Note que no R “pulamos” a etapa da padronização do valor de x para z. Para
comparamos com a tabela da distribuição normal vamos padronizar o valor 𝑥 = 175.
# Usando o R como calculadora:
m <- 181
dp <- 37.6
x <- 175
z <- ( x - m )/ dp
z
Podemos verificar que 𝑃(𝑥 < 175) = 𝑃(𝑧 < −0.1595745):
Verifique se você compreendeu esse conceito. Observe que em pnorm(z), estamos
passando como argumento um valor padronizado, então não precisamos informar o
valor da média e desvio padrão, o R considera como sendo a distribuição normal padrão,
que como vimos, ela tem média zero e desvio padrão igual a 1.

PARTE 3 – uso da função qnorm( )


A função qnorm( ) faz o caminho inverso da pnorm( ). Veja as setas abaixo:

1. Usamos a qnorm( ) quando queremos responder 𝑃(𝑥 < ? ) = 0,4366, isto é,


dada a probabilidade qual o valor mínimo de 𝑥?
No R fica: qnorm(0.4366, mean=181, sd=37.6)

E observe que resposta não foi 175, por quê?


2. Observe a sequência de comandos sempre que passamos o valor da
probabilidade igual a 0,5:
qnorm(0.5, mean=181, sd=37.6)
qnorm(0.5, mean=200, sd=40)
qnorm(0.5, mean=1000, sd=345)
qnorm(0.5, mean=0, sd=1)

Qual valor esperado para x? Veja resposta:

É sempre a média? Por quê? Por causa da SIMETRIA DA DISTRIBUIÇÃO NORMAL em


relação a média. O valor da área de cada lado da média é igual a 0,5.

PARTE 4 – função rnorm( )


Com a função rnorm( ) podemos SIMULAR uma distribuição normal e verificar muitas
de suas propriedades. O r da função rnorm( ), vem de randômico, assim, com essa
função vamos gerar valores aleatórios que seguem uma distribuição normal.

1. Vamos simular uma distribuição Normal que tem média igual 175 e desvio
padrão igual a 3. Pense que é a altura de pessoas (centímetros) de uma dada
amostra, vamos simular uma amostra de tamanho 500.

O comando no R é:
rnorm(500, mean=175, sd=3)
A resposta será 500 números aleatórios que seguem uma distribuição normal
com média 175 e desvio padrão 3.

Se você executar esse comando novamente, novos 500 números serão gerados! Para
“travar” os números gerados usamos a função set.seed( ), antes de gera-los a partir da
função rnorm( ). Da seguinte forma:

set.seed(1)
rnorm(500, mean=175, sd=3)

EXTRA
O número entre parênteses de set.seed( ) indica a “semente” dos números aleatórios
que foram gerados, você pode usar qualquer outro número, aí você terá um novo
conjunto de dados.

2. Armazene esses números em um objeto (dê num nome, por exemplo, dados)
para ficar mais fácil explorarmos algumas características da distribuição Normal:

dados <- rnorm(500, mean=175, sd=3)

3. Faça o histograma e analise a forma do histograma. Parece existir uma simetria


em torno do valor da média?
hist(dados)
4. Faça o boxplot e observe sua forma. A caixa parece simétrica? Ou ela é alongada?
A mediana é um valor próximo da média?
boxplot(dados)

Os gráficos servem como diagnósticos para analisarmos se os dados seguem distribuição


Normal.

5. Faça o gráfico Q-Q da seguinte forma:


qqnorm(dados)
qqline(dados, col = "red")

O Q-Q plot fornece o seguinte diagnóstico: se os dados seguem distribuição


Normal eles tendem a ficar sobre a reta em vermelho.

6. Compare o histograma, o boxplot e o gráfico Q-Q para outras distribuições, por


exemplo a distribuição Uniforme (simétrica) e a distribuição Qui-quadrado
(assimétrica).
Distribuição Uniforme: runif( ) Distribuição Qui-quadrado: rchisq( )
set.seed(1) set.seed(1)
dadosunif <- runif(500, min=160, dadoschi <- rchisq(500, df = 3)
max=180)
hist(dadosunif) hist(dadoschi)

boxplot(dadosunif) boxplot(dadoschi)

qqnorm(dadosunif) qqnorm(dadoschi)
qqline(dadosunif, col = "red") qqline(dadoschi, col = "red")

Você também pode gostar