Você está na página 1de 12

Mdulo Estatstica I no R

Autor: Antonio Guilherme Fonseca Pacheco


Pr-requisitos: Conhecimento prvio do ambiente R. Especificamente, o leitor deve estar
familiarizado com os mdulos Bsico, Entrada e Sada de Dados e tambm Manuseando
dados no R.
Bibliotecas necessrias: Nenhuma
Aula 1 Probabilidade e distribuies
Livro: pginas 45 a 55
Essa aula na verdade conter muita recordao do mdulo bsico onde falamos sobre
distribuies e grficos. Ficarei vontade inclusive para copiar algumas partes do texto j escrito. O
motivo dessa repetio no s aprofundar um pouco essas noes que foram passadas, mas
tambm permitir a introduo ao assunto para aqueles que se sentiram capazes de no estudar o
mdulo bsico.
Probabilidade
A funo sample()
Distribuies Discretas
Distribuies Contnuas
Distribuies no R
Densidade
Acumulativa
Quantis
Nmeros pseudo-aleatrios
Exerccios
Probabilidade
Inicialmente, vamos falar de probabilidades e amostras aleatrias. Como voc j deve ter
notado, a inferncia estatstica baseada sempre em uma amostra aleatria que tirada de uma
determinada populao sobre a qual gostaramos de inferir certas caractersticas, como a sua
mdia ou a sua varincia, por exemplo.
A idia sempre a mesma das bolinhas numeradas em uma urna. Se ns tivermos por
exemplo 10 bolinhas numeradas de 1 a 10 em uma urna, qual a chance de ns escolhermos
exatamente, por exemplo a bolinha com o nmero 5? Intuitivamente voc vai responder que essa
chance de 1 em 10, 1/10 ou 10%. Nesse caso o que acontece que as bolinhas tm uma chance
igual de serem escolhidas, certo? Pois se eu perguntasse sobre a chance da bolinha com o nmero 3,
a resposta seria a mesma.
Agora, e se eu perguntasse qual seria a probabilidade de se retirar a bolinha com o nmero 5
e a bolinha com o nmero 3? Nesse caso, voc tem que me fazer duas perguntas pelo menos. A
primeira se a ordem de retirada deve ser levada em conta ou no (ou seja, se sortear a bolinha 5 e
em seguida a 3 deve ser diferente de sortear a bolinha 3 e em seguida a 5, ou no). A segunda
pergunta se uma vez sorteada uma bolinha ela deve ser devolvida urna ou no para ser sorteada
a segunda bolinha. Essas perguntas so fundamentais porque elas vo alterar significativamente a
resposta. Muito bem, vamos assumir a situao mais comum, que quando a ordem no importa e
calcular as probabilidades com e sem reposio.
Para o caso com reposio, ns teremos a probabilidade de sortear a bolinha 3 (0.1) e a
bolinha 5 (0.1) ou a bolinha 5 (0.1) e a bolinha 3 (0.1). Em probabilidade existe um macete
interessante: quando falamos da probabilidade de acontecer um evento e outro evento, estamos
falando de uma multiplicao. Se estamos falando da probabilidade de acontecer um evento ou
outro evento, estamos falando de uma soma. Pescou? Pois , essa probabilidade vai ser (0.1x0.1) +
(0.1x0.1) = 0.02.
J para o caso sem reposio, a cosa muda um pouco de figura. Agora, a probabilidade do
segundo elemento a ser sorteado vai ser diferente da do primeiro, pois vai ter uma bolinha a menos
na minha urna. Ento, nesse caso, apesar do raciocnio ser o mesmo, os nmeros mudam. Olha s,
eu vou copiar a mesma frase l de cima, s mudando as probabilidades: Para o caso sem reposio,
ns teremos a probabilidade de sortear a bolinha 3 (1/10) e a bolinha 5 (1/9) ou a bolinha 5 (1/10) e
a bolinha 3 (1/9). Ento, essa probabilidade vai ser (1/10x1/9) + (1/10x1/9) = 0.0222.
Como voc percebeu, a probabilidade no segundo caso maior que no primeiro, j que a
probabilidade de se sortear uma determinada bolinha na segunda tentativa maior (o denominador
menor) que na primeira.
Agora um ltimo problema antes de ns partirmos para a nossa parte prtica de fato. Todos
esses exemplos so compostos de bolinhas que tm uma probabilidade igual de ser sorteada. Mas
isso no necessariamente acontece assim. Vamos supor que por exemplo ns s tivssemos
bolinhas com o nmero 1 e com o nmero 2, mas que temos 4 com o nmero 1 e 6 com o nmero 2.
Bem, agora qual seria a probabilidade de se escolher uma bolinha com o nmero 1? A resposta
tambm intuitiva, e ser 4/10 = 40% o nmero de bolinhas com o nmero 1 dividido pelo total
de bolinhas na urna... E da bolinha com o nmero 2? Nesse caso, seria 6/10 = 60%. Neste caso, as
bolinhas tm uma probabilidade diferente de serem sorteadas. O caso de uma segunda bolinha,
vamos deixar para um desafio para vocs que um problema um pouco mais complicado.
Muito bem, esse papo todo s para refrescar a sua memria sobre probabilidade, porque a
nossa inteno aqui ver coisas acontecendo na prtica.
A funo sample()
Tudo muito bonito esse papo de amostra aleatria e probabilidade, mas como o R pode nos
ajudar com isso? Bem, o R possui uma funo bastante interessante, que a funo sample() que
para quem conhece essa palavra em ingls j deduziu que serve para amostrar alguma coisa. E
isso mesmo: ela serve para criar uma amostra aleatria de um vetor qualquer, com ou sem reposio
e com probabilidades iguais ou no. Vamos ver ento como essa funo funciona e como ela vai
nos ajudar a entender melhor esses problemas de probabilidade.
Primeiro, vamos simular a situao onde temos a urna com as bolinhas numeradas de 1 a 10.
A maneira mais simples criar um vetor chamado urna, com valores de 1 a 10:
urna <- 1:10
Agora, ns poderamos pedir para a funo sortear uma bolinha pra a gente, assim:
sample(urna, 1)
Experimente tambm tirar 2 amostras (ou seja, duas bolinhas) da nossa urna:
sample(urna, 1)
Faa vrias vezes e veja o que acontece...
Bem, na verdade fica meio difcil ver o que realmente acontece quando essa funo trabalha,
no mesmo? O programa est simplesmente atribuindo uma probabilidade igual a cada um dos
elementos e retornando um ou dois deles. Bem, mas quando dizemos que a probabilidade de se
sortear a bolinha x, o que realmente queremos dizer com isso?
Queremos dizer que se ns repetirmos este experimento (retirar uma bolinha) n vezes, onde
n um nmero grande (diz-se inclusive que tende para o infinito grande para chuchu), ento em
mdia, a bolinha de nmero x ser sorteada em uma frao p das vezes. Por que no tentamos ento
fazer isso? Vamos criar uma funo para tirar vrias amostras de tamanho 1 e guard-las em um
vetor. Em seguida, vamos ver quantas vezes uma determinada bolinha (nmero) aparece no nosso
vetor, dividindo este nmero pelo tamanho do vetor. Complicou? Vamos tentar na prtica, ento:
probab <- function (x, size=length(bolinha), repos = FALSE, prob = NULL,
times=10000, bolinha=1, order=F)
{
el <- bolinha
pr <- 0
z<-0
if(order){
for (i in 1:times)
{
z <- sample(x, size=size, replace = repos, prob=prob)
if (sum(el==z)/length(el)==1)
{
pr[i] <- 1
}else{
pr[i] <- 0
}
}
}else{
for (i in 1:times)
{
z <- sample(x, size=size, replace = repos, prob=prob)
if (sum(el%in%z)/length(el)==1)
{
pr[i] <- 1
}else{
pr[i] <- 0
}
}
}
sum(pr)/times
}
O que estamos fazendo apenas tirar uma amostra 10000 vezes e comparando com
elementos que ns determinamos para ver qual a porcentagem (ou probabilidade) de se obter
aquela(s) bolinha(s) indicada(s), quando a ordem no importa (por default). Vamos ver como isso
funciona.
Vamos primeiro ver qual a probabilidade de se escolher a bolinha nmero 3 (a essa altura
voc j notou que para uma bolinha s no faz diferena se com ou sem reposio, n? Para a
bolinha nmero 3, teramos:
> probab(urna, bolinha=3)
[1] 0.1017
Bastante prximo do que tnhamos calculado anteriormente, no? Bem, e agora para as
bolinhas 3 e 5, como ficaria? Nesse caso depende se com ou sem reposio. No caso sem
reposio, a probabilidade deve ser em torno de 0.022. Vamos conferir:
> probab(urna, repos=F, bolinha=c(3,5))
[1] 0.0229
Repare que tivemos que usar a funo c() para escolhermos as bolinhas 3 e 5. E agora no
caso da com reposio? Esperamos uma probabilidade menor, em torno de 0.2. Vamos ver como
funciona:
> probab(urna, repos=T, bolinha=c(3,5))
[1] 0.0206
Muito bem. Mas lembre-se que quando voc for fazer isso no R, os resultados de cada uma
das suas tentativas vai ser diferente do que eu obtive quando fiz, pois a funo sample() escolhe as
bolinhas aleatoriamente...
Repare tambm que esta funo serve para calcular as probabilidades aproximadas quando a
ordem de retirada importa, com o argumento order=T, se for necessrio. Vamos ver s um exemplo
rpido:
> probab(urna, repos=T, order=T, bolinha=c(3,5))
[1] 0.0099
Um resultado esperado, j que se a ordem importa, no nos interessa a amostra (5,3), mas
apenas a amostra (3,5), e claro, a probabilidade deve ser aproximadamente a metade da anterior.
Distribuies Discretas
Como voc j deve ter aprendido, as distribuies de fenmenos naturais dos quais
queremos fazer inferncias a respeito se dividem em dois grandes grupos: variveis discretas e
variveis contnuas. Vamos comear pelas discretas. Elas so empregadas para descrever
fenmenos que s podem assumir nmeros inteiros. Um exemplo muito freqente em
epidemiologia o nmero de pacientes com uma determinada doena em uma populao. claro
que no pode existir um meio paciente, e portanto a distribuio deste evento uma distribuio
discreta.
Note que esta classificao muito geral e nada dito ou suposto sobre o range da
distribuio, e nem ao seu formato. Essas caractersticas sero particulares de cada distribuio. A
nica caracterstica que as une o fato de assumirem nmeros inteiros. Sendo discreta, podemos
definir a probabilidade de ocorrncia de um determinado evento ocorrer sem muita dificuldade:
P( X =x)= f ( x)
Claro que isso uma definio muito geral. Para o nosso exemplo das bolinhas com nmero
1 e 2, com probabilidades diferentes, teramos:
P( X =x)= f ( x)=
{
0.4, se x=1
0.6, se x=2
0, caso contrrio
6
Como seria o grfico desta funo? ( isso mesmo, ela tem um grfico... meio esquisito,
verdade...)
x<-0:4
y<-c(0,0.4,0.6,0,0)
plot(x,y, type="h")
points(1,0.4)
points(2,0.6)
Esta funo chamada funo de densidade de probabilidade, ou fdp (no bom sentido,
claro.) conhecida tambm, por causa do ingls, como pdf.
Existe um outro tipo de funo que mede a probabilidade acumulada de eventos, ou seja, ela
mede a probabilidade da ocorrncia de eventos em sucesso, e estaramos falando no da
probabilidade de ocorrer um evento, mas da probabilidade de ocorrerem x ou menos eventos:
P( X x)=F( x)
Nessa funo anterior por exemplo, teramos:
P( X x)=F( x)=
{
0 se x1
0.4, se 1x2
1, se x2
6
Vamos ver o grfico?
x<-0:4
y<-c(0,0.4,1,1,1)
plot(x,y, type="s")
Esta funo chamada de funo de densidade acumulada, e s vezes tambm chamada
apenas funo de probabilidade.
claro que existem vrias funes discretas famosas, e uma das que iremos usar com
bastante freqncia a distribuio Binomial. Ela descreve o nmero de sucessos que ocorrem
em um determinado nmero de experimentos. Os sucessos tm uma certa probabilidade p de
acontecer e, junto com o numero de experimentos n compem os parmetros desta distribuio. A
fdp de uma Binomial (n,p) dada por:
P( X =k)=
(
n
k
)
p
k
(1 p)
n k
Nesse caso o k usado apenas para no haver confuso com o x, e ele representa um valor
qualquer de x. O grfico desta funo pode ser facilmente obtido no R. Vamos ver um exemplo para
uma Binomial(100, 0.05):
hist(rbinom(1000, prob=.05, size=100), freq=F)
Tambm possvel obter-se a funo acumulada de distribuio da Binomial:
P( X k)=

x=0
k
(
n
x
)
p
x
(1 p)
n x
E o seu grfico, como o do nosso exemplo, pode tambm ser facilmente obtido:
x<-seq(0,20,1)
plot(x, pbinom(x, prob=.05, size=100), type="s")
Voc deve ter notado que a F(x) da Binomial nada mais do que um somatrio das
probabilidades individuais de cada ponto da f(x) at que um determinado valor k seja obtido. Ns s
somamos todos os pontos dentro do range da distribuio para conferir se ela pode mesmo ser uma
distribuio. Como voc deve estar cansado de saber, essa soma tem que ser sempre 1.
Alis, se voc no se lembra, o range de uma funo de distribuio corresponde ao que
voc deve ter aprendido como domnio da funo, ou seja, os valores de x para os quais a funo
est definida. No caso da Binomial, o seu domnio x=0,1,... n e 0 p1 . Ambos os
valores so intuitivos, j que o nmero de sucessos x de uma Binomial em n experimentos, s pode
ir de zero a n. J a probabilidade p como toda probabilidade, s pode variar entre zero e um.
Distribuies Contnuas
Existem tambm variveis aleatrias que seguem uma natureza contnua, ou seja ela pode
assumir qualquer valor real. Por exemplo, a natureza da distribuio das presses arteriais de uma
populao qualquer uma varivel que pode assumir qualquer valor real positivo, muito embora
para uma pessoa viva alguns limites devam ser respeitados. Nesse caso, esta varivel dita
contnua.
Como as variveis discretas, as contnuas tambm possuem fdp's e distribuies
acumuladas. A grande diferena que como estamos falando de um espao contnuo, no possvel
calcular a probabilidade de um determinado valor que x assuma, mas sim de um pequeno intervalo
entre dois x consecutivos. Ento, a nossa f(x) vai ser apenas uma funo contnua. Um exemplo
muito conhecido nosso a distribuio Normal:
f ( x)=
1
2nc
exp
(

( xj)
2
2c
2
)
Como sabemos, a Normal possui tambm dois parmetros: a sua mdia j e a sua
varincia c
2
(muito embora seja comum usar o desvio-padro c como o segundo parmetro
incluindo o R, como veremos mais adiante.) Como no caso da Binomial, esta funo pode
tambm ser facilmente colocada em um grfico no R. Vamos usar a Normal default no R que a
Normal (0,1):
curve(dnorm(x), from=-3, to=3)
Claro que como no caso das distribuies discretas, as distribuies contnuas tambm
possuem funes de densidade acumuladas e a idia do somatrio das probabilidades individuais de
cada valor que x pode assumir para a sua obteno tambm permanece. S que como estamos
falando de uma soma de uma funo contnua, em vez de somatrio, teremos que usar uma integral
para calcular a sua F(x). De modo geral:
F( x)=

x
f ( x) dx
claro que esse limite inferior de menos infinito vai depender do domnio da distribuio
algumas so definidas para certos intervalos, como a Uniforme (0,1) por exemplo, mas para a
Normal, exatamente assim.
Podemos tambm obter um grfico da funo de distribuio acumulada no R. Para a
Normal (0,1), seria assim:
x<-seq(-3,3,0.01)
plot(x, pnorm(x), type="l")
Repare que agora o grfico no assume mais o formato de degraus, mas sim de uma
distribuio contnua.
Vamos falar agora rapidamente de um fantasma que acabou de aparecer a em cima que a
integrao de uma funo. Muitas pessoas se assustam com a notao e tm dificuldade de entender
o que isso significa. Para o nosso nvel de aprendizado, cremos que pelo menos uma compreenso
bastante simples e bsica necessria. A primeira noo j foi passada, de que ela uma soma
contnua (se contrapondo ao somatrio quando estamos trabalhando com nmeros inteiros.)
A segunda noo simples uma interpretao geomtrica que a integral pode ter. Ela
representa na verdade apenas a rea sobre a curva da funo que est sendo integrada, dentro dos
limites estabelecidos. Quando ns falarmos adiante das funes do R para calcular funes
acumuladas, vamos ver uns exemplos sobre isto, mas legal j ter esta noo em mente.
Distribuies no R
O R possui uma srie de funes para calcular valores para essas distribuies que ns
acabamos de apresentar. Muitas delas j foram at usadas sem explicao alguma (o que pode ter
deixado voc um pouco boiando) quando fizemos os grficos da Binomial e da Normal. So quatro
os tipos bsicos dessas funes: funes para o clculo de densidade, funes para o clculo de
densidade acumulada, funes para o clculo de quantis e funes que geram distribuies. Cada
uma delas esto disponveis para diferentes tipos de distribuies, sejam discretas (e.g. Binomial,
Geomtrica) ou contnuas (e.g. Uniforme, Normal, Exponencial.) Vamos ver em mais detalhe como
cada uma destas funes funcionam.
Densidade
Como j foi mencionado anteriormente, a densidade de uma distribuio (o a sua fdp) tem
conotaes diferentes, dependendo se a distribuio discreta ou contnua. No primeiro caso, a
densidade representa de fato uma probabilidade pontual, a probabilidade do evento x ocorrer. J no
caso de uma distribuio contnua, a probabilidade para uma valor especfico de x zero e a
densidade representa a probabilidade de se obter um valor na vizinhana do valor x, definido por
um intervalo qualquer na sua vizinhana (de x). Este conceito pode ser um pouco confuso, pois
como veremos existe um valor definido para a densidade de uma funo como a Normal por
exemplo, s que esse valor NO CORRESPONDE PROBABILIDADE DESSE EVENTO
OCORRER!!!
Dos quatro tipos de funes que estudaremos, essa certamente a que menos se usa no dia a
dia, mas muito til para a construo de exemplos (alis, ns j usamos esta funo algumas
vezes.) Essa famlia de funes (chamo de famlia porque existem vrias delas para diversas
distribuies no R) sempre comeam com a letra d, seguida de uma abreviao do nome da
distribuio. Por exemplo, quando construmos o grfico da fdp da Normal, ns usamos o comando:
curve(dnorm(x), from=-3, to=3)
Como se tratava da Normal, a abreviao norm, e a funo se chama ento dnorm().
Veja um resumo das abreviaes usadas para algumas distribuies na tabela abaixo:
Tabela 1.1 Abreviaes e argumentos usados pelo R para gerar distribuies. Antes
da abreviao, deve-se acrescentar a letra d para a fdp, p para a funo de densidade
acumulada, q para a funo de quantis e r para gerao aleatria de uma amostra. Os
argumentos so descritos juntamente com os valores default, quando houver. Veja texto para
detalhes.
Distribuio Abreviao Argumentos com default
Binomial
binom n= p=
Geomtrica
geom prob=
Hipergeomtrica
hyper m= n= k=
Binomial negativa
nbinom size= prob=
Poisson
pois lambda=
Uniforme
unif min=0 max=1
Normal
norm mean=0 sd=1
Exponencial
exp rate=1
Qui-Quadrada
chisq df=
t de Student
t df=
F de Snedcor
f df1= df2=
Weibull
weibull shape= scale=1
Gama
gamma shape= rate=1
Beta
beta shape1= shape2=
Repare que apesar de na tabela estar assinalado que as funes para a Normal possuem 2
argumentos, eles foram omitidos no cdigo acima. Isso ocorreu porque algumas destas funes tm
valores default, e no caso da Normal, como voc j deve ter observado so mean=0 e sd=1.
A funo curve() vai desenhar um grfico de uma funo qualquer de x. Nesse caso a
funo justamente a funo dnorm(), que gera a densidade de uma normal. Alm disso, a funo
curve() tambm toma os argumentos from e to, para estabelecer os limites do grfico.
Mas afinal de contas, que valor retornado por esta funo? simplesmente o resultado da
fdp no ponto x. Quer ver um exemplo? Vamos ver a fdp da Normal (0,1):
f ( x)=
1
2n
e

x
2
2
Vamos agora no R calcular o valor dessa funo quando x = 0:
> dnorm(0)
[1] 0.3989423
Lembre-se que esse valor, por se tratar de uma distribuio contnua, NO corresponde
probabilidade de se obter o valor x = 0 em uma Normal (0,1)!!!
Bem, vamos fazer este clculo na mo agora e conferir. Basta substituir por 0 onde existe x
na equao acima:
f (0)=
1
2n
e

0
2
2
=
1
2n
e
0
=
1
2n
0.3989
Funo de distribuio acumulada
J a funo de distribuio acumulada bastante usada, no em exemplos, como ns
tambm vimos anteriormente, mas tambm para clculos corriqueiramente utilizados em estatstica.
Para a construo de um grfico da funo de distribuio acumulada da Normal, ns
usamos o comando:
x<-seq(-3,3,0.01)
plot(x, pnorm(x), type="l")
Onde ns criamos um vetor x como uma seqncia de -3 a 3, de 0.01 a 0.01 e depois
plotamos esse vetor contra os valores retornados pela funo pnorm(). Como voc deve ter
percebido, para gerarmos densidades acumuladas, acrescentamos a letra p antes de uma das
abreviaes descritas na Tabela 1.1.
Alis, aqui que entra a nossa compreenso superficial sobre a integral de uma funo. O
que a pnorm() faz calcular o resultado desta conta:
P( X x)=F( x)=

x
f ( x) dx
Onde a f(x) vai ser a fdp de alguma distribuio, neste caso, a Normal (0,1) e que ns j
vimos que o resultado :
P( X x)=F( x)=

x
1
2n
e

x
2
2
dx
Agora voc deve estar se perguntando: mas porque existem aquelas imensas tabelas para a
distribuio Normal (0,1) que vm nas costas de todo livro de estatstica, se o valor da funo de
distribuio acumulada apenas uma conta, uma funo de x aplicada a um determinado valor?
Nesse caso, a gente poderia calcular na mo, com fizemos com a fdp, no?
Bem... no. O problema que a conta

x
1
2n
e

x
2
2
dx no tem resultado algbrico
definido (ou seja, no possvel obter uma outra funo a partir deste clculo) e ento os resultados
tm que ser obtidos por clculo numrico. Da a grande importncia da implementao de funes
do tipo da pnorm().
Alm ento dos grficos que ns vimos, com estas funes possvel calcular uma srie de
coisas teis para estatstica, que substituem a consulta das tabelas. Digamos, por exemplo, que uma
certa caracterstica de uma populao siga uma distribuio Normal, com mdia 100 e DP de 20.
Uma pergunta pertinente sobre esta populao seria: qual a percerntagem de pessoas nesta
populao que possuem um valor igual ou menor a 75? Para responder, podemos fazer:
> pnorm(75, mean=100, sd=20)
[1] 0.1056498
Ou seja, cerca de 10.56% das pessoas possuem um valor igual ou menor que 75. Mas afinal
de contas, como podemos visualizar esses resultados? Como foi mencionado, esse valor que foi
encontrado nada mais do que a rea abaixo da curva da fdp desta Normal (100, 400). Vamos ver
como isso funciona, mas desta vez s mostrarei o resultado final (seria um pouco complicado pedir
para voc fazer esse grfico, mas se estiver interessado, no se acanhe em entrar em contato.)
O que observamos na figura acima a fdp desta normal, com a rea hachurada de menos
infinito (embora no d pra visualizar muito bem) at o valor que queramos de 75. Esta rea vale
exatamente o valor que ns achamos acima, ou seja, 0.1056. Para reforar, essa conta para esta
normal dada por:
F( 75)=

75
1
2n20
exp
(

( x 100)
2
220
2
)
dx
Significa que estou calculando a integral (que a rea sob a curva) de menos infinito at 75
da fdp da Normal (100, 400.) Note que eu apenas substitu os valores de j e de c
2
na
equao acima.
Testes estatsticos tambm so uma aplicao direta dessas funes. Por exemplo, mais
tarde voc vai aprender a usar e interpretar o famoso teste t de Student. Sem entrar em detalhes,
basicamente ser calculada uma estatstica T, a qual ter uma distribuio t com n-1 graus de
liberdade (onde n o tamanho da amostra.) Para se calcular o famoso p-valor associado a esta
0 50 100 150 200
0
.
0
0
0
0
.
0
0
5
0
.
0
1
0
0
.
0
1
5
0
.
0
2
0
Density function
X
Y
estatstica, usamos a funo pt(). Digamos que para uma amostra de 100 pacientes, a estatstica
que voc calculou foi -2.55. Para calcular o p-valor:
> pt(-2.55, df=99)
[1] 0.006152768
Como voc aprender mais tarde, a distribuio t tem um nico parmetro, que so os graus
de liberdade (degrees of freedom em ingls da o argumento df). Mas no se preocupe com nada
disso agora, apenas para j ter em mente a utilidade da funo.
Novamente, esse valor tambm uma rea, mas sob a curva da fdp de uma distribuio t
com 99 graus de liberdade, indo de menos infinito at -2.55, como mostrado na curva abaixo.
S para fixar, sem querer complicar muito, vamos admitir que a distribuio t
99
tenha uma
fdp genrica, do tipo f ( t) , usando t s para indicar que se trata de uma distribuio t. Ento, a
rea assinalada abaixo corresponde conta:
F(2.55)=

2.55
f ( t) dt
Cuja soluo, como voc j deve ter adivinhado, tambm no tem um resultado definido
algebricamente.
-4 -2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Density function
X
Y
Quantis
A prxima famlia de funes so as que geram quantis. Se voc est achando isso um
palavro, no posso culp-lo. Essa funo na verdade apenas a funo inversa da funo de
densidade acumulada. Assim, ela responde seguinte pergunta: a que valor de x corresponde uma
probabilidade acumulada de 0.975, por exemplo. Alis, numa Normal (0,1), qual seria mesmo esse
valor?
> qnorm(0.975, mean=0, sd=1)
[1] 1.959964
Isso mesmo, o nosso bom e velho 1.96...
A utilizao dos quantis ser bastante importante quando estudarmos tambm intervalos de
confiana, pois como veremos, precisaremos do valor desta funo para calcular quanto deve ser
somado mdia amostral por exemplo para obter-se o limite superior do seu intervalo de confiana
(e subtrair-se tambm para obter-se o limite inferior.) Vamos ver um rpido exemplo: Por exemplo,
um IC 95% para uma mdia amostral com varincia da populao desconhecida dada por (no se
assuste se voc no entendeu o que isso quer dizer, voc vai aprender mais tarde):

x t
n 1,1o/ 2
s
2
/ n
Onde

x
a mdia da amostra, s
2
a varincia da amostra, n o tamanho da amostra e
t
n 1,1o/ 2 exatamente o valor de t com n-1 graus de liberdade no ponto
1o/2
, que para
um nvel de confiana de 5% ( o=0.05) corresponde a 0.975. Vamos chutar alguns valores e ver
como isso funcionaria no R. Digamos que a mdia das diferenas de presso arterial de uma
amostra de 100 pacientes, antes e aps um determinado tratamento, seja -10mmHg e que a varincia
da diferena tenha sido de, digamos 9mmHg
2.
. Nesse caso teramos:
> -10-(qt(0.975, df=99)*sqrt(9/100))
[1] -10.59527
> -10+(qt(0.975, df=99)*sqrt(9/100))
[1] -9.404735
Nesse caso tivemos que usar a funo qt() para calcular este IC 95%. Assim, nesse
experimento a presso arterial dos pacientes foi reduzida em mdia 10mmHg, com um IC95% de (-
10.595,-9.405).
Nmeros pseudo-aleatrios
Geralmente nos referimos gerao de nmeros pelo computador como nmeros aleatrios
apenas. Essa noo pouco intuitiva, porm, pois de se esperar que um computador realize
apenas clculos e operaes exatas, sem nenhum tipo de aleatoriedade envolvida. Essa dvida
procede, j que na verdade, algoritmos foram desenvolvidos para que o computador possa gerar
nmeros como se fossem aleatrios, mas na verdade eles no so genuinamente aleatrios, e por
isso devem receber a denominao mais precisa de pseudo-aleatrios. A explicao de como isso
obtido foge do escopo deste material e no ser abordada.
O que importa que o R capaz de gerar amostras aleatrias de vrias distribuies
diferentes, que podem ser usadas em simulaes e tambm em exemplos, como ns fizemos
anteriormente. Por exemplo, a fdp de uma binomial foi feita com essa funo, gerando uma amostra
de tamanho 1000:
hist(rbinom(1000, prob=.05, size=100), freq=F)
Vamos ver alguns dos nmeros gerados, digamos, 10:
> rbinom(10, prob=.05, size=100)
[1] 8 4 4 4 2 3 6 8 6 5
Esses nmeros deveriam estar (e esto) distribudos mais ou menos em torno de 5, que a
mdia desta Binomial temos nesse caso a probabilidade de 5% (prob=.05) de sucessos, como o
nmero de experimentos 100 (size=100), esperamos que ocorram 5 sucessos em cada 100
experimentos.
Exerccios
1. Tomando o mesmo exemplo da urna com 10 bolinhas numeradas, qual seria a
probabilidade para o caso com e sem reposio, com ordem indiferente para se retirar a
bolinha com o nmero 5 duas vezes?
2. Suponha que uma urna contenha 7 bolinhas azuis e 3 bolinhas verdes. Digamos que
estamos interessados na probabilidade de tirarmos uma segunda bolinha verde da urna,
sem reposio. Calcule as seguintes probabilidades
a. A segunda bolinha ser verde, sendo que eu desconheo a cor da primeira bolinha
b. A segunda bolinha ser verde, dado que a primeira bolinha verde
c. A segunda bolinha ser verde, dado que a primeira bolinha azul
Que concluses voc pode tirar sobre essas probabilidades condicionais?
3. Calcule a probabilidade desses eventos:
a. Uma varivel distribuda como uma Normal (0,1) ser menor que 3
b. Uma varivel distribuda como uma Normal com mdia 35 e DP de 6 ser maior que 42
c. Obter-se 10 sucessos em 10 experimentos em uma Binomial com probabilidade de
sucesso de 0.8
d. X < 0.9, sendo que X uma Normal-padro
e. X > 6.5 numa distribuio X
2
com 2 graus de liberdade
4. Como vimos na aula, o intervalo de confiana 95% de uma normal gira em torno da mdia
amostral com um certo afastamento. Quando a varincia da populao conhecida (coisa
que nunca acontecer), podemos usar a distribuio Normal (0,1) em vez da distribuio t.
Nesse caso, o IC 100(1o) % ser dado por

x z
1o/ 2
c
2
/ n
. Para um IC
95%, ns chegamos a calcular o valor de
z
1o/ 2
- lembra? Era aproximadamente 1.96.
Calcule
z
1o/ 2
para os seguintes nveis de confiana: 10%, 1%, 0.05%, 0.01%
5. Um cirurgio prope uma nova tcnica operatria para uma doena cujo mtodo clssico
sabidamente cursa com complicaes ps-operatrias em 20% dos pacientes. Ele aplica a
nova tcnica em 10 pacientes e nenhum apresenta complicaes ps-operatrias. Qual a
probabilidade de se usar o mtodo tradicional em 10 pacientes e obter-se o mesmo
resultado (i.e. no haver complicao em nenhum paciente)?

Você também pode gostar