Você está na página 1de 28

Amostra; distribuicao amostral,

suas caratersticas
e emprego para inferencias sobre distribuicao
populacional
Ministrante Prof. Dr. Vladimir Belitsky, IME-USP

Amostragem.
Recorde a populacao de um vilarejo na Alaska. Recorde a
distribuicao de frequencias (absolutas) pela idade que fizemos ao
intervistar cada pessoa da populacao. Esta intervista nos deu a tal
de distribuicao populacional:
0
1
12
2
28
2
46
1

1
3
13
1
29
1
47
1

2
3
15
1
30
1
48
1

3
2
16
2
31
2
49
1

4
3
17
2
32
2
50
2

5
3
21
2
33
2
51
1

6
4
22
1
34
1
52
1

7
2
23
1
36
1
53
1

8
2
24
1
39
1
54
1

9
1
25
2
41
1
55
1

10
3
26
1
42
1
56
1

11
3
27
2
45
1
63
1

Amostragem.
Escolher uma pessoa de uma populacao ao acaso significa:
() sem tendencia, sem preferencia, sem vies (direto ou indireto,
por exemplo, fazendo a escolha ao meio dia), etc.
O modelo da escolha ao acaso: apresentar cada pessoa por uma
bola (as bolas sao identicas no tato, e em cada bola ha o nome da
pessoa representada), misturar bem as bolas (), e retirar uma
bola da urna, sem olhar dentro dela.
Percebe-se que () significa, em palavras compreencveis para os
quem entende os conceitos da Teoria de Probabilidades, que :
a probabilidade de escolher qualquer pessoa da populacao e a
mesma para cada pessoa (e e igual a (tamanho da populacao)1 ).

Amostragem.
Suponha que proferimos a amostragem e observamos e anotamos a
idade da pessoa escolhida. Suponha que a bola escolhida foi
devolvida `a urna e as bolas foram misturadas () novamente.

Suponha que este processo (escolher anotar a idade devolver


e misturar) foi repetido n vezes. Entao o conjunto dos valores
anotados chama-se amostra de tamanho n. Cada elemento do
conjunto chama-se observac
ao. Por exemplo, poderiamos obter a
seguinte amostra (se repetissimos 7 vezes a escolha):
2, 55, 45, 7, 2, 29, 20

Amostragem.
A cada amostra pode ser feita sua distribuic
ao amostral. Eis um
exemplo: n = 27,
1, 32, 54, 27, 1, . . . , 28
0
0/1
12
0/2
28
2/2
46
0/1

1
2/3
13
1/1
29
0/1
47
0/1

2
3/3
15
0/1
30
1/1
48
1/1

3
1/2
16
0/2
31
1/2
49
1/1

4
0/3
17
2/2
32
1/2
50
1/2

5
1/3
21
0/2
33
0/2
51
0/1

6
1/4
22
1/1
34
0/1
52
0/1

7
0/2
23
0/1
36
0/1
53
0/1

8
1/2
24
0/1
39
1/1
54
2/1

9
0/1
25
0/2
41
1/1
55
0/1

a/b significa que a e a frequencia absoluta na amostra e b e da


populacao. E devo avisar que idades com frequencias nulas na
amostra nao aparecem na distribuicao amostral.

10
1/3
26
0/1
42
0/1
56
0/1

11
0/3
27
1/2
45
0/1
63
0/1

Amostragem.
Cada amostra e um conjunto, e para ele existe a distribuicao de
frequencia por seus valores que chama-se distribuic
ao amostral.
Tipicamente, N (o tamanho da populacao) e muito, muito, muito
grande, fato que inibe a construcao direta da distribuicao
populacional. Entao, se faz uma amostra de tamanho n
(tipicamente menor que N) razoavel para que a amostra seja
factivel.
Conforme n crescer (ao infinito e alem) as frequencias relativas da
distribuicao amostral convergem para as frequencias relativas da
distribuicao populacional. Isto e um fato que pode ser derivado da
definicao da probabilidade.

Amostragem.

Entretanto, nada garante que para n especfico (quer dizer, n da


amostra que voce conseguiu), a distribuicao amostral da frequencia
relativa esteja proxima `a distribuicao populacional da frequencia
relativa. Tal proximidade e nossa crenca.

Com base nesta crenca, mas tendo a conciencia da possivel


divergencia entre as distribuic
oes, vamos agora abordar a pergunta
principal:
como estimar as caratersticas da distribuic
ao populacional a
partir da distribuic
ao amostral.

Amostragem.
Uma das caratersticas importantes da distribuicao populacional
(sua importancia sera confirmada por assuntos do curso a serem
tratados no futuro) e a media populacional:
xpopulacional =

x1 + . . . + xN
, a ser abreviada xp
N

Caso for desconhecida (que e caso aqui tratado), e natural tomar a


m
edia amostral, isto e,
xamostral =

x1 + . . . + xn
, a ser abreviada xa
n

como sua aproximacao. Qual boa esta aproximacao e? Em que


medida podemos confiar nela? Como medir e aumentar a
confianca? Estas quest
oes serao tratadas no tema do curso
Intervalos de confianca sobre a media.

Amostragem.
Uma das caratersticas importantes da distribuicao populacional
(sua importancia sera confirmada por assuntos do curso a serem
tratados no futuro) e a variancia populacional:
2 =

(x1 xp )2 + . . . + (xN xp )2
N

Caso for desconhecida (que e caso aqui tratado), e natural tomar a


vari
ancia amostral, isto e,
s2 =

(x1 xa )2 + . . . + (xn xa )2
n1

como sua aproximacao. Qual boa esta aproximacao e? Em que


medida podemos confiar nela? Como medir e aumentar a
serao tratadas no nosso curso. E

confianca? Estas quest


oes NAO
um assunto do curso de dois semestres de duracao.

Amostragem.

O denominador n 1 na f
ormula para a variancia amostral nos
avisa: ha coisas serias na questao da bondade de aproximacao.
Veja na lousa minha tentativa da explicacao para a razao de
termos n 1. Este assunto, entretanto, nao e obrigatorio e nao
sera cobrado em provas e exerccios.

Amostragem.
Uma das caratersticas importantes da distribuicao populacional
natural
(sua importancia sera tratada nesta aula) e seu quantil. E
que o quantil de ordem p da populacao seja estimado pelo quantil
da mesma ordem da amostra.
Vejamos a mediana. A estimacao sugerida parece ser mais robusta
(estavel) que a estimacao da media:
2, 55, 45, 7, 2, 29, 20
2, 55, 45, 1, 2, 29, 20
razoavel que as flutuac
E
oes na amostra nao afetem por muito o
valor da mediana.
O mesmo pode ser dito sobre quantis de ordem p quando p nao e
muito pequeno e nao muito grande.
Como uma das consequencias, ha um metodo chamado Q-Q-plot
(desenho quantil-a-quantil) que utiliza-se para confirmar/rejeitar a
hipotese que a distribuicao populacional tenha um formato
especfico (por exemplo, da distribuicao normal).

Amostragem.

Existe regra de notacao comumente usada: o simbolo chapeu


significa a estimativa construida na base de amostra, e o subscript
n aponta ao tamano da amostra (o quel e o valor importantissimo
em alguns casos). Por exemplo
- media populacional
ou
n
2
d
- variancia populacional ( 2 )n
d
qp -quantil de ordem p da populacao qbp ou (q
p )n

Amostragem.
As vezes, desejamos sugerir ou confirmar que a distribuicao
populacional tenha ou nao uma certa propriedade. Nestes casos,
comumente faz-se o uso do box-plot e/ou do histograma da
distribuicao amostral.
A razao e clara: os agrupamentos intrinsicos na construcao do
box-plot e do histograma ofuscam as flutuacao indesejaveis
presentes na amostra e fazem estes a parecer com os seus
respectivos parentes da distribuicao populacional.
No exemplo abaixo, a tarefa e comparar propriedades das
distribuicoes correspondentes a duas populac
oes. A comparacao e,
tipicamente, uma tarefa simples, pois nao precismos provar que
cada uma das comparadas possue tal propriedade; queremos e so
dizer que se as duas possuam, entao numa delas tal propriedade e
mais forte, ou mais expressiva.
Ja nos dois exemplos encontrados no final desta aula, a tarefa e
adivinhar se ha algo especfico na distribuicao populacional. Voce
vera que escolher entre sim, nao e talvez exige mais
cuidados que a tarefa de fazer comparacao.

Amostragem. Um exemplo.
Um estudo para avaliar o grau de competitividade em jogos de
basquete durante os XV Jogos Pan-americanos realizados no Rio
de Janeiro considera como competitividade a diferenca entre a
pontuacao do vencedor em relacao `a do perdedor (quanto menor a
diferenca, mais competitivo e o jogo). Na tabela abaixo, essa
diferenca e apresentada para todos os jogos, nas modalidades
feminino e masculino.
Diferenca de pontuacao em jogos de basquete Feminino (20 jogos):
54, 2, 13, 11, 23, 13, 2, 15, 1, 12, 14, 7, 28, 12, 44, 19, 31, 16, 12,
7.
Diferenca de pontuacao em jogos de basquete Masculino (19
jogos):
19, 7, 6, 5, 3, 21, 5, 3, 3, 9, 8, 5, 1, 35, 9, 8, 12, 2, 26
Compare as modalidades com relacao `a diferenca de pontuacao,
utilizando media, mediana, variancia, desvio padrao, coeficiente de
variacao e box-plot.

Amostragem. Um exemplo.

Abaixo, eu reformularei o problema da maneira que interpreta os


conjuntos como amostras. O motivo para tal e que estou
explicando como amostra pode ser usada para adivinhar sobre a
estrutura da populacao que a criou.

Amostragem. Um exemplo.
Um estudo para avaliar o grau de competitividade em jogos de
basquete da liga paulista de basquete considera como
competitividade a diferenca entre a pontuacao do vencedor em
relacao `a do perdedor (quanto menor a diferenca, mais competitivo
e o jogo). Na tabela abaixo, essa diferenca e apresentada para
duas amostras dos jogos, nas modalidades feminino e masculino.
Diferenca de pontuacao em jogos de basquete Feminino (20 jogos):
54, 2, 13, 11, 23, 13, 2, 15, 1, 12, 14, 7, 28, 12, 44, 19, 31, 16, 12,
7.
Diferenca de pontuacao em jogos de basquete Masculino (19
jogos):
19, 7, 6, 5, 3, 21, 5, 3, 3, 9, 8, 5, 1, 35, 9, 8, 12, 2, 26
Compare as modalidades com relacao `a diferenca de pontuacao,
utilizando media, mediana, variancia, desvio padrao, coeficiente de
variacao e box-plot calculados para as amostras.

Amostragem. Um exemplo.
Caluclos auxiliares para a construcao dos box-plots:

Min.
1.0

Para os jogos feminimos:


1st Qu. Median Mean 3rd Qu.
10.0
13.0
16.8
20.0

Max.
54.0

Min.
1.000

Para os jogos masculinos:


1st Qu. Median Mean 3rd Qu.
4.000
7.000
9.842 10.500

Max.
35.000

Os proprios box-plots estao na transparencia a seguir. A


comparacao entre as duas, que respondeu a questao do presente
exemplo, foi feito verbalmente na aula.

Amostragem. Um exemplo.
50

40

30

10

20

Amostragem. Box-plot para amostra.


A construcao de box-plot para amostra inclui a marcacao de
outliers. Esta segue a regra a ser explicada na lousa. Eis a
descricao verbal da regra:
` direita do
A caixa de box-plot marca os valores de Q1, Q2, Q3. A
Q1 estende-se (mas nao desenha-se) intervalo de comprimento
3
2 (Q3 Q1). Procura-se o maior valor do conjunto que
encontra-se neste intervalo. Entao, o bigode direito desenha-se a
partir de Q3 ate o valor encontrado. Pode acontecer que o valor
encontrado seja o valor maximo do conjunto. Caso contrario, os
valores do conjunto que encontram-se alem do intervalo extendido
marcam-se por ou por . Tais valores (caso existam) chama-se
outliers. O mesmo procedimento aplica-se para construir o bigode
esquerdo e os outliers dos menores valores.

Amostragem e simulacao.

Amostragem e simulac
ao sao dois termos para a mesma coisa!
Isto me permite usar a simulacao para estudar (e/ou ensinar) como
amostra possa ser usada para adivinhar a distribuicao da populacao
de onde adveio a amostra.

Amostragem. Exemplos.

Em cada exemplo, fiz o segunite. Tomei uma distribuicao e obtive,


via a simulacao, n valores (em todos os exemplos, n = 100). Tais
valores podem ser vistos como uma amostra advindo da
distribuicao tomada. Para esta amostra, faco e entrego para voce
seu histograma e seu box-plot. Peco-lhe que analise estes e
adivinhe tudo o que pode sobre as caratersticas da distribuicao
geradora da amostra. Em seguida, olhe a distribuicao geradora e
comente sobre a bondade de suas adivinhac
oes. Esta tarefa e para
voce aprender acerca da capacidade e dos limites daquilo que
amsotra possa nos dizer sobre a populacao deonde veio.

Amostragem. Exemplos.
(a) A distribuicao populacional e Beta(1,2):

2, 4
2, 2
2, 0
1, 8
1, 6
1, 4
1, 2
1, 0
0, 8
0, 6
0, 4
0, 2
0.0 0.2 0.4 0.6 0.8 1.0

` esquerda, encontra-se o
A
grafico (em vermelho) da
funcao-densidade da distribuicao contnua chamada
desta distriBeta(1,2). E
buicao que, via a simulacao
repetida 100 vezes, veio a
amostra a ser tratada no presente exemplo. A distribuicao
Beta(1,2) e, entao, a distribuicao populacional, e as
suas formas basicas e aquilo
sobre o qual finjimos de nao
conhecer nada e queremos
adivinhar algo com base
na iformacao que podemos
exprimir da amostra.

Amostragem. Exemplos.
Min.
0.001

Quartil 1
0.138

Mediana
0.280

Quartil 3
0.496

2.0

Histograma
quartil 1
mediana
quartil 3

1.0
0.5
0.0

Densidade

1.5

0.0

0.2

0.4

0.6

0.8

0.0

0.2

0.4

0.6

0.8

Max.
0.897

Amostragem. Exemplos.
O box-plot permite comparar as densidade/concentracoes das
observacoes da amostra, e, portanto, da populacao, nos intervalors
[min, Q1], [Q1, Q2], [Q2, Q3] e [Q3, max]. Tal comparacao e
possvel gracas ao fato que em cada um destes intervalos ha
exatamente 25% de todas as observac
oes da amostra.
No presente caso, o box-plot revela que a densidade diminui-se
conforme os valores das observac
oes crescem de 0 a 1. Entretanto,
nao da para deduzir, a partir da cara do box-plot, que a diminuicao
e linear (fato que se ve da cara da distribuicao populacional, pois
sua funcao-densidade decai linearmente no intervalo [0, 1]), pois os
comprimentos dos quatro intervalos do box-plot nao aumentam
linearmente, e ainda deve ser dito, que mesmo se aumentassem,
ainda nao poderiamos alegar definitivamente que a populacao
possua o decaimento linear; digo que nao poderiamos, pois os
intervalos comparados sao do box-plot da amostra, e sabe-se que
os quantis dela podem diverger-se dos respectivos quantis da
populacao.

Amostragem. Exemplos.
O histograma feito com baso nos dados da amostra confirma que a
densidade de populacional decresce no intervalo de valores de 0 a
1. Agora, ha mais evidencias que o decaimento possa ser linear, e
caso isto for um fato muito importante para a continuacao de,
digamos, pesquisa baseada na distribuicao populacional, poderiam
assumir esta lineariedade.
Se formos comparar o comportamento da funcao-densidade da
populacao com o do histograma oriundo da amostra, percebemos a
divergencia dos comportamentos na vizinhaca de 1: a
funcao-densidade bica o ponto 1 no eixo de abcissas, ja o
histograma se comporta mais suavelmente na vizinhaca deste
ponto. Esta diferenca da-se devido a, talvez, escolha infeliz para as
amplitudes de classes na construcao do histograma: se as
amplitudes fossem menores, veriamos aquele bico notado na
funcao-densidade tambem no histograma.

Amostragem. Exemplos.
(b) A distribuicao populacional e Beta(3,3):

2, 4
2, 2
2, 0
1, 8
1, 6
1, 4
1, 2
1, 0
0, 8
0, 6
0, 4
0, 2
0.0 0.2 0.4 0.6 0.8 1.0

` esquerda, encontra-se o
A
grafico (em vermelho) da
funcao-densidade da distribuicao contnua chamada
desta distriBeta(3,3). E
buicao que, via a simulacao
repetida 100 vezes, veio a
amostra a ser tratada no presente exemplo. A distribuicao
Beta(3,3) e, entao, a distribuicao populacional, e as
suas formas basicas e aquilo
sobre o qual finjimos de nao
conhecer nada e queremos
adivinhar algo com base
na iformacao que podemos
exprimir da amostra.

Amostragem. Exemplos.
Min.
0.066

Quartil 1
0.378

Mediana
0.470

Quartil 3
0.579

Histograma
quartil 1
mediana
quartil 3

1.5
1.0
0.5
0.0

Densidade

2.0

2.5

0.0

0.2

0.4

0.6

0.8

0.2

0.4

0.6

0.8

1.0

Max.
0.937

Amostragem. Exemplos.
O box-plot indica que os 50% das observac
oes centrais (quer dizer,
as observacoes que se encontram entre Q1 e Q3) estao mais
concentradas que as que ficam nas duas caudas. Isto sugere (mas
nao demonstra) que a distribuicao tem a forma de sino. O box-plot
ficou relativamente simetrico e isto sugere que o sino da
distribuicao tambem e simetrico.
O histograma confirma nossa suspeita sobre a forma de sino.
Observe que o sino do histograma esta lascado (a depressao no
meio). Se estivessemos somente com a amostra, nao poderiamos
deduzir se a depressao esteja presente tambem na distribuicao da
populacao. No presente caso, entretanto, temos a distribuicao
populacional e podem confirmar a ausencia de qualquer depressao
nela. Isto mostra que amostra pode errar e que nao e sempre que
podemos extrar dela as propriedades sutis presentes na distribuicao
populacional. Notamos tambem que a lasca presente no
histograma sentida pelo box-plot. Isto confirma a vista grossa
que temos pela lente de box-plot, mas, ao mesmo tempo, indica
que em certos casos, o box-plot e melhor que o histograma.

Você também pode gostar