Escolar Documentos
Profissional Documentos
Cultura Documentos
suas caratersticas
e emprego para inferencias sobre distribuicao
populacional
Ministrante Prof. Dr. Vladimir Belitsky, IME-USP
Amostragem.
Recorde a populacao de um vilarejo na Alaska. Recorde a
distribuicao de frequencias (absolutas) pela idade que fizemos ao
intervistar cada pessoa da populacao. Esta intervista nos deu a tal
de distribuicao populacional:
0
1
12
2
28
2
46
1
1
3
13
1
29
1
47
1
2
3
15
1
30
1
48
1
3
2
16
2
31
2
49
1
4
3
17
2
32
2
50
2
5
3
21
2
33
2
51
1
6
4
22
1
34
1
52
1
7
2
23
1
36
1
53
1
8
2
24
1
39
1
54
1
9
1
25
2
41
1
55
1
10
3
26
1
42
1
56
1
11
3
27
2
45
1
63
1
Amostragem.
Escolher uma pessoa de uma populacao ao acaso significa:
() sem tendencia, sem preferencia, sem vies (direto ou indireto,
por exemplo, fazendo a escolha ao meio dia), etc.
O modelo da escolha ao acaso: apresentar cada pessoa por uma
bola (as bolas sao identicas no tato, e em cada bola ha o nome da
pessoa representada), misturar bem as bolas (), e retirar uma
bola da urna, sem olhar dentro dela.
Percebe-se que () significa, em palavras compreencveis para os
quem entende os conceitos da Teoria de Probabilidades, que :
a probabilidade de escolher qualquer pessoa da populacao e a
mesma para cada pessoa (e e igual a (tamanho da populacao)1 ).
Amostragem.
Suponha que proferimos a amostragem e observamos e anotamos a
idade da pessoa escolhida. Suponha que a bola escolhida foi
devolvida `a urna e as bolas foram misturadas () novamente.
Amostragem.
A cada amostra pode ser feita sua distribuic
ao amostral. Eis um
exemplo: n = 27,
1, 32, 54, 27, 1, . . . , 28
0
0/1
12
0/2
28
2/2
46
0/1
1
2/3
13
1/1
29
0/1
47
0/1
2
3/3
15
0/1
30
1/1
48
1/1
3
1/2
16
0/2
31
1/2
49
1/1
4
0/3
17
2/2
32
1/2
50
1/2
5
1/3
21
0/2
33
0/2
51
0/1
6
1/4
22
1/1
34
0/1
52
0/1
7
0/2
23
0/1
36
0/1
53
0/1
8
1/2
24
0/1
39
1/1
54
2/1
9
0/1
25
0/2
41
1/1
55
0/1
10
1/3
26
0/1
42
0/1
56
0/1
11
0/3
27
1/2
45
0/1
63
0/1
Amostragem.
Cada amostra e um conjunto, e para ele existe a distribuicao de
frequencia por seus valores que chama-se distribuic
ao amostral.
Tipicamente, N (o tamanho da populacao) e muito, muito, muito
grande, fato que inibe a construcao direta da distribuicao
populacional. Entao, se faz uma amostra de tamanho n
(tipicamente menor que N) razoavel para que a amostra seja
factivel.
Conforme n crescer (ao infinito e alem) as frequencias relativas da
distribuicao amostral convergem para as frequencias relativas da
distribuicao populacional. Isto e um fato que pode ser derivado da
definicao da probabilidade.
Amostragem.
Amostragem.
Uma das caratersticas importantes da distribuicao populacional
(sua importancia sera confirmada por assuntos do curso a serem
tratados no futuro) e a media populacional:
xpopulacional =
x1 + . . . + xN
, a ser abreviada xp
N
x1 + . . . + xn
, a ser abreviada xa
n
Amostragem.
Uma das caratersticas importantes da distribuicao populacional
(sua importancia sera confirmada por assuntos do curso a serem
tratados no futuro) e a variancia populacional:
2 =
(x1 xp )2 + . . . + (xN xp )2
N
(x1 xa )2 + . . . + (xn xa )2
n1
Amostragem.
O denominador n 1 na f
ormula para a variancia amostral nos
avisa: ha coisas serias na questao da bondade de aproximacao.
Veja na lousa minha tentativa da explicacao para a razao de
termos n 1. Este assunto, entretanto, nao e obrigatorio e nao
sera cobrado em provas e exerccios.
Amostragem.
Uma das caratersticas importantes da distribuicao populacional
natural
(sua importancia sera tratada nesta aula) e seu quantil. E
que o quantil de ordem p da populacao seja estimado pelo quantil
da mesma ordem da amostra.
Vejamos a mediana. A estimacao sugerida parece ser mais robusta
(estavel) que a estimacao da media:
2, 55, 45, 7, 2, 29, 20
2, 55, 45, 1, 2, 29, 20
razoavel que as flutuac
E
oes na amostra nao afetem por muito o
valor da mediana.
O mesmo pode ser dito sobre quantis de ordem p quando p nao e
muito pequeno e nao muito grande.
Como uma das consequencias, ha um metodo chamado Q-Q-plot
(desenho quantil-a-quantil) que utiliza-se para confirmar/rejeitar a
hipotese que a distribuicao populacional tenha um formato
especfico (por exemplo, da distribuicao normal).
Amostragem.
Amostragem.
As vezes, desejamos sugerir ou confirmar que a distribuicao
populacional tenha ou nao uma certa propriedade. Nestes casos,
comumente faz-se o uso do box-plot e/ou do histograma da
distribuicao amostral.
A razao e clara: os agrupamentos intrinsicos na construcao do
box-plot e do histograma ofuscam as flutuacao indesejaveis
presentes na amostra e fazem estes a parecer com os seus
respectivos parentes da distribuicao populacional.
No exemplo abaixo, a tarefa e comparar propriedades das
distribuicoes correspondentes a duas populac
oes. A comparacao e,
tipicamente, uma tarefa simples, pois nao precismos provar que
cada uma das comparadas possue tal propriedade; queremos e so
dizer que se as duas possuam, entao numa delas tal propriedade e
mais forte, ou mais expressiva.
Ja nos dois exemplos encontrados no final desta aula, a tarefa e
adivinhar se ha algo especfico na distribuicao populacional. Voce
vera que escolher entre sim, nao e talvez exige mais
cuidados que a tarefa de fazer comparacao.
Amostragem. Um exemplo.
Um estudo para avaliar o grau de competitividade em jogos de
basquete durante os XV Jogos Pan-americanos realizados no Rio
de Janeiro considera como competitividade a diferenca entre a
pontuacao do vencedor em relacao `a do perdedor (quanto menor a
diferenca, mais competitivo e o jogo). Na tabela abaixo, essa
diferenca e apresentada para todos os jogos, nas modalidades
feminino e masculino.
Diferenca de pontuacao em jogos de basquete Feminino (20 jogos):
54, 2, 13, 11, 23, 13, 2, 15, 1, 12, 14, 7, 28, 12, 44, 19, 31, 16, 12,
7.
Diferenca de pontuacao em jogos de basquete Masculino (19
jogos):
19, 7, 6, 5, 3, 21, 5, 3, 3, 9, 8, 5, 1, 35, 9, 8, 12, 2, 26
Compare as modalidades com relacao `a diferenca de pontuacao,
utilizando media, mediana, variancia, desvio padrao, coeficiente de
variacao e box-plot.
Amostragem. Um exemplo.
Amostragem. Um exemplo.
Um estudo para avaliar o grau de competitividade em jogos de
basquete da liga paulista de basquete considera como
competitividade a diferenca entre a pontuacao do vencedor em
relacao `a do perdedor (quanto menor a diferenca, mais competitivo
e o jogo). Na tabela abaixo, essa diferenca e apresentada para
duas amostras dos jogos, nas modalidades feminino e masculino.
Diferenca de pontuacao em jogos de basquete Feminino (20 jogos):
54, 2, 13, 11, 23, 13, 2, 15, 1, 12, 14, 7, 28, 12, 44, 19, 31, 16, 12,
7.
Diferenca de pontuacao em jogos de basquete Masculino (19
jogos):
19, 7, 6, 5, 3, 21, 5, 3, 3, 9, 8, 5, 1, 35, 9, 8, 12, 2, 26
Compare as modalidades com relacao `a diferenca de pontuacao,
utilizando media, mediana, variancia, desvio padrao, coeficiente de
variacao e box-plot calculados para as amostras.
Amostragem. Um exemplo.
Caluclos auxiliares para a construcao dos box-plots:
Min.
1.0
Max.
54.0
Min.
1.000
Max.
35.000
Amostragem. Um exemplo.
50
40
30
10
20
Amostragem e simulacao.
Amostragem e simulac
ao sao dois termos para a mesma coisa!
Isto me permite usar a simulacao para estudar (e/ou ensinar) como
amostra possa ser usada para adivinhar a distribuicao da populacao
de onde adveio a amostra.
Amostragem. Exemplos.
Amostragem. Exemplos.
(a) A distribuicao populacional e Beta(1,2):
2, 4
2, 2
2, 0
1, 8
1, 6
1, 4
1, 2
1, 0
0, 8
0, 6
0, 4
0, 2
0.0 0.2 0.4 0.6 0.8 1.0
` esquerda, encontra-se o
A
grafico (em vermelho) da
funcao-densidade da distribuicao contnua chamada
desta distriBeta(1,2). E
buicao que, via a simulacao
repetida 100 vezes, veio a
amostra a ser tratada no presente exemplo. A distribuicao
Beta(1,2) e, entao, a distribuicao populacional, e as
suas formas basicas e aquilo
sobre o qual finjimos de nao
conhecer nada e queremos
adivinhar algo com base
na iformacao que podemos
exprimir da amostra.
Amostragem. Exemplos.
Min.
0.001
Quartil 1
0.138
Mediana
0.280
Quartil 3
0.496
2.0
Histograma
quartil 1
mediana
quartil 3
1.0
0.5
0.0
Densidade
1.5
0.0
0.2
0.4
0.6
0.8
0.0
0.2
0.4
0.6
0.8
Max.
0.897
Amostragem. Exemplos.
O box-plot permite comparar as densidade/concentracoes das
observacoes da amostra, e, portanto, da populacao, nos intervalors
[min, Q1], [Q1, Q2], [Q2, Q3] e [Q3, max]. Tal comparacao e
possvel gracas ao fato que em cada um destes intervalos ha
exatamente 25% de todas as observac
oes da amostra.
No presente caso, o box-plot revela que a densidade diminui-se
conforme os valores das observac
oes crescem de 0 a 1. Entretanto,
nao da para deduzir, a partir da cara do box-plot, que a diminuicao
e linear (fato que se ve da cara da distribuicao populacional, pois
sua funcao-densidade decai linearmente no intervalo [0, 1]), pois os
comprimentos dos quatro intervalos do box-plot nao aumentam
linearmente, e ainda deve ser dito, que mesmo se aumentassem,
ainda nao poderiamos alegar definitivamente que a populacao
possua o decaimento linear; digo que nao poderiamos, pois os
intervalos comparados sao do box-plot da amostra, e sabe-se que
os quantis dela podem diverger-se dos respectivos quantis da
populacao.
Amostragem. Exemplos.
O histograma feito com baso nos dados da amostra confirma que a
densidade de populacional decresce no intervalo de valores de 0 a
1. Agora, ha mais evidencias que o decaimento possa ser linear, e
caso isto for um fato muito importante para a continuacao de,
digamos, pesquisa baseada na distribuicao populacional, poderiam
assumir esta lineariedade.
Se formos comparar o comportamento da funcao-densidade da
populacao com o do histograma oriundo da amostra, percebemos a
divergencia dos comportamentos na vizinhaca de 1: a
funcao-densidade bica o ponto 1 no eixo de abcissas, ja o
histograma se comporta mais suavelmente na vizinhaca deste
ponto. Esta diferenca da-se devido a, talvez, escolha infeliz para as
amplitudes de classes na construcao do histograma: se as
amplitudes fossem menores, veriamos aquele bico notado na
funcao-densidade tambem no histograma.
Amostragem. Exemplos.
(b) A distribuicao populacional e Beta(3,3):
2, 4
2, 2
2, 0
1, 8
1, 6
1, 4
1, 2
1, 0
0, 8
0, 6
0, 4
0, 2
0.0 0.2 0.4 0.6 0.8 1.0
` esquerda, encontra-se o
A
grafico (em vermelho) da
funcao-densidade da distribuicao contnua chamada
desta distriBeta(3,3). E
buicao que, via a simulacao
repetida 100 vezes, veio a
amostra a ser tratada no presente exemplo. A distribuicao
Beta(3,3) e, entao, a distribuicao populacional, e as
suas formas basicas e aquilo
sobre o qual finjimos de nao
conhecer nada e queremos
adivinhar algo com base
na iformacao que podemos
exprimir da amostra.
Amostragem. Exemplos.
Min.
0.066
Quartil 1
0.378
Mediana
0.470
Quartil 3
0.579
Histograma
quartil 1
mediana
quartil 3
1.5
1.0
0.5
0.0
Densidade
2.0
2.5
0.0
0.2
0.4
0.6
0.8
0.2
0.4
0.6
0.8
1.0
Max.
0.937
Amostragem. Exemplos.
O box-plot indica que os 50% das observac
oes centrais (quer dizer,
as observacoes que se encontram entre Q1 e Q3) estao mais
concentradas que as que ficam nas duas caudas. Isto sugere (mas
nao demonstra) que a distribuicao tem a forma de sino. O box-plot
ficou relativamente simetrico e isto sugere que o sino da
distribuicao tambem e simetrico.
O histograma confirma nossa suspeita sobre a forma de sino.
Observe que o sino do histograma esta lascado (a depressao no
meio). Se estivessemos somente com a amostra, nao poderiamos
deduzir se a depressao esteja presente tambem na distribuicao da
populacao. No presente caso, entretanto, temos a distribuicao
populacional e podem confirmar a ausencia de qualquer depressao
nela. Isto mostra que amostra pode errar e que nao e sempre que
podemos extrar dela as propriedades sutis presentes na distribuicao
populacional. Notamos tambem que a lasca presente no
histograma sentida pelo box-plot. Isto confirma a vista grossa
que temos pela lente de box-plot, mas, ao mesmo tempo, indica
que em certos casos, o box-plot e melhor que o histograma.