Escolar Documentos
Profissional Documentos
Cultura Documentos
Modulo1 Int AmostragemFinal
Modulo1 Int AmostragemFinal
Introduo amostragem
1 - Introduo1
No uma tarefa simples definir o que a Estatstica. Por vezes define-se como sendo
um conjunto de tcnicas de tratamento de dados, mas muito mais do que isso! A
Estatstica uma "arte" e uma cincia que permite tirar concluses e de uma maneira
geral fazer inferncias a partir de conjuntos de dados.
At 1900, a Estatstica resumia-se ao que hoje em dia se chama Estatstica Descritiva
ou Anlise de Dados. Apesar de tudo, deu contribuies muito positivas em vrias
reas cientficas.
A necessidade de uma maior formalizao nos mtodos utilizados, fez com que, nos
anos seguintes, a Estatstica se desenvolvesse numa outra direco, nomeadamente
no que diz respeito ao desenvolvimento de mtodos e tcnicas de Inferncia
Estatstica. Assim, por volta de 1960 os textos de Estatstica debruam-se
especialmente sobre mtodos de estimao e de testes de hipteses, assumindo
determinadas famlias de modelos, descurando os aspectos prticos da anlise dos
dados.
Porm, na ltima dcada, em grande parte devido s facilidades computacionais
postas sua disposio, os Estatsticos tm-se vindo a preocupar cada vez mais, com
a necessidade de desenvolver mtodos de anlise e explorao dos dados, que dem
uma maior importncia aos dados e que se traduz na seguinte frase "Devemos deixar
os dados falar por si".
Do que dissemos anteriormente, podemo-nos aperceber que a Estatstica uma
cincia que trata de dados e que num procedimento estatstico esto envolvidas duas
fases importantes, nomeadamente a fase que diz respeito organizao de dados Anlise de Dados, e a fase em que se procura retirar concluses a partir dos dados,
dando ainda informao de qual a confiana que devemos atribuir a essas concluses Inferncia Estatstica. Existe, no entanto, uma fase pioneira, que diz respeito
Produo ou Aquisio de Dados. Para realar a importncia desta fase
consideremos, por analogia, o que se passa quando se pretende realizar um
determinado cozinhado. Comea-se por seleccionar os ingredientes, que sero depois
manipulados de acordo com determinada receita. O resultado do cozinhado pode ser
desastroso, embora de aspecto agradvel. Efectivamente se os ingredientes no
estiverem em condies, resulta um prato de aspecto semelhante ao que se obteria
com ingredientes bons, mas de sabor intragvel. O mesmo se passa com o
procedimento estatstico. Se os dados no forem bons, embora se aplique a tcnica
correcta, o resultado pode ser desastroso, na medida em que se pode ser levado e
retirar concluses erradas.
Esta seco segue de perto o texto Introduo s Probabilidades e Estatstica de Maria Eugnia Graa
Martins, Edio da Sociedade Portuguesa de Estatstica, 2005.
Introduo Amostragem
Hoje em dia com a utilizao cada vez maior de dados nas mais variadas profisses e
nas mais diversas situaes do dia a dia, torna-se necessrio acompanhar este
processo de uma cultura estatstica que cada vez mais abarque um maior nmero de
pessoas, para que mais facilmente se consiga compreender o mundo que nos rodeia.
Sendo a Estatstica a cincia que trata dos dados, gostaramos desde j de chamar a
ateno para que fazer estatstica muito mais do que fazer clculos e manipular
frmulas. Tambm no matemtica, embora utilize a matemtica. Efectivamente, ao
fazer estatstica trabalhamos com dados, que so mais do que nmeros! Como diz
David Moore (1997) " Data are numbers, but they are not "just numbers". Data are
numbers with a context. The number 10.5, for example, carries no information by
itself. But if we hear that a friend's new baby weighed 10.5 pounds at birth, we
congratulate her on the healthy size of the child. The context engages our background
knowledge and allows us to make judgements. We know that a baby weighing 10.5
pounds is quite large, and that it isn't possible for a human baby to weigh 10.5 ounces
or 10.5 kilograms. The context makes the number informative".
Da experincia que temos no dia a dia com os dados j conclumos, com certeza, que
estes apresentam variabilidade. Por exemplo comum que um pacote de acar que
na embalagem tenha escrito um quilograma, no pese exactamente um quilograma.
Por outro lado ao pesar duas vezes o mesmo pacote, possivelmente no obteremos o
mesmo valor. Assim, ao dizermos que o peso do pacote um determinado valor, no
podemos ter a certeza que esse valor seja correcto. Esta variabilidade est presente
em todas as situaes do mundo que nos rodeia, pelo que as concluses que tiramos a
partir dos dados que se nos apresentam, tm inerente um certo grau de incerteza.
A Estatstica trata e estuda esta variabilidade apresentada pelos dados. Permite-nos a
partir dos dados retirar concluses, mas tambm exprimir o grau de confiana que
devemos ter nessas concluses. precisamente nesta particularidade que se manifesta
toda a potencialidade da Estatstica.
Podemos ento, e tal como refere David Moore em Perspectives on Contemporary
Statistics, considerar trs grandes reas nesta cincia dos dados:
Aquisio de dados
Neste mdulo vamos abordar o primeiro tema considerado, ou seja o que diz respeito
Aquisio de Dados, numa perspectiva em que pretendemos obter dados, a partir
dos quais seja possvel responder a determinadas questes, isto , posteriormente
retirar concluses para as Populaes a partir das quais esses dados so adquiridos
contexto em que tem sentido fazer inferncia estatstica. Vamos assim, preocupar-nos
em obter amostras representativas de Populaes que se pretendem estudar.
Introduo Amostragem
Populao e
O mundo que nos rodeia ser mais facilmente compreendido se puder ser quantificado.
Em todas as reas do conhecimento necessrio saber o que medir e como medir.
Na Estatstica ensina-se a recolher dados vlidos, assim como a interpret-los.
Perante um conjunto de dados podem-se distinguir duas situaes:
Uma outra em que procede anlise de dados com propsitos bem definidos no
sentido de responder a questes especficas. Neste caso os dados tm que ser
produzidos ou adquiridos por meio de tcnicas adequadas de forma a que resultem
dados vlidos (amostras representativas). Estas tcnicas, em que fundamental a
interveno do acaso, revolucionaram e fizeram progredir a maior parte dos
campos da cincia aplicada. Pode-se dizer que hoje em dia no existe rea do
conhecimento para cujo progresso no tenha contribudo a Estatstica.
Introduo Amostragem
Introduo Amostragem
Para conhecer aqueles parmetros, teria de se perguntar a cada eleitor a sua idade,
assim como a sua inteno no que diz respeito a votar ou no. Esta tarefa seria
impraticvel, nomeadamente por questes de tempo e de dinheiro.
Os parmetros so estimados por estatsticas, que so nmeros que se calculam a
partir dos valores da amostra. Como, de um modo geral, podemos recolher muitas
amostras diferentes, embora da mesma dimenso, teremos muitas estatsticas
diferentes, como estimativas do parmetro em estudo. Tantas as amostras diferentes
(2 amostras da amesma dimenso sero diferentes se diferirem pelo menos num dos
elementos) que se puderem obter da populao, tantas as estimativas eventualmente
diferentes que se podem calcular para o parmetro. Ento podemos considerar que
todas estas estimativas so os valores observados de uma funo dos elementos da
amostra, a que se d o nome de estimador. A esta funo tambm se d o nome de
estatstica, utilizando-se assim, indevidamente, o mesmo termo para a varivel e o
valor observado da varivel.
No caso do exemplo anterior, se estivermos interessados em estimar o parmetro ou
proporo populacional "percentagem de eleitores que esto decididos a votar" atravs
de amostras de dimenso 1000, o estimador ser a proporo amostral "percentagem
de eleitores, em 1000, que interrogados disserem estar decididos a votar". Quando se
efectivar a recolha de uma amostra (de dimenso 1000) e se, por exemplo, se concluir
que 578 eleitores esto decididos a votar, ento uma estimativa do parmetro em
estudo 57,8%. estimativa tambm se chama estatstica. Assim, depender do
contexto, interpretar a palavra estatstica como uma funo dos valores da amostra
(estimador) ou j o valor observado dessa funo para uma determinada amostra
(estimativa). nesta perspectiva que se pode dizer que:
Um parmetro uma caracterstica numrica da Populao, enquanto que a
estatstica uma caracterstica numrica da amostra.
Introduo Amostragem
embora difira de amostra para amostra, mas que todavia pode ser considerada uma
estimativa til da caracterstica populacional respectiva.
Populao
Amostra
Parmetro
Estatstica
Exemplos
1. Se estivermos interessados em estudar a mdia obtida no exame nacional de
Matemtica, no ano lectivo 2006-2007, ento a populao a estudar
constituda por todos os alunos que fizeram o exame nacional de Matemtica
nesse ano lectivo. Estamos interessados em conhecer o valor do parmetro valor mdio da varivel Nota do exame nacional de Matemtica. Para obter
uma estimativa deste parmetro, seleccionam-se alguns alunos que tenham
feito o exame, regista-se a nota obtida por cada um e calcula-se a mdia
dessas notas. O valor obtido uma estimativa do parmetro desconhecido. Por
exemplo, se seleccionarmos 10 alunos e as notas obtidas por esses 10 alunos
fossem (numa escala de 0 a 200):
125, 97, 58, 29, 101, 65, 107, 37, 29, 127
ento uma estimativa para o parmetro valor mdio das notas no exame de
Matemtica seria 77,5=
. O valor 77,5,
Introduo Amostragem
Introduo Amostragem
Introduo Amostragem
Amostra 4 - Utilizar alguns alunos de uma turma, para tirar concluses sobre o
aproveitamento de todos os alunos da escola.
Resultado - Poderamos concluir que o aproveitamento dos alunos pior ou
melhor do que na realidade . As turmas de uma escola no so todas
homogneas, pelo que a amostra no representativa dos alunos da escola.
Poderia servir para tirar concluses sobre a populao constituda pelos alunos
da turma.
10
Introduo Amostragem
N
conjuntos diferentes de n unidades, teria igual
n
N
a mesma probabilidade, igual a
n
de ser seleccionada.
A seleco dos elementos da amostra pode ser feita em bloco ou pode ser escolhida
sequencialmente da populao, escolhendo um elemento de cada vez, sem
reposio, pelo que em cada seleco cada elemento tem a mesma probabilidade de
ser seleccionado. Tendo em considerao as probabilidades de escolher estes
elementos (sequencialmente), confirma-se que a probabilidade de cada amostra
N
n
1 elemento
2 elemento
3 elemento
n
N
n 1
N 1
n2
N 2
...
...
e-nsimo elemento
n (n 1)
=
N (N 1)
Probabilidade da amostra
n! (N n)!
1
=
N!
N
n
Ser que um esquema de amostragem aleatria simples implica que cada elemento da
Populao tenha igual probabilidade de ser seleccionado?
Sim. Um esquema de amostragem aleatria simples, conduz a que cada elemento da
Populao tenha a mesma probabilidade de ser seleccionado para a amostra, podendose demonstrar que igual a
n
N
,
nmero de amostras de n elementos que no contm um qualquer elemento
n
Introduo Amostragem
11
N - 1
n
N
Nn
N
. Ento, a probabilidade
= 143 cm.
A recolha tem de ser feita sem reposio pois quando se retira um papel (elemento
da populao), ele no reposto enquanto a amostra no estiver completa (com a
dimenso desejada). Qualquer conjunto de nmeros recolhidos desta forma dar
origem a uma amostra aleatria simples (desde que se tenha o cuidado de cortar os
bocadinhos de papel todos do mesmo tamanho, para ficarem semelhantes, e de os
baralhar convenientemente), constituda pelas alturas dos alunos seleccionados. A
partir de cada amostra, pode-se calcular o valor da estatstica mdia, que ser uma
estimativa do parmetro a estudar - valor mdio da altura dos alunos da turma. Obterse-o tantas estimativas, quantas as amostras retiradas.
Chama-se a ateno para o facto de nesta fase no se poder dizer qual das estimativas
"melhor", isto , qual delas a melhor aproximao do parmetro a estimar, j que
esse parmetro desconhecido (obviamente que nesta populao to pequena seria
possvel estudar exaustivamente todos os seus elementos, no sendo necessrio
recolher nenhuma amostra - este exemplo s serve para ilustrar uma situao)!
12
Introduo Amostragem
Este processo pode ser generalizado para qualquer dimenso da Populao e qualquer
dimenso da amostra.
O nmero de amostras aleatrias simples, de dimenso 5, que se podem extrair de
18
).
5
Introduo Amostragem
13
j=1
Nn N1 = Nn .
j=1
P(Aamostra/
14
Introduo Amostragem
Introduo Amostragem
15
Mais frente diremos o que se entende por uma populao muito grande.
16
Introduo Amostragem
A probabilidade de cada uma das amostras ser seleccionada igual a 1/Nn. Fazendo
um esquema idntico ao considerado para obter a probabilidade de uma amostra
aleatria simples, temos, agora para o caso da seleco ser feita com reposio:
1 elemento
2 elemento
1
N
3 elemento
1
N
...
...
e-nsimo elemento
Probabilidade da amostra
1
N
1
Nn
Introduo Amostragem
17
Na tabela anterior a coluna das idades foi acrescentada, tendo a idade de cada
deputado sido calculada data de 31/12/2007.
Admitamos que estamos interessados em estimar o parmetro idade mdia dos
deputados, a partir de amostras de dimenso 10. Vamos exemplificar a utilizao do
Excel, na obteno de uma amostra aleatria, com reposio. Consideraremos dois
processos: num dos processos utilizaremos a funo Sampling e no outro a funo
Randbetween.
Processo de seleco da amostra aleatria com reposio, utilizando a funo
Sampling
Para utilizar este procedimento tem de se comear por verificar nos Tools se existe a
opo Data Analysis. Caso no exista tem de se instalar, para o que basta aceder ao
menu Tools, escolher o comando Add-Ins e seleccionar a opo Analysis ToolPack e
clicar OK.
Processo de seleco da amostar:
a) Seleccione Tools Data Analysis Sampling.
Na janela que se abre
18
Introduo Amostragem
Introduo Amostragem
19
20
Introduo Amostragem
Esta funo vai devolver o valor 41, que a idade do deputado nmero 127.
Replicamos esta frmula pelas clulas I3:I11, obtendo as idades dos 10
deputados seleccionados:
Introduo Amostragem
21
22
Introduo Amostragem
Exerccios
1.1 - Populao, Amostra, Varivel de interesse, Parmetro de interesse,
Estatstica utilizada
Identifique, no que se segue, Populao e Amostra:
a) Numa determinada empresa, pretende-se saber qual o salrio mdio dos seus
empregados, pelo que se recolheu informao sobre os salrios mensais, auferidos
pelos empregados dessa empresa;
anterior.
Parmetro salrio mdio dos empregados. Como se recolheu informao sobre o salrio de todos
os empregados, a mdia dos valores obtidos d o valor do salrio mdio pretendido.
b) Prendia-se saber a nota mdia obtida na prova global de Matemtica no ano lectivo
2000-2001, dos alunos do 10 ano da Escola Secundria Prof. Herculano de Carvalho,
pelo que se recolheu informao sobre as notas obtidas nessa disciplina por todos os
alunos da Escola;
Populao alunos do 10 ano, que realizaram a prova global de Matemtica no ano lectivo 20002001.
Varivel de interesse - Nota obtida por um aluno, escolhido ao acaso, da populao anterior.
Parmetro nota mdia obtida pelos alunos da populao anterior. Como se recolheu informao
sobre a nota de todos os alunos, a mdia destas notas d o valor da nota mdia pretendida.
Populao - alunos do 10 ano da Escola Secundria Prof. Herculano de Carvalho, no ano lectivo
2007/2008.
Varivel de interesse - Idade de um aluno, escolhido ao acaso, da populao anterior.
Parmetro idade mdia dos alunos do 10 ano da Escola Secundria Prof. Herculano de Carvalho,
esses indivduos .
Estatstica - A mdia das idades dos 45 alunos a estatstica que se utiliza como estimatva do
parmetro pretendido, ou seja, da idade mdia.
Parmetro quantidade total de litros produzida pelos agricultores do Alentejo no ano de 1999.
Amostra quantidades de litros produzidas pelos 10 agricultores seleccionados.
Estatstica - mdia das quantidades de litros produzidas pelos 10 agricultores, vezes o nmero total
de agricultores da populao considerada.
anterior.
Parmetro salrio mdio auferido pelos trabalhadores da indstria txtil.
Introduo Amostragem
23
f) Pretendia-se averiguar a quantidade mensal (em kg) de batata consumida nos lares
portugueses, pelo que se recolheu informao sobre as quantidades de batata
consumidas mensalmente em 100 lares portugueses;
Estatstica nmero total de leitores dos 6 jornais seleccionados para a amostra vezes N/6, em que
N o nmero de jornais dirios.
Populao conjunto dos alunos que frequentam a FCUL, no ano lectivo de 2007/2008.
Parmetro percentagem de raparigas na populao anterior.
Parmetro e Estatstica
1.2 - Diga se so verdadeiras ou falsas as seguintes afirmaes:
a) Uma estatstica um nmero que se calcula a partir dos dados da amostra;
Verdadeiro (Chamamos, no entanto, a ateno para o facto de tambm interpretarmos estatstica como uma
funo que s depende dos valores da amostra e no depende de parmetros desconhecidos. Ao valor
observado desta funo, para uma dada amostra que se observou, tambm usual dar o nome de
estatstica. Assim, neste caso, estatstica seria um nmero).
1.3 - Identifique cada uma das quantidades seguintes, a carregado, como parmetro
ou estatstica:
24
Introduo Amostragem
b) Para obter uma estimativa do nmero de irmos dos alunos que frequentam o 4
ano de uma escola bsica, perguntou-se a 30 alunos, escolhidos ao acaso, quantos
irmos tinham. Verificou-se que em mdia, tinham 1.5 irmos.
Estatstica.
c) Dos 230 deputados que compunham a VIII legislatura, 21.3% eram mulheres.
Parmetro.
d) Perguntou-se a 80 deputados qual o partido que representavam, tendo-se concludo
que 49% representavam o PS.
Estatstica. (A populao constituda por 230 deputados).
e) Perguntou-se a 10 deputados qual a sua idade, tendo-se concludo que a mdia das
idades era de 45 anos.
Estatstica.
1.5 - Para que uma amostra seja representativa da populao, basta que cada
elemento da populao tenha igual probabilidade de ser seleccionado?
No. Pode acontecer que cada elemento da populao tenha igual probabilidade de ser seleccionado e no
entanto a amostra no ser representativa. Considere por exemplo uma populao constituda por um certo
nmero de estratos, com igual nmero de elementos: por exemplo, uma populao constituda por 6
estratos, estrato 1, estrato 2, ..., estrato 6, com igual nmero de elementos. Lana um dado e se sair a face
i, com i=1,...,6, selecciona o estrato i. Depois selecciona todos os elementos deste estrato. A amostra
resultante no representativa da populao dada.
Introduo Amostragem
25
Projectos
1 - Numa empresa de 97 trabalhadores, pretende-se seleccionar aleatoriamente 10
trabalhadores para integrarem uma comisso que se encarregar da festa de Natal.
Como sugere que se faa a recolha da amostra? Com ou sem reposio? Explique
porqu. Obtenha uma dessas amostras.
Trabalhadores da empresa
N
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
Nome
Alexandra Almeida
Alexandre Carmo
Alda Morais
Ana Ribeiro
Ana Cristina Santos
Ana Cristina Oliveira
Anabela Pais
Antnio Couto
Antnio Fernandes
Antnio Pinto
Armando Ferreira
Carlos Matos
Carlos Sampaio
Cristina Vicente
Cristina Zita
Dora Ferreira
Elsa Sampaio
Fernando Barroso
Fernando Martins
Fernando Santos
Filomena Silva
Francisco Gomes
Isabel Soares
Isabel Silva
Joo Morais
Joo Sousa
Lus Horta
Lus Sousa
Lus Ribeiro
Manuel Santos
Manuel Pereira
Manuel Teixeira
Margarida Almeida
N
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
Nome
Margarida Simes
M. Adelina Azevedo
M. Alexandra Almeida
M. Alexandra Ribeiro
M. Cristina Carvalho
M. Cristina Freire
M. de Ftima Osrio
M. Fernanda Rocha
M. Isabel Frade
M. Isabel Santos
M. Lusa Faria
M. Manuel Trindade
M. Manuela Lino
M. Nazar Pinto
M. Neusa Lopes
M. Olga Martins
M. Paula Pitarra
M. Paula Garcs
M. Rosrio Gomes
M. Rute Costa
M. Rute Rita
M. Teresa Antnio
M. Teresa Bento
M. Teresa Garcia
Mrio Martins
Mrio Reis
Nuno Simes
Nuno Ventura
Olga Martins
scar Trigo
Osvaldo
Paulo Nunes
Paulo Martins
N
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
Nome
Paulo Santos
Paulo Valente
Pedro Casanova
Pedro Dalo
Pedro Martins
Pedro Lisboa
Pedro Sintra
Pedro Valente
Pedro Viriato
Rita Amaral
Rita Bendito
Rita vora
Rita Seguro
Rita Valente
Rufo Almeida
Rui Andr
Rui Martins
Rui Teixeira
Rui Vasco
Srgio Teixeira
Slvio Lino
Tnia Lopes
Tnia Martins
Teresa Ado
Teresa Paulo
Teresa Vasco
Vera Mnica
Vera Patrcia
Vera Teixeira
Vitor Santos
Vitor Zinc
A seleco dos 10 trabalhadores dever ser feita sem reposio, porque se se fizer
com reposio o mesmo trabalhador poderia ser seleccionado mais do que uma vez.
Vamos ento proceder seleco de uma amostra aleatria simples, de dimenso 10.
Comemos por considerar um ficheiro em Excel, com os nmeros e nomes dos
trabalhadores e depois utilizmos a seguinte metodologia:
a) Utilizando a funo RAND(), atribumos a cada empregado um nmero aleatrio
(pseudo-aleatrio) que inserimos na coluna C;
b) Como a funo RAND() voltil, utilizando o Paste Special Values, copimos os
valores obtidos anteriormente, para a coluna D;
26
Introduo Amostragem