Você está na página 1de 48

Introduo Inferncia Estatstica

Maria Eugnia Graa Martins Departamento de Estatstica e Investigao Operacional Faculdade de Cincias da Universidade de Lisboa

Abril de 2006

Introduo Inferncia Estatstica

Com este mdulo, pretende-se fazer um pequeno curso introdutrio Inferncia Estatstica. Sero abordados os conceitos necessrios para se chegar de uma forma simples, interpretao e compreenso de certo tipo de informao veiculada pela comunicao social, nomeadamente a que diz respeito s sondagens. Ao escrever estas folhas pensei particularmente nos professores que leccionam a disciplina de Matemtica para as Cincias Sociais, j que correspondem ao contedo programtico desta disciplina. No se pretendem que sejam um substituto de outro tipo de informao utilizada por estes professores, mas sim um complemento. No pretendo apresentar estas folhas como um produto acabado, mas sim como um passo para um trabalho que possa ser continuamente melhorado com as crticas e sugestes, que desde j agradeo, da parte dos meus colegas professores.

Maria Eugnia Graa Martins memartins@fc.ul.pt

ndice 1 1.1 1.2 2 2.1 2.2 2.3 2.3.1 2.3.2 3 4 5 6 6.1 6.1.1 6.1.2 6.1.3 Introduo ................................................................................................ O que a Estatstica?.............................................................................. 4 Probabilidade e Estatstica....................................................................... 5 Inferncia Estatstica................................................................................ 6 Introduo ................................................................................................ 6 Parmetro e Estatstica ............................................................................ 7 Amostra enviesada. Amostra aleatria e no aleatria. Distribuio de amostragem ........................................................................................ 8 Amostra enviesada e amostra aleatria................................................... 8 Distribuio de amostragem..................................................................... 9 Estimador centrado e no centrado (ou enviesado)................................. 11 Tcnicas de amostragem aleatria .......................................................... 13 Qual a dimenso que se deve considerar para a amostra? ..................... 17 Estimao do parmetro valor mdio....................................................... 19 Distribuio de amostragem da Mdia, como estimador do valor mdio . 20 Distribuio de amostragem exacta da Mdia ......................................... 20 Distribuio de amostragem aproximada da Mdia ................................. 23 Como obter a distribuio de amostragem da Mdia?............................. 29 Teorema Limite Central O que uma populao infinita? Algumas consequncias prticas das propriedades da distribuio de amostragem da Mdia ............................................................................. 31 As propriedades do estimador Mdia dependem da dimenso da populao?............................................................................................... 32 Intervalo de confiana para o parmetro valor mdio .............................. 33 Como que se interpreta esta confiana? O que significa? .................... 35 Margem de erro........................................................................................ 39 Estimao do parmetro proporo populacional .................................... 40 Distribuio de amostragem da Proporo amostral, como estimador da proporo populacional ....................................................................... 40 Intervalo de confiana para a proporo populacional p.......................... 42

6.2 6.2.1 7 7.1 7.2

Exerccios ............................................................................................................. 43

Introduo Inferncia Estatstica

Quando a comunicao social, a propsito de uma sondagem, transmite a seguinte notcia1:

Sondagem

10% no sabem quem o Presidente da Repblica


DEZ por cento dos portugueses no sabem quem o Presidente da Repblica e 9 por cento desconhecem a identidade do primeiro-ministro. Uma sondagem de 2000 inquiridos EXPRESSO/Euroexpanso revela ainda ndices mais desoladores para o presidente da Assembleia da Repblica (s identificado por 39 por cento dos inquiridos), para os lderes partidrios (desconhecidos de mais de metade do universo) e para os chefes dos grupos parlamentares (ignorados pela quase totalidade da amostra). Os dados da sondagem mostram ainda que os portugueses no distinguem entre Antnio Guterres/ primeiroministro e Antnio Guterres/secretrio-geral do PS: 91 por cento sabem que ele o chefe de Governo, mas 52 por cento ignoram que ele o lder dos socialistas (ver pg. 7).

Ficha Tcnica
Sondagem efectuada entre os dias 6 e 31 de Janeiro. O universo constitudo pela populao de Portugal Continental, com idades entre os 18 e os 74 anos. A amostra de 1964 indivduos, entrevistados directamente, nas suas residncias, A margem de erro de 1.3%, para uma confiana de 95%.

como interpretamos a ficha tcnica que a acompanha? Com este mdulo pretendemos responder a esta questo. Estaremos aptos a saber interpretar o resultado de uma sondagem, nomeadamente, sabendo o que se entende por confiana, o que a margem de erro, porqu uma amostra de 1964 indivduos, etc.

Exemplo adaptado de uma notcia do Expresso de 15/03/97 4 de 48

Maria Eugnia Graa Martins - DEIO

Introduo Inferncia Estatstica

1 Introduo
1.1 O que a Estatstica? A Estatstica uma cincia que estuda a variabilidade apresentada pelos dados. Permitenos, a partir dos dados retirar concluses, mas tambm exprimir o grau de confiana que devemos ter nessas concluses. precisamente nesta particularidade, que se manifesta toda a potencialidade da Estatstica. Tal como refere David Moore, em Perspectives of Contemporary Statistics, podemos considerar trs grandes reas nesta cincia dos dados: Aquisio de dados Anlise de dados Inferncia a partir dos dados

O tema da Aquisio de dados, merece relevo especial, pois devero ser recolhidos numa perspectiva em que ser a partir da informao que eles fornecem que iremos responder a determinadas questes, isto , retirar concluses para as Populaes subjacentes a esses dados contexto em que tem sentido fazer Inferncia Estatstica.

Maria Eugnia Graa Martins - DEIO

5 de 48

Introduo Inferncia Estatstica

1.2 Probabilidade e Estatstica? A Probabilidade o instrumento que permite ao Estatstico utilizar a informao recolhida da amostra, para descrever ou fazer inferncias sobre a Populao de onde a amostra foi recolhida. Podemos dizer que os objectivos da Probabilidade e da Estatstica so, de certo modo, inversos. Quando assumimos que a Populao conhecida, podemos fazer racioconios que vo do geral para o particular, isto , da Populao para a Amostra. Quando a Populao no conhecida, utilizamos a Estatstica no sentido inverso, isto , para inferir para a Populao resultados observados na Amostra. Exemplo Consideremos a Populao constituda pelos alunos inscritos na FCUL, no ano lectivo de 2005/2006. Relativamente a esta populao, seja p a percentagem de alunos que pratica regularmente desporto. Recolhida uma amostra de 10 alunos, com reposio: se conhecermos o valor de p, por exemplo p=0.298, podemos calcular a probabilidade de haver x alunos, a praticar desporto, nos 10 alunos seleccionados. Para calcular esta probabilidade, basta pensar que a varivel X, que representa o nmero de alunos em 10 que pratica desporto, bem modelada por uma Binomial, neste caso com parmetros 10 e 0.298. Ento, por exemplo, P(X=3) = 0.2668 (Valor calculado no Excel). se no conhecermos o valor de p, vamos utilizar o nmero x de alunos, que praticam desporto, nos 10 seleccionados, para estimar p, e temos um problema de Inferncia Estatstica. Se, por exemplo, x=3, diremos que uma estimativa para p, 0.3. A partir deste valor temos processos que nos permitem tomar uma deciso sobre o parmetro p, quantificando ainda o erro cometido ao tomar essa deciso. No que se segue vamos estudar alguns exemplos de Inferncia Estatstica, nomeadamente no que diz respeito estimao de parmetros, na forma de Intervalos de Confiana.

Maria Eugnia Graa Martins - DEIO

6 de 48

Introduo Inferncia Estatstica

2 Inferncia Estatstica
2.1 Introduo

O que ? Quando se utiliza? Para que serve?

um processo de raciocnio indutivo, em que se procuram tirar concluses indo do particular, para o geral. um tipo de raciocnio contrrio ao tipo de raciocnio matemtico, essencialmente dedutivo. Utiliza-se quando se pretende estudar uma populao, estudando s alguns elementos dessa populao, ou seja, uma amostra. Serve para, a partir das propriedades verificadas na amostra, inferir propriedades para a populao.

Maria Eugnia Graa Martins - DEIO

7 de 48

Introduo Inferncia Estatstica

2.2 Parmetro e estatstica Quando se pretende estimar (obter um valor aproximado) um parmetro - caracterstica numrica da populao, considera-se uma funo conveniente, que s dependa dos valores da amostra estatstica, a que se d o nome de estimador do parmetro em estudo. Ao valor desta funo a que chammos estimador, calculada para uma determinada amostra recolhida, chamamos estimativa. Tambm se utiliza o termo estatstica como significado de estimativa. Surge assim o conceito de estatstica caracterstica numrica da amostra, por oposio a parmetro - caracterstica numrica da populao. No seguinte esquema, procuramos traduzir o processo de Inferncia Estatstica, nomeadamente no que diz respeito estimao de parmetros

Embora, neste curso, no abordemos outros temas que os de estimao de parmetros, a inferncia estatstica dispe de instrumentos poderosos que nos permitem tomar decises de outro tipo. O importante e que convm registar, que as decises que tomamos tm inerente um determinado erro, que pode ser quantificado em termos probabilsticos.

Maria Eugnia Graa Martins - DEIO

8 de 48

Introduo Inferncia Estatstica

2.3 Amostra enviesada. Amostra aleatria e amostra no aleatria. Distribuio de amostragem 2.3.1 Amostra enviesada e amostra aleatria Como dissemos anteriormente, as decises que tomamos tm inerente um determinado erro, erro este que inerente variabilidade presente na amostra que se recolhe, com o objectivo de tomar decises, sobre o parmetro que estamos a estudar. Uma amostra que no seja representativa da Populao diz-se enviesada e a sua utilizao pode dar origem a interpretaes erradas. Um processo de amostragem diz-se enviesado quando tende sistematicamente a seleccionar elementos de alguns segmentos da Populao, e a no seleccionar sistematicamente elementos de outros segmentos da Populao. Surge assim, a necessidade de fazer um planeamento da amostragem, onde se decide quais e como devem ser seleccionados os elementos da Populao, com o fim de serem observados, relativamente caracterstica de interesse. Amostra aleatria e amostra no aleatria Dada uma populao, uma amostra aleatria uma amostra tal que qualquer elemento da populao tem alguma probabilidade de ser seleccionado para a amostra. Numa amostra no aleatria, alguns elementos da populao podem no poder ser seleccionados para a amostra.

Maria Eugnia Graa Martins - DEIO

9 de 48

Introduo Inferncia Estatstica

2.3.2 Distribuio de amostragem Normalmente obtm-se amostras enviesadas quando existe a interveno do factor humano. Com o objectivo de minimizar o enviesamento, no planeamento da escolha da amostra deve ter-se presente o princpio da aleatoriedade de forma a obter uma amostra aleatria. Quando se pretende recolher uma amostra de dimenso n, de uma Populao de dimenso N, podemos recorrer a vrios processos de amostragem. Como o nosso objectivo , a partir das propriedades estudadas na amostra, inferir propriedades para a Populao, gostaramos de obter processos de amostragem que dem origem a bons estimadores e consequentemente boas estimativas. Acontece que as propriedades dos estimadores, como veremos a seguir, s podem ser estudadas se conseguirmos estabelecer um plano de amostragem que atribua a cada amostra seleccionada uma determinada probabilidade, e esta atribuio s pode ser feita com planos de amostragem aleatrios. Assim, importante termos sempre presente o princpio da aleatoriedade, quando vamos proceder a um estudo em que procuramos alargar para a Populao as propriedades estudadas na amostra. O estudo de um estimador feito a partir da sua distribuio de amostragem, ou seja, da distribuio dos valores obtidos pelo estimador, quando se consideram todas as amostras possveis, utilizando um determinado esquema de amostragem.

Maria Eugnia Graa Martins - DEIO

10 de 48

Introduo Inferncia Estatstica

Como se comportam todas estas estimativas, relativamente ao parmetro, em estudo? A resposta dada estudanto a distribuio de amostragem do estimador (no esquea que o estimador uma funo dos elementos da amostra e que para cada amostra que se recolhe, se obtm um valor dessa funo, que se chama estimativa!).

Maria Eugnia Graa Martins - DEIO

11 de 48

Introduo Inferncia Estatstica

3 Estimador centrado e no centrado (ou enviesado)


Quando que dizemos que temos um bom estimador? Uma vez escolhido um plano de amostragem aleatrio, ao pretendermos estimar um parmetro, pode ser possvel utilizar vrias estatsticas (estimadores) diferentes. Por exemplo, quando pretendemos estudar a variabilidade presente numa Populao, que pode ser medida pela varincia populacional 2, sabemos que podemos a partir de uma amostra recolhida (x1, x2, ..., xn), obter duas estimativas diferentes para essa varincia, a partir das expresses
2
n n

(x i x) 2
i =1

s =

n 1

ou

s =

(x
i =1

x) 2

Quais as razes que nos podem levar a preferir uma das estatsticas relativamente outra? Qual o estimador preferido? S2 ou S2? Um critrio que costuma ser aplicado o de escolher um bom estimador como sendo aquele que centrado e que tem uma boa preciso. Escolhido um plano de amostragem, define-se: Estimador centrado Um estimador diz-se centrado quando a mdia das estimativas obtidas para todas as amostras possveis que se podem extrair da Populao, segundo o esquema considerado, coincide com o parmetro a estimar. Quando se tem um estimador centrado, tambm se diz que no enviesado. Uma das razes que nos levam a preferir o estimador S2 para a varincia, relativamente a S2, o facto de no apresentar enviesamento (pelo menos para o plano de amostragem que iremos utilizar). Aparece-nos, novamente a palavra enviesamento, mas noutro contexto. Efectivamente, relacionado com um processo de amostragem e com escolha de um estimador, temos dois tipos de enviesamento: O associado com o processo de amostragem, isto , com a recolha da amostra, em que uma amostra enviesada o resultado do processo de amostragem no ser aleatrio;
Maria Eugnia Graa Martins - DEIO 12 de 48

Introduo Inferncia Estatstica

O associado com o estimador escolhido, para estimar o parmetro em estudo. Se o estimador no for centrado, diz-se que enviesado ou no centrado.

Para se evitar qualquer tipo de enviesamento, necessrio estarmos atentos: primeiro na escolha do plano de amostragem e depois na escolha do estimador utilizado para estimar o parmetro desconhecido. O facto de utilizarmos um estimador centrado, no nos previne contra a obteno de ms estimativas, se o plano de amostragem utilizado sistematicamente favorecer uma parte da Populao (isto , fornecer amostras enviesadas). Por outro lado, temos que ter outra preocupao com o estimador escolhido, que diz respeito preciso: Preciso - Ao utilizar o valor de uma estatstica para estimar um parmetro, temos que cada amostra fornece um valor para a estatstica que se utiliza como estimativa desse parmetro. Estas estimativas no so iguais devido variabilidade presente na amostra. Se, no entanto, os diferentes valores obtidos para a estatstica forem prximos, e o estimador for centrado, podemos ter confiana de que o valor calculado a partir da amostra recolhida (na prtica recolhe-se uma nica amostra) est prximo do valor do parmetro (desconhecido). A falta de preciso e o problema do enviesamento da amostra so dois tipos de erro com que nos defrontamos num processo de amostragem (mesmo que tenhamos escolhido um bom estimador). No se devem, contudo, confundir. Enquanto o enviesamento se manifesta por um desvio nos valores da estatstica, relativamente ao valor do parmetro a estimar, sempre no mesmo sentido, a falta de preciso manifesta-se por uma grande variabilidade nos valores da estatstica, uns relativamente aos outros. Por outro lado, enquanto o problema do enviesamento da amostra se reduz com o recurso a amostras aleatrias, a preciso aumenta-se, aumentando a dimenso da amostra (como veremos).

Maria Eugnia Graa Martins - DEIO

13 de 48

Introduo Inferncia Estatstica

4 Tcnicas de amostragem aleatria


Existem vrias tcnicas de amostragem aleatria. No entanto, no estudo da distribuio de amostragem dos estimadores Mdia e Proporo amostral, utilizados, respectivamente, para estimar os parmetros Valor mdio e Proporo populacional, vamos limitar-nos a considerar amostras aleatrias obtidas de forma a satisfazerem os seguintes critrios: Dada uma populao de dimenso N, considera-se que cada elemento da populao, deve ter a mesma probabilidade, igual a 1/N, de ser seleccionado para a amostra; A seleco feita com reposio. Existem outras tcnicas de amostragem aleatria, como a amostragem aleatria simples (dada uma populao de dimenso N, uma amostra aleatria simples, de n elementos, aquela tal que, qualquer outro conjunto de n elementos, tem igual probabilidade de ser seleccionado), a amostragem sistemtica, a amostragem estratificada, etc. Qualquer uma destas tcnicas, aplicadas na recolha das amostras, conduz a que as propriedades dos estimadores utilizados para estimar os mesmos parmetros, sejam diferentes. Antes de formalizarmos o estudo dos estimadores Mdia e Proporo amostral, vamos exemplificar um tipo de amostragem com reposio e sem reposio, e as implicaes nas propriedades do estimador, na estimao de uma proporo (Consideramos um exemplo com interesse unicamente terico, para fins de exemplificao). Exemplo No Departamento de Estatstica h 5 docentes que so professores associados, dos quais 3 so mulheres Maria, Ana, Rita e 2 so homens Pedro e Tiago. Se representarmos por p a percentagem de homens que so professores associados, temos que p=2/5 (Numa situao de interesse, a populao seria razoavelmente grande e a proporo p seria desconhecida situao que se verifica quando se pretende averiguar a percentagem de eleitores que pretendem votar num determinado candidato). Suponhamos que pretendamos estimar esta proporo utilizando a proporo p de homens em amostras de dimenso 2. Ento vamos construir todas as amostras desta dimenso para obter a distribuio de amostragem da estatstica utilizada:

Maria Eugnia Graa Martins - DEIO

14 de 48

Introduo Inferncia Estatstica

a) Com reposio
Amostra Maria, Maria Maria, Ana Maria, Rita MariaPedro MariaTiago Ana, Maria Ana, Ana Ana, Rita Ana, Pedro Ana, Tiago Rita, Maria Rita, Ana Rita, Rita

p
0 0 0 1/2 1/2 0 0 0 1/2 1/2 0 0 0

Amostra Rita, Pedro Rita, Tiago Pedro, Maria Pedro, Ana Pedro, Rita Pedro, Pedro Pedro, Tiago Tiago, Maria Tiago, Ana Tiago, Rita Tiago, Pedro Tiago, Tiago

p
1/2 1/2 1/2 1/2 1/2 2/2 2/2 1/2 1/2 1/2 2/2 2/2

A partir da tabela anterior possvel obter a distribuio de amostragem da estatstica p : p


Probabilidade 0 9/25 .5 12/25 1 4/25

E( p ) = 2/5 e Var( p )= 3/25 Repare-se que o valor mdio da estatstica p coincide com o valor do parmetro p que se est a estimar. b) Sem reposio(Amostragem aleatria simples)
Amostra Maria, Ana Maria, Rita Maria, Pedro Maria, Tiago Ana, Rita

p
0 0 1/2 1/2 0

Amostra Ana, Pedro Ana, Tiago Rita, Pedro Rita, Tiago Pedro, Tiago

p
1/2 1/2 1/2 1/2 1

p
Probabilidade

0 3/10

.5 6/10

1 1/10

E( p ) = 2/5 e Var( p )= 9/100


) Repare-se que, ainda neste caso, o valor mdio da estatstica (estimador) p coincide com o

valor do parmetro p que se est a estimar, mas a varincia inferior obtida na amostragem com reposio. Comparando as duas distribuies de amostragem, do mesmo estimador, mas para os esquemas de amostragem diferentes, temos

Maria Eugnia Graa Martins - DEIO

15 de 48

Introduo Inferncia Estatstica

0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,5 1 c/rep s/rep

Neste esquema de amostragem aleatria simples (uma amostra aleatria simples de n elementos, definida como sendo uma amostra tal que qualquer outro conjunto de n elementos da populao, tem igual probabilidade de ser seleccionado os elementos podem ser seleccionados sequencialmente, sem reposio, ou em bloco, todos de uma vez), no interessa a ordem pela qual os elementos so seleccionados, pelo que o nmero de amostras diferentes igual a 5 =10.
2

Exemplo (cont) - Suponhamos ainda que, relativamente ao exemplo anterior, estvamos interessados em estimar o parmetro p, mas atravs da estatstica X - nmero de homens em amostras de n elementos.
) X Ento o estimador de p, p = onde X a varivel que d o n de homens numa amostra de n dimenso n. Utilizando ainda amostras de dimenso 2, vamos obter a distribuio de ) X amostragem de p = , comeando pelo estudo da estatstica X n de homens em amostras 2 de dimenso 2:

a) Com reposio
Amostra Maria, Maria Maria, Ana Maria, Rita Maria, Pedro Maria, Tiago Ana, Maria Ana, Ana Ana, Rita Ana, Pedro Ana, Tiago Rita, Maria Rita, Ana Rita, Rita x 0 0 0 1 1 0 0 0 1 1 0 0 0 Amostra Rita, Pedro Rita, Tiago Pedro, Maria Pedro, Ana Pedro, Rita Pedro, Pedro Pedro, Tiago Tiago, Maria Tiago, Ana Tiago, Rita Tiago, Pedro Tiago, Tiago x 1 1 1 1 1 2 2 1 1 1 2 2

Maria Eugnia Graa Martins - DEIO

16 de 48

Introduo Inferncia Estatstica

A partir da tabela anterior possvel obter a distribuio de amostragem da estatstica X:


X=x P(X=x) 0 9/25 1 12/25 2 4/25

Repare-se que a distribuio de amostragem da estatstica X no mais do que a distribuio Binomial de parmetros 2 e 2/5 (sabemos neste caso que a proporo de homens 2/5):
2 2 3 P(X=x)= x 5 5
x 2 x

, com x=0, 1, 2

E(X) = 4/5 e Var(X)= 12/25


) Ento o estimador p tal que

p
Probabilidade

0 9/25

.5 12/25

1 4/25

tal como seria de esperar, pois j havia sido obtido anteriormente. b) Sem reposio (esquema de amostragem aleatria simples)
Amostra Maria, Ana Maria, Rita Maria, Pedro Maria, Tiago Ana, Rita x 0 0 1 1 0 Amostra Ana, Pedro Ana, Tiago Rita, Pedro Rita, Tiago Pedro, Tiago x 1 1 1 1 2

X=x P(X=x)

0 3/10

1 6/10

2 1/10

E(X) = 4/5 e Var(X)= 9/25 Repare-se que, agora, para modelar X, j no podemos utilizar o modelo Binomial, mas sim o chamado modelo Hipergeomtrico:

2 3 x 2 x com x=0, 1, 2 P(X=x)= 5 2

Maria Eugnia Graa Martins - DEIO

17 de 48

Introduo Inferncia Estatstica

) Ento, para p teremos as propriedades j obtidas anteriormente, quando obtivemos a sua


distribuio de amostragem directamente. Observao Utilizando o mesmo estimador, mas com um esquema diferente de seleco das amostras, temos distribuies de amostragem diferentes. Este exemplo teve como objectivo fazer intervir dois modelos de probabilidade conhecidos o modelo Binomial e o modelo Hipergeomtrico

No nos debruaremos sobre esquemas de amostragem sistemtica, por estratificao, por quotas, etc, uma vez que no estudaremos as propriedades dos estimadores para estas tcnicas de amostragem.

5 Qual a dimenso que se deve considerar para a amostra?


Outro problema que se levanta com a recolha da amostra o de saber qual a dimenso desejada para a amostra a recolher. Este um problema para o qual, nesta fase, no possvel avanar nenhuma teoria, mas sobre o qual se podem tecer algumas consideraes gerais. Pode-se comear por dizer que, para se obter uma amostra que permita calcular estimativas suficientemente precisas dos parmetros a estudar, a sua dimenso depende muito da variabilidade da populao subjacente (como mostraremos mais frente). Por exemplo, se relativamente populao constituda pelos alunos do 10 ano de uma escola secundria, estivermos interessados em estudar a sua idade mdia, a dimenso da amostra a recolher no necessita de ser muito grande j que a varivel idade apresenta valores muito semelhantes, numa classe etria muito restrita. No entanto se a caracterstica a estudar for o tempo mdio que os alunos levam a chegar de casa escola, j a amostra ter de ter uma dimenso maior, uma vez que a variabilidade da populao muito maior. Cada aluno pode apresentar um valor diferente para esse tempo. Num caso extremo, se numa populao a varivel a estudar tiver o mesmo valor para todos os elementos, ento bastaria recolher uma amostra de dimenso 1 para se ter informao completa sobre a

Maria Eugnia Graa Martins - DEIO

18 de 48

Introduo Inferncia Estatstica

populao; se, no entanto, a varivel assumir valores diferentes para todos os elementos, para se ter o mesmo tipo de informao seria necessrio investigar todos os elementos. Chama-se a ateno para a existncia de tcnicas que permitem obter valores mnimos para as dimenses das amostras a recolher e que garantem estimativas com uma determinada

preciso exigida partida (como veremos mais frente). Uma vez garantida essa preciso,
a opo por escolher uma amostra de maior dimenso, uma questo a ponderar entre os custos envolvidos e o ganho com o acrscimo de preciso. Vem a propsito a seguinte frase (Statistics: a Tool for the Social Sciences, Mendenhall et al., pag. 226): "Se a dimenso da

amostra demasiado grande, desperdia-se tempo e talento; se a dimenso da amostra demasiado pequena, desperdia-se tempo e talento".
Convm ainda observar que a dimenso da amostra a recolher no directamente proporcional dimenso da populao a estudar, isto , se por exemplo para uma populao de dimenso 1000 uma amostra de dimenso 100 for suficiente para o estudo de determinada caracterstica, no se exige necessariamente uma amostra de dimenso 200 para estudar a mesma caracterstica de uma populao anloga, mas de dimenso 2000, quando se pretende obter a mesma preciso. Como explicava George Gallup, um dos pais da consulta da opinio pblica (Tannenbaum, 1998),: Whether you poll the United States or

New York State or Baton Rouge (Louisiana) you need the same number of interviews or samples. Its no mystery really if a cook has two pots of soup on the stove, one far larger than the other, and thoroughly stirs them both, he doesnt have to take more spoonfuls from one than the other to sample the taste accurately.
Finalmente chama-se a ateno para o facto de que se o processo de amostragem originar uma amostra enviesada, aumentar a dimenso no resolve nada, antes pelo contrrio! A seguir vamos ver dois casos importantes de estimao de parmetros:

a estimao do valor mdio (ou mdia populacional), pela mdia (amostral), e a estimao da proporo (populacional) pela proporo amostral.

Maria Eugnia Graa Martins - DEIO

19 de 48

Introduo Inferncia Estatstica

6 Estimao do valor mdio


Quando se pretende estimar um parmetro, uma vez definido o esquema de amostragem, considera-se uma estatstica conveniente, isto , uma funo adequada das observaes, funo esta que para cada amostra observada dar uma estimativa do parmetro que se pretende estimar. Quando o parmetro a estimar o valor mdio ou mdia populacional, ento natural considerar como estimador a funo Mdia, que para cada amostra observada dar uma estimativa do parmetro.

Como que podemos saber se a Mdia um bom estimador para o valor mdio?
Ser que para as diferentes amostras que podemos obter da populao, as diferentes estimativas so prximas umas das outras e do parmetro valor mdio? Se isso acontecer, temos uma certa garantia que a amostra que seleccionmos, j que na prtica s se selecciona uma amostra, nos fornece uma estimativa razovel. A resposta questo anterior dada construindo a distribuio de amostragem da Mdia.

So as distribuies de amostragem das estatsticas que nos vo permitir fazer inferncias sobre os parmetros populacionais correspondentes. A aleatoriedade presente no processo de seleco das amostras, faz com que se possa utilizar a distribuio de amostragem de uma estatstica para descrever o comportamento dessa estatstica, quando se utiliza para estimar um determinado parmetro.

Podemos dizer que atravs da distribuio de amostragem que introduzimos a probabilidade num procedimento estatstico, em que a partir das propriedades estudadas na amostra, procuramos tirar concluses para a populao.

Maria Eugnia Graa Martins - DEIO

20 de 48

Introduo Inferncia Estatstica

6.1 Distribuio de amostragem da Mdia, como estimador do valor mdio 6.1.1 Distribuio de amostragem exacta da Mdia
Seguidamente vamos exemplificar o processo de obteno da distribuio de amostragem da Mdia, e consequente estudo das suas propriedades como estimador do valor mdio de uma Populao finita. Vamos considerar uma Populao de dimenso suficientemente pequena, para que o problema possa ser tratado dentro dos limites do razovel.

Exemplo

Considere uma populao constituda pelos elementos 1, 2, 3, 4 e 5. Pretende

estimar o valor mdio desta populao, utilizando, como estimativa, a mdia de uma amostra de dimenso 2, obtida com reposio. Obtenha a distribuio de amostragem do estimador utilizado. Resoluo: A Populao anterior constituda pelos elementos 1, 2, 3, 4 e 5, tendo cada um uma probabilidade constante e igual a 1/5 de ser seleccionado para pertencer a uma amostra: Populao X Probabilidade Propriedades da Populao: 1 1/5 2 1/5 3 1/5 4 1/5 5 1/5

Valor mdio = 3 Desvio padro =

2.

A metodologia seguida para obter a distribuio de amostragem consiste em obter todas as amostras de dimenso 2, com reposio, calcular o valor da estatstica mdia para cada uma delas e depois representar a distribuio dos valores obtidos:
Amostras (1,1) (1,2) (2,1) (1,3) (2,2) (3,1) (1,4) (2,3) (3,2) (4,1) 2.5 (1,5) (2,4) (3,3) (4,2) (5,1) 3 (2,5) (3,4) (4,3) (5,2) 3.5 (3,5) (4,4) (5,3) (4,5) (5,4) (5,5)

mdia

1.5

4.5

De acordo com a tabela anterior obtemos a seguinte distribuio de amostragem para o estimador Mdia2 (assim representado para termos presente que se obtm a partir de amostras de dimenso 2)

Maria Eugnia Graa Martins - DEIO

21 de 48

Introduo Inferncia Estatstica

Mdia2 Probabilidade

1 1/25

1.5 2/25

2 3/25

2.5 4/25

3 5/25

3.5 4/25

4 3/25

4.5 2/25

5 1/25

1 1.5 2 2.5 3 3.5 4 4.5 5

Caractersticas da distribuio de amostragem da Mdia para amostras de dimenso 2:

Valor mdio = 3 Desvio padro = 1


Algumas observaes:

O centro da distribuio de amostragem do estimador Mdia2 utilizado para estimar o valor mdio da populao (igual a 3), coincide com o parmetro a estimar . O desvio padro da populao inicial igual a
2 , enquanto que o desvio padro da

Mdia, calculada a partir de amostras de dimenso 2 1 ( 2 / 2 =1 resultado considerado anteriormente). Se repetirmos a metodologia seguida no processo do exemplo anterior, considerando agora amostras de dimenso 3, o problema torna-se mais trabalhoso, j que o nmero de amostras possveis 53=125. Assim, abstemo-nos de apresentar todas essas amostras, limitando-nos a apresentar a distribuio de amostragem da Mdia3:
Mdia3 Proba. 1 .008 1.33 .024 1.67 .048 2 .080 2.33 .120 2.67 .144 3 .152 3.33 .144 3.67 .120 4 .080 4.33 .048 4.67 .024 5 .008

Caractersticas da distribuio de amostragem:


Maria Eugnia Graa Martins - DEIO 22 de 48

Introduo Inferncia Estatstica

Valor mdio = 3 Desvio padro = 0.816


Algumas observaes:

O centro da distribuio de amostragem do estimador Mdia3 utilizado para estimar o valor mdio da populao (igual a 3), coincide com o parmetro a estimar . O desvio padro da populao inicial igual a
2 , enquanto que o desvio padro da

Mdia3, calculada a partir de amostras de dimenso 3 0.816 ( 2 / 3 =0.816). A variabilidade apresentada pela distribuio de amostragem inferior obtida quando se consideram amostras de dimenso 2. Este resultado indicia que quanto maior for a dimenso da amostra, menor a variabilidade apresentada pela distribuio de amostragem. Para melhor comparao dos processos anteriores, resumimos na tabela seguinte algumas caractersticas da populao e da distribuio de amostragem da Mdia para amostras de dimenso 2 e 3: Populao Mdia (amostras dimenso 2) Mdia (amostras dimenso 3) Valor mdio 3 3 3 Desvio padro 1.414 1.000 0.816

Considermos um exemplo de uma populao muito pequena, em que foi simples obter a distribuio de amostragem da Mdia. E se a dimenso da populao fosse igual a 20 e pretendessemos recolher amostras de dimenso 5, quantas amostras teramos de recolher para obter a distribuio de amostragem da Mdia? Nada mais, nada menos que 3 200 000! Como vemos, este processo de obter a distribuio de amostragem da Mdia seria impraticvel, mesmo para populaes razoavelmente pequenas. Como proceder ento? Vamos ver que, embora no seja fcil (a maior parte das vezes) obter a distribuio de amostragem exacta, podemos ter a distribuio de amostragem aproximada da Mdia, que j nos bastante til.

Maria Eugnia Graa Martins - DEIO

23 de 48

Introduo Inferncia Estatstica

6.1.2 Distribuio de amostragem aproximada da Mdia


No exemplo anterior a populao era razoavelmente pequena, pelo que foi possvel calcular a distribuio de amostragem exacta da estatstica Mdia, como estimador do valor mdio. Vamos considerar agora uma situao ainda de uma populao finita, mas suficientemente grande para no ser possvel (dentro dos limites do razovel...) obter a distribuio exacta.

Exemplo: Considere a seguinte tabela onde se apresentam os 97 trabalhadores de uma determinada empresa:
Nmero
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53

Nome
Alexandra Almeida Alexandre Carmo Alda Morais Ana Ribeiro Ana Cristina Santos Ana Cristina Oliveira Anabela Pais Antnio Couto Antnio Fernandes Antnio Pinto Armando Ferreira Carlos Matos Carlos Sampaio Cristina Vicente Cristina Zita Dora Ferreira Elsa Sampaio Fernando Barroso Fernando Martins Fernando Santos Filomena Silva Francisco Gomes Isabel Soares Isabel Silva Joo Morais Joo Sousa Luis Horta Luis Sousa Luis Ribeiro Manuel Santos Manuel Pereira Manuel Teixeira Margarida Almeida Margarida Simes M. Adelina Azevedo M. Alexandra Almeida M. Alexandra Ribeiro M. Cristina Carvalho M. Cristina Freire M. De Ftima Osrio M. Fernanda Rocha M. Isabel Frade M. Isabel Santos M. Luisa Faria M. Manuel Trindade M. Manuela Lino M. Nazar Pinto M. Neusa Lopes M. Olga Martins M. Paula Pitarra M. Paula Garcs M. Rosrio Gomes M. Rute Costa

Estado civil
solteira casado casada casada casada solteira divorciada solteiro casado casado casado casado casado casada casada casada casada casado casado divorciado solteira casado solteira casada casado solteiro casado casado casado casado divorciado casado casada casada solteira solteira casada casada divorciada casada solteira casada solteira casada casada casada solteira casada casada casada solteira solteira solteira

Idade Altura N filhos


26 30 37 23 26 25 33 24 42 51 48 37 40 39 27 50 45 43 29 32 20 26 22 34 44 25 35 37 49 54 47 50 51 47 25 26 39 41 38 33 29 38 26 35 29 33 29 34 27 29 25 27 45 160 174 160 159 156 153 156 177 161 171 167 165 174 160 164 170 160 164 165 174 165 174 156 148 171 176 169 170 170 175 162 173 166 161 148 158 157 158 161 164 154 164 164 164 167 159 162 163 165 160 150 155 160 0 2 3 1 2 0 3 0 5 1 1 1 2 2 1 4 4 3 1 2 0 0 0 2 2 0 2 0 1 4 3 2 1 4 0 0 3 2 1 1 0 2 0 2 0 3 0 2 0 3 0 0 0 24 de 48

Maria Eugnia Graa Martins - DEIO

Introduo Inferncia Estatstica

54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97

M. Rute Rita M. Teresa Antnio M. Teresa Bento M. Teresa Garcia Mrio Martins Mrio Reis Nuno Simes Nuno Ventura Olga Martins Oscar Trigo Osvaldo Paulo Nunes Paulo Martins Paulo Santos Paulo Valente Pedro Casanova Pedro Dalo Pedro Martins Pedro Lisboa Pedro Sintra Pedro Valente Pedro Viriato Rita Amaral Rita Bendito Rita vora Rita Seguro Rita Valente Rufo Almeida Rui Andr Rui Martins Rui Teixeira Rui Vasco Srgio Teixeira Slvio Lino Tnia Lopes Tnia Martins Teresa Ado Teresa Paulo Teresa Vasco Vera Mnica Vera Patrcia Vera Teixeira Vitor Santos Vitor Zinc

solteira casada casada solteira casado casado casado solteiro solteira casado casado casado solteiro solteiro casado casado casado casado casado solteiro casado casado solteira solteira casada solteira casada solteiro solteiro casado casado casado divorciado divorciado casada solteira casada solteira casada solteira solteira casada casado solteiro

23 46 54 22 29 43 43 28 29 35 44 38 41 51 45 46 37 39 44 40 32 26 23 29 34 30 35 29 31 34 44 45 40 44 27 25 26 28 30 25 26 31 37 49

165 147 158 154 171 172 176 175 159 169 172 169 173 172 168 175 166 174 163 170 161 169 165 159 162 163 170 171 165 167 166 178 174 161 160 162 163 164 157 161 154 162 173 169

0 2 1 0 1 0 2 0 0 1 1 1 1 1 2 1 1 2 2 0 0 0 0 0 1 0 2 0 0 0 2 2 2 0 0 0 1 0 0 0 0 1 2 0

No que diz respeito s variveis Sexo, Idade, Altura e Nmero de filhos, a populao anterior tem as seguintes caractersticas:
Tabela 1 Freq. abs. Feminino Masculino 52 45 97 Freq. rel. 0.536 0.464 1.000 Varivel Idade Altura N filhos Valor Mdio 35.19 164.57 1.13 Tabela 2 Desvio padro 8.84 7.05 1.21 Mnimo 20 147 0 Mximo 54 178 5

Repare-se que para a varivel Sexo no calculmos nem a mdia nem o desvio padro, j que se trata de uma varivel qualitativa.

Maria Eugnia Graa Martins - DEIO

25 de 48

Introduo Inferncia Estatstica

1 . Estimao da altura mdia da Populao constituda pelas alturas dos trabalhadores a) Amostras de dimenso 15
Utilizando o Excel, seleccionamos 50 amostras de dimenso 15, da populao constituda pelas 97 alturas, e para cada amostra calculmos a mdia:

A reduo dos elementos da amostra, constituda pelas 50 mdias, atravs de algumas estatsticas descritivas e da construo do histograma, conduziu aos seguintes resultados:

Maria Eugnia Graa Martins - DEIO

26 de 48

Introduo Inferncia Estatstica

Algumas concluses: A distribuio da amostra das mdias faz-se de forma aproximadamente simtrica em torno do valor 164.6, que um valor muito prximo do parmetro em estudo - valor mdio da populao (varivel Altura) A distribuio da amostra das mdias apresenta uma variabilidade muito pequena, quando comparada com a distribuio da populao; Da tabela das caractersticas amostrais verificamos que 90% dos elementos da amostra das mdias esto no intervalo [162.23; 167.69], enquanto que 95% dos elementos da amostra esto no intervalo [161.74; 168.35]. Estes intervalos, de amplitude 5.46 e 6.59 contm o valor do parmetro altura mdia. E se em vez de termos seleccionado amostras de dimenso 15, tivessemos seleccionado amostras de dimenso 30?

b) Amostras de dimenso 30
Utilizando ainda o Excel, germos 50 amostras de dimenso 30. Uma anlise dos dados, idntica feita para as anostras de dimenso 15, conduziu aos seguintes resultados:

Maria Eugnia Graa Martins - DEIO

27 de 48

Introduo Inferncia Estatstica

Algumas concluses: Do mesmo modo que para as amostras de dimenso 15, a distribuio da amostra das mdias das amostras de dimenso 30 tambm aproximadamente simtrica em torno do valor 164.7, que um valor muito prximo do parmetro em estudo - valor mdio da populao (caracterstica Altura); A distribuio da amostra das mdias apresenta uma variabilidade muito pequena, quando comparada com a distribuio da populao e mais pequena do que no caso das amostras de dimenso 15; Da tabela das caractersticas amostrais verificamos que 90% dos elementos da amostra das mdias esto no intervalo [162.85; 166.60], enquanto que 95% dos elementos da amostra esto no intervalo [162.59; 167.03]. Estes intervalos, de amplitude 3.75 e 4.44 contm o valor do parmetro altura mdia. Os resultados anteriores levam-nos a pensar que quanto maior for a dimenso das amostras consideradas menor ser a variabilidade entre as mdias dessas amostras. Quando recolhemos as 50 amostras e calculmos a mdia de cada uma dessas amostras, ficmos com uma ideia do comportamento da estatstica Mdia, que resumimos no seguinte:

Quando consideramos amostras da mesma dimenso, a mdia varia de amostra para amostra, mas apresenta um comportamento caracterstico, de uma distribuio aproximadamente simtrica, com pequena variabilidade. Quanto maior for a dimenso da amostra, espera-se que seja melhor a estimativa fornecida pela estatstica Mdia para o parmetro valor mdio da populao que se est a estudar, j que a variabilidade apresentada pelas diferentes estimativas, relativamente ao parmetro a estimar, diminui.

Maria Eugnia Graa Martins - DEIO

28 de 48

Introduo Inferncia Estatstica

E se em vez de 50 amostras considerssemos todas as amostras possveis (diferentes) que se podem extrair da Populao?
No nosso caso, se quisssemos amostras de dimenso 30, teramos de seleccionar 9730 amostras! Isto seria muito trabalhoso, mas s assim que teramos verdadeiramente a

distribuio de amostragem exacta da Mdia para amostras de dimenso 30, isto , os


diferentes valores que a varivel
X= X1 + X 2 + ... + X 30 30

pode assumir e a probabilidade de assumir esses valores (Estamos a representar a varivel que est a ser estudada por um X, pelo que X1 representa a 1 vez que se foi seleccionar um elemento, X2 representa a 2 vez que se foi seleccionar um elemento, etc.)

A obteno da distribuio de amostragem exacta seria uma tarefa rdua, pelo que nos vamos contentar em obter uma aproximao para essa distribuio de amostragem.

Observao 1 - Repare-se que a Mdia X uma varivel aleatria pois os seus valores
dependem dos valores das variveis X1, X2, , X30. Quando observamos um valor de X1, que representamos por x1, um valor de X2, que representamos por x2, etc, e substitumos esses valores observados na expresso da Mdia, obtemos um valor observado para a Mdia, que representamos por x . Assim, enquanto a varivel se representa por letra maiscula, um valor observado dessa varivel representa-se por letra minscula.

Observao 2 - Aproveitamos para lembrar que a amostragem foi feita com reposio, pois
cada vez que se selecciona um elemento ele reposto, antes de seleccionar o seguinte. Esta observao sobretudo relevante para Populaes de dimenso pequena (como a considerada no nosso estudo), em que a composio da Populao sofre alterao quando se retiram alguns elementos, o que no sucede com Populaes de grande dimenso - que normalmente a situao de interesse em Estatstica.

Maria Eugnia Graa Martins - DEIO

29 de 48

Introduo Inferncia Estatstica

6.1 3 Como obter a distribuio de amostragem da Mdia?


Ento para obter a distribuio de amostragem da Mdia no necessrio considerar todas as amostras possveis e depois calcular as respectivas mdias? Felizmente no necessrio estar com tanto trabalho, graas a um dos resultados mais importantes das Probabilidades, conhecido como o Teorema do Limite Central e que nos fornece um modelo matemtico para a distribuio de amostragem da Mdia:

Teorema do Limite Central Suponhamos que se recolhe uma amostra de dimenso n de


uma populao X, com valor mdio e desvio padro . A recolha da amostra deve ter em considerao o seguinte:

Se a populao for finita a recolha feita com reposio; No caso de a populao ter uma dimenso suficientemente grande, a seleco da
amostra pode ser feita sem reposio. Ento, se a dimenso da amostra for suficientemente grande (n30), a distribuio de amostragem da Mdia pode ser aproximada por uma distribuio Normal. Esta aproximao no depende da forma da distribuio da populao.

Outras caractersticas da distribuio de amostragem da Mdia:


Se a populao tiver valor mdio e desvio padro , ento a distribuio de amostragem da Mdia, para amostras de qualquer dimenso n, mas recolhidas nas condies indicadas no enunciado do TLC, tem valor mdio e desvio padro / n . Estas propriedades derivam do facto de a Mdia X ser uma soma (ponderada) de variveis aleatrias independentes e identicamente distribudas, e das propriedades do valor mdio e da varincia, nomedamente: Se X e Y forem variveis aleatrias e a e b constantes Valor mdio (aX)=aValor mdio (X) Valor mdio (X+Y) = valor mdio (X) + Valor mdio (Y) Se X e Y forem independentes Varincia (aX)= a2Varincia (X) Varincia (X+Y) = Varincia (X) + varincia (Y)

Maria Eugnia Graa Martins - DEIO

30 de 48

Introduo Inferncia Estatstica

Ento, resumindo o que dissmos anteriormente sobre a distribuio de amostragem da

Mdia X , obtida a partir de amostras2 de dimenso n, de uma populao de valor mdio e


varincia 2, podemos concluir o seguinte: Valor mdio( X ) = Varincia ( X ) =
2 n

Se a dimenso da amostra for suficientemente grande (n30), a distribuio de amostragem da Mdia pode ser aproximada por uma distribuio Normal. Esta aproximao no depende da forma da distribuio da populao (Consequncia do TLC). (Se se souber que a populao tem uma distribuio Normal, j no ser necessrio invocar o TLC para obter a distribuio aproximada, pois neste caso conhece-se a distribuio exacta da Mdia, que ser Normal se a varincia for conhecida, ou ser uma t-Student, se a varincia for desconhecida).

O que que significa dizer que se tem uma populao de dimenso suficientemente grande ou infinita?
Na maior parte dos casos em que necessrio recolher uma amostra, para estudar uma caracterstica da populao, no se conhece a sua dimenso N. Ento, costuma-se assumir que suficientemente grande, de modo que se diz que se tem uma populao de dimenso

infinita.
Em termos prticos costuma-se considerar que se tem uma populao de dimenso infinita, quando a fraco de amostragem, isto , o quociente entre a dimenso n da amostra a recolher e a dimenso N da populao, inferior a 5%, ou dito de outra forma, a dimenso da populao superior a 20 vezes a dimenso da amostra: N20n

Recordamos que a amostragem com reposio. Se a populao for infinita, as concluses ainda so vlidas para amostragem sem reposio.
Maria Eugnia Graa Martins - DEIO 31 de 48

Introduo Inferncia Estatstica

Algumas consequncias prticas das propriedades da distribuio de amostragem da Mdia: A Mdia X , como estimador do parmetro valor mdio , um estimador centrado, pois Valor mdio( X ) = ; Como j havamos referido anteriormente, quanto maior for a dimenso da amostra, menor a variabilidade apresentada pelo estimador Mdia, pelo que maior ser a preciso do estimador, pois Varincia ( X ) =
2 n

Se a dimenso n das amostras for suficientemente grande (n30), podemos utilizar a distribuio Normal para calcular quaisquer

probabilidades referentes ao estimador Mdia; Se a amostragem for feita com reposio, ou sem reposio no caso de populaes infinitas, as propriedades do estimador Mdia no dependem da dimenso da populao (repare que nas propriedades da distribuio de amostragem da Mdia, nunca se faz referncia dimenso N da populao); A preciso do estimador Mdia depende da variabilidade presente na populao. Quando pretendemos estimar o valor mdio de uma populao, para obter uma determinada preciso (recorda-se que quando menor for a variabilidade apresentada pelo estimador, maior ser a preciso) , a dimenso da amostra ter de ser tanto maior, quanto maior for a variabilidade presente na populao (basta ter em conta a expresso da varincia da Mdia).
Maria Eugnia Graa Martins - DEIO 32 de 48

Introduo Inferncia Estatstica

As propriedades do estimador Mdia dependem da dimenso da Populao? Se a dimenso, N, da populao no for suficientemente grande, e a amostragem for feita sem reposio, pode-se mostrar que essa dimenso ter interferncia na preciso da Mdia, como estimador do valor mdio. Mais precisamente, pode-se mostrar que para amostras de dimenso n, suficientemente grande (n30), a distribuio de amostragem da Mdia pode ser aproximada pela distribuio Normal com valor mdio e varincia
2 N n . n N 1

Esta expresso para a

varincia da Mdia bastante elucidativa, na medida em que permite concluir que se a dimenso da populao for suficientemente grande, ento a variabilidade do estimador s depende da dimenso da amostra e da variabilidade presente na populao e no da sua dimenso, como j havamos referido anteriormente. Neste caso, os esquemas de amostragem com reposio e sem reposio podem-se considerar equivalentes.

Maria Eugnia Graa Martins - DEIO

33 de 48

Introduo Inferncia Estatstica

6.2 Intervalo de confiana para o parmetro valor mdio

O comportamento da distribuio de amostragem da Mdia, anteriormente descrito, tem consequncias muito importantes, no que diz respeito ao problema da estimao do parmetro valor mdio, j que vamos aproveit-lo para encarar este problema de um outro ngulo. Em vez de procurarmos um valor estimativa pontual, como aproximao do valor do parmetro desconhecido, vamos procurar obter um intervalo estimativa intervalar ou intervalo de confiana, que com uma determinada confiana contenha o valor do parmetro.

Voltemos ainda a considerar o caso da populao X altura de um indivduo escolhido ao acaso de entre os 97 indivduos considerados. Vimos que esta populao tinha varincia igual a 7.05. Se recolher, com reposio, amostras de dimenso n, igual a 30 ou superior, como espera que seja o comportamento da distribuio de amostragem da Mdia, para amostras desta dimenso? De acordo com o Teorema Limite Central, espera-se que a Mdia tenha uma distribuio de amostragem, que possa ser aproximada por uma Normal. Ento, como se sabe que o valor mdio da Mdia o valor mdio, , da populao e o desvio padro da Mdia igual a
7.05 2 = 1.287, quando n=30, 30

podemos, tendo em considerao as propriedades da distribuio Normal, tentar obter o valor de z tal que:
Maria Eugnia Graa Martins - DEIO 34 de 48

Introduo Inferncia Estatstica

P( z

X X z ) = 0.95 ou P( z Z z ) = 0.95 onde Z= tem distribuio N(0,1), 1.287 1.287

0.95 0.025 0.025

-3,50

3,50

-1.96

1.96

O valor de z que satisfaz a condio anterior 1.96, pelo que a probabilidade anterior se pode escrever P( X - 1.96 x 1.287 X + 1.96 x 1.287) = .95 e o intervalo [ X - 1.96 x 1.287 , X + 1.96 x 1.287] diz-se que um intervalo de 95% de confiana para o valor mdio da Altura, ou Altura mdia.

Maria Eugnia Graa Martins - DEIO

35 de 48

Introduo Inferncia Estatstica

Como que se interpreta esta confiana? O que que significa? Consideremos as 50 amostras que recolhemos de dimenso 30 e as respectivas mdias. Substituindo essas mdias na expresso considerada anteriormente para o intervalo de confiana, obtemos os seguintes intervalos:

Destes 50 intervalos, verifica-se que 47 contm o valor do parmetro Altura mdia, que 164.57, enquanto que 3 assinalados a escuro , no o contm. Quando falamos em 95% de confiana, significa que se considerssemos 100 intervalos, esperaramos que

aproximadamente 95 contivessem o valor do parmetro e 5 no o contivessem.

Como ao fazer um estudo sobre um parmetro desconhecido, s se recolhe uma amostra, temos confiana que a que recolhemos seja uma das boas, que vai dar origem a um intervalo que contenha o valor desse parmetro.

Maria Eugnia Graa Martins - DEIO

36 de 48

Introduo Inferncia Estatstica

Se mudarmos a probabilidade de 0.95 para 0.90, por exemplo, ento em vez de z=1.96, devemos considerar z=1.645. Assim, um intervalo de confiana, com 90% de confiana ter o seguinte aspecto [ X 1.645 1.287, X + 1.645 1.287] De forma anloga ao que fizmos anteriormente, vamos substituir as 50 mdias na expresso anterior. Os intervalos obtidos so os seguintes:

Ao diminuirmos a confiana, aumentmos o nmero de intervalos que no contm o parmetro a estimar (assinalados a preto) aumentou assim a possibilidade de o intervalo que calcularmos, com a amostra que recolhermos, no conter o parmetro a estimar. E o que acontece se aumentarmos a confiana para 99%? Neste caso o valor de z=2.576 e os intervalos que se obtm substituindo as mdias na expresso [ X 2.576 1.287, X + 2.576 1.287] apresentam-se a seguir:

Maria Eugnia Graa Martins - DEIO

37 de 48

Introduo Inferncia Estatstica

Neste caso, j todos os intervalos contm o valor do parmetro a estimar.

Repare-se que ao aumentar a confiana, estamos a aumentar a amplitude do intervalo de confiana, o que, se por um lado bom, j que aumenta a nossa confiana em que um qualquer intervalo que se construa, contenha o valor do parmetro que estamos a estimar, por outro lado no muito bom, pois um intervalo com uma grande amplitude no nos serve para nada!

Ento, o que fazer, para termos uma confiana razovel, mas ao mesmo tempo um intervalo com pequena amplitude?
A soluo aumentar a dimenso da amostra, como se verifica imediatamente a partir da expresso genrica de um intervalo de confiana, que apresentaremos a seguir.

Maria Eugnia Graa Martins - DEIO

38 de 48

Introduo Inferncia Estatstica

Dada uma populao com desvio padro , a forma geral do intervalo de confiana para o valor mdio ser, tendo em conta as propriedades da Normal [ X z / n ,
X

+ z / n ]

onde o valor de z depender da confiana com que se pretende construir o intervalo. Se o desvio padro da populao for desconhecido, utiliza-se o desvio padro amostral S, para o estimar.
Alguns valores (obtidos a partir da tabela da Normal(0,1)), incluindo os j considerados anteriormente, so:

Confiana 90% 95% 97.5% 99% 99.5% 99.9% 99.95% 99.995%

z 1.645 1.960 2.326 2.576 3,090 3.291 3.891 4.417

Maria Eugnia Graa Martins - DEIO

39 de 48

Introduo Inferncia Estatstica

6.2.1 Margem de erro A metade da amplitude do intervalo de confiana, chama-se margem de erro. Como, de um modo geral, o que se pretende obter um intervalo de confiana com pequena margem de erro, por exemplo e, se pretendermos uma determinada confiana, por exemplo 95%, temos que recolher uma amostra de dimenso n=( 1.96 )2.
e

Ento, respondendo questo


O

que fazer, para termos uma confiana razovel, mas ao mesmo tempo um intervalo com pequena amplitude? diremos que o que temos a fazer recolher uma amostra de dimenso suficientemente grande, de forma a satisfazer a preciso exigida.

Repare-se que, para obtermos uma determinada preciso e, quanto maior for a variabilidade presente na populao, maior ter de ser a dimenso da amostra a recolher. Recorde-se que j havamos referido esta propriedade na pgina 17.

Maria Eugnia Graa Martins - DEIO

40 de 48

Introduo Inferncia Estatstica

7 Estimao do parmetro proporo populacional


7.1 Distribuio de amostragem da proporo amostral, como estimador da proporo populacional Suponhamos que estamos a estudar uma Populao quanto presena ou ausncia de uma determinada propriedade ou caracterstica, em cada indivduo dessa Populao. Admitimos que essa propriedade se verifica na Populao com uma probabilidade p (normalmente desconhecida). Se ao observar o indivduo verificarmos que tem a propriedade, anotamos um 1, enquanto que se verificarmos que no tem a propriedade anotamos um 0. Ento podemos representar a Populao, quanto a essa propriedade por uma varivel X, que pode assumir o valor 1 ou 0, respectivamente com probabilidade p (probabilidade de ter a propriedade) ou (1-p) (probabilidade de no ter a propriedade). Ser que podemos interpretar o parmetro p como um valor mdio? Assim , de facto, pois p a frequncia relativa com que o 1 se verifica na Populao relativamente propriedade em estudo, e no mais do que a mdia do conjunto constitudo pelos 0s e 1s. Analogamente quando recolhemos uma amostra, constituda por 1s e 0s conforme os elementos observados tenham ou no tenham a propriedade, a mdia desta amostra d-nos a proporo (amostral) de 1s, ou seja, uma estimativa pontual para a proporo (populacional) ou probabilidade com que a propriedade em estudo se verifica na Populao. Do que acabamos de referir, depreende-se que o estudo do parmetro p proporo de indivduos da populao que verificam determinada propriedade se reduz ao estudo do parmetro valor mdio de uma populao representada
Maria Eugnia Graa Martins - DEIO 41 de 48

Introduo Inferncia Estatstica

por 1s e 0s, conforme a propriedade est ou no presente nos indivduos da populao. Assim, no temos mais que transportar para o estimador proporo amostral, as propriedades verificadas para o estimador Mdia. Contudo, como veremos a seguir, algumas simplificaes sero introduzidas, devido particularidade da populao em estudo ser to simples, isto , constituda por 0s e 1s. Caractersticas da populao X
X
Probabilidade 0 (1-p) 1 p

Valor mdio(X) = p Varincia(X) = p(1-p)

Como resultado das observaes anteriores podemos enunciar o seguinte resultado, para a distribuio de amostragem da proporo amostral

) p:

Suponhamos que se recolhe uma amostra de dimenso n, com reposio (ou sem reposio se a populao for muito grande) de uma populao X, em que cada elemento da populao tem, ou no, uma determinada propriedade. Seja p a proporo de elementos da populao com essa propriedade. Ento, se a dimenso da amostra for suficientemente grande (n30), a distribuio de amostragem da proporo

pode ser aproximada por uma distribuio Normal

com valor mdio p e desvio padro

p(1 - p) / n .

Maria Eugnia Graa Martins - DEIO

42 de 48

Introduo Inferncia Estatstica

7.2 Intervalo de confiana para a proporo populacional p

J que a proporo populacional p um valor mdio e a proporo amostral p uma mdia, a expresso para o intervalo de confiana da proporo p deduzse da que se obteve para o intervalo de confiana para o valor mdio , fazendo as modificaes adequadas:
Onde est ou s Considera-se

p(1 - p) p(1 - p)

Como o valor de p desconhecido, a expresso para o intervalo de confiana, com uma confiana de 95% vem

[p - 1.96

p(1 - p) p(1 - p) , p + 1.96 ] n n

Dada uma populao, em que p a proporo de elementos da populao com determinada caracterstica, a forma geral do intervalo de confiana para p, a partir de amostras de dimenso n,

[p - z

p(1 - p) p(1 - p) ,p + z ] n n

onde o valor de z depender da confiana com que se pretende construir o intervalo.


Alguns valores (obtidos a partir da tabela da Normal(0,1)), incluindo os j considerados anteriormente, so:

Confiana 90% 95% 97.5% 99% 99.5% 99.9% 99.95% 99.995%

z 1.645 1.960 2.326 2.576 3,090 3.291 3.891 4.417

Maria Eugnia Graa Martins - DEIO

43 de 48

Introduo Inferncia Estatstica

Exerccios
Exerccio 1. Na correco de certo tipo de exames, feitos a nvel nacional, em que cada exame constitudo
por uma parte fechada e uma parte aberta, utiliza-se um leitor ptico para corrigir a parte fechada. Cada exame tem 50 questes, e a probabilidade de a mquina ler erradamente uma destas questes p, a qual constante de questo para questo e de exame para exame. Desconhece-se este valor de p. a) Admitindo que em 10 destes exames, a mquina leu erradamente 15 questes, obtenha uma estimativa pontual para p. b) Utilizando o resultado da alnea anterior: i) Obtenha um intervalo, com uma confiana de 95%, para p; ii) Qual a margem de erro do intervalo que obteve? c) A empresa que vende as mquinas de leitura ptica diz que a percentagem de erros que a mquina comete, anda volta de 1%. Tendo em conta o intervalo de confiana obtido na alnea anterior, pensa que a empresa tem razo no que afirma? Justifique a sua resposta. (Se na alnea anterior no conseguiu determinar o intervalo de confiana pretendido, admita o seguinte intervalo (1.5%; 4.5%)).

Exerccio 2. Uma fbrica de calado para adultos, pretende comear a produzir sapatos para criana.
Encarregou uma empresa de sondagens, de lhe fazer um estudo sobre qual seria o tamanho mdio (em cm) do p de crianas de determinada classe etria. Mesmo antes da empresa apresentar as concluses, o dono da fbrica (que h muitos anos tinha tido uma disciplina de Estatstica) teve acesso seguinte tabela de frequncias e correspondente histograma, dos valores calculados para as mdias de 500 amostras, de dimenso 30, recolhidas pela empresa:
Classes [31,075-31,225[ [31,225-31,375[ [31,375-31,525[ [31,525-31,675[ [31,675-31,825[ [31,825-31,975[ [31,975-32,125[ [32,125-32,275[ [32,275-32,425[ [32,425-32,575[ [32,575-32,725[ [32,725-32,875[ [32,875-33,025[ Freq.rel. 0,0020 0,0075 0,0250 0,0735 0,1410 0,2005 0,2250 0,1635 0,0990 0,0445 0,0130 0,0040 0,0015

Ento, na posse destes elementos, pediu ao filho, que tinha frequentado a disciplina de MACS do 11 ano, que lhe respondesse s seguintes questes: a) Este histograma pretende representar a distribuio de amostragem, aproximada, de uma certa varivel. Que varivel?

Maria Eugnia Graa Martins - DEIO

44 de 48

Introduo Inferncia Estatstica

b) Utlizando a tabela anterior, obtenha um valor aproximado para o valor mdio da distribuio de amostragem da Mdia, para amostras de dimenso 30 (considere o valor aproximado s unidades). c) Tendo em considerao que a estatstica Mdia X , um estimador centrado do valor mdio da populao X, de onde se retiram as amostras, sugira um valor para o valor mdio , da populao X,
constituda pelo tamanho do p, das crianas da classe etria considerada. d) Sabendo que o desvio padro de X , igual a

30

, onde o desvio padro da populao X, utilize

a tabela dada para sugerir um valor para este desvio padro . e) Como o histograma anterior sugere, e o Teorema Limite Central justifica, a distribuio de amostragem da Mdia pode ser aproximada por uma distribuio Normal (para amostras de dimenso n, suficientemente grande, ou seja, n30). Admitindo que um dos valores obtidos para a mdia de uma das 500 amostras de dimenso 30 consideradas, foi 32.125, obtenha um intervalo de 95% de confiana para o valor mdio do comprimento do p. (Se na alnea d) no conseguiu determinar o valor de , admita que igual a 1.5). f) Admitindo que a populao X tem distribuio normal, com o valor mdio e desvio padro obtidos, respectivamente, nas alneas c) e e), calcule a probabilidade de uma criana, escolhida ao acaso, da classe etria em estudo, ter um comprimento do p superior a 32.5 cm. (Se no resolveu as alneas c) e e) considere os valores 32 cm e 1.5 cm, respectivamente para valor mdio e desvio padro de X.

Exerccio 3. Nas ltimas eleies legislativas, passada uma hora do fecho das mesas de voto, apareceram os
resultados para o concelho de Sintra, dando uma percentagem de votos para JS e FS, respectivamente de 39% e 42%, com uma margem de erro de 3.5% e uma confiana de 95%. a) O locutor afirmou, ao apresentar aqueles resultados, que os candidatos estavam empatados tecnicamente. Explique, por palavras suas, o que quereria o locutor dizer. b) Passadas duas horas a margem de erro, diminuiu para 2.5%. Admitindo que a confiana era a mesma, d uma explicao para a diminuio da margem de erro. c) Numa sondagem realizada antes das eleies, JS tinha encomendado uma sondagem, que lhe dava a vitria, quando afinal veio a perder as eleies. Teremos que deixar de acreditar nas sondagens?

Exerccio 4. Uma sondagem da TSF/DN publicada na edio do DN de 2 de Julho de 2004, dizia: Portugueses querem referendo Maioria mostra-se favorvel eleio de um presidente e de um governo da Unio Europeia. E tambm quer exrcito comum
Os portugueses manifestam tendncia para o federalismo europeu: a maioria defende um presidente e um governo europeus, eleitos pelos cidados. So igualmente favorveis criao de um exrcito da Unio Europeia (UE). E, na anlise que fazem sobre o futuro comunitrio, dizem ainda que querem referendar a prxima reforma institucional da UE. A maioria j ouviu falar do Tratado de Nice, mas est longe de saber o que ele contempla. Talvez por isso, a larga maioria no sabe se o documento deve ou no ser aprovado pelos deputados. O Barmetro de Junho do DN/TSF/Marktest no incluiu qualquer pergunta directa sobre o federalismo europeu, mas os portugueses acabaram por pronunciar-se nesse sentido. Seno vejamos: 62 por cento dos inquiridos mostrou-se favorvel eleio de um presidente da UE e 53 por cento disse tambm estar a favor de um governo europeu. uma tese defendida equitativamente por mulheres e homens no que diz respeito eleio de um presidente europeu.

Maria Eugnia Graa Martins - DEIO

45 de 48

Introduo Inferncia Estatstica

Nota-se, contudo, alguma diferena quando a questo a eleio de um governo europeu. Aqui, j so os homens que se mostram mais favorveis. Sobre um e outro assunto , claramente, a classe mdia a maior defensora de um executivo europeu. Quando questionados sobre a criao de um exrcito na UE, uma questo que at aqui tem levantado alguma polmica, 45 por cento dos inquiridos afirmam ser defensores desta ideia. Embora o nmero daqueles que se opem no seja muito inferior - 36 por cento. Significativa tambm a percentagem dos que no sabem o que responder - 19 por cento. Esta hiptese acolhe mais adeptos entre os entrevistados do sexo masculino (53 por cento) e na faixa etria que poder ser contemplada pelas incorporaes (igualmente 53 por cento). E se a maioria dos portugueses refere j ter ouvido falar do Tratado de Nice, tambm so peremptrios a afirmar que no fazem a mais pequena ideia das suas linhas gerais: 65 por cento sublinha que no sabe o que est consagrado no documento. Uma resposta que justifica a elevada percentagem (62 por cento) daqueles que no sabe se os deputados devem ou no aprovar o Tratado. A larga maioria dos inquiridos (60 por cento) defende, por outro lado, que as mudanas na organizao da Unio Europeia devem ser referendadas no nosso Pas. O que no deixa de ser curioso, j que as duas experincias anteriores (aborto e regies) revelaram uma grande falta de participao dos cidados. S 18 por cento tem opinio contrria e 22 por cento optou por no responder a esta questo. O alargamento da Unio Europeia aos pases do Centro e de Leste do continente merece o acordo da maioria (64 por cento), que se mostram convencidos de que essa reestruturao interna vai tirar poderes a Portugal no seio da UE (46 por cento). Mais de dois teros (67 por cento) considera tambm que o processo de alargamento poder reduzir a atribuio de fundos comunitrios para Portugal.

Embora no seja referido no artigo anterior, segundo a notcia da TSF, a sondagem envolveu 813 indivduos adultos, dos quais 421 eram mulheres e foi realizada via telefone. referido no artigo que 62% dos inquiridos se mostra favorvel eleio de um presidente da UE.

a) Este valor de 62% uma estatstica ou um parmetro? b) Seria possvel ter obtido este valor, se a percentagem de portugueses adultos que se mostra favorvel
eleio de um presidente da UE fosse 65%?

c) Tendo em conta o resultado obtido pela sondagem da TSF/DN, acha plausvel que a proporo de
portugueses que se mostra favorvel eleio de um presidente da UE seja 68%? Porqu?

Exerccio 5. No dia 9 de Outubro de 2005 realizar-se-o as Eleies Autrquicas. Relativamente cidade de


Lisboa, h dois candidatos sobre os quais se criaram mais expectativas, nomedamente Carmona Rodrigues e Manuel Maria Carrilho . Suponha que, no dia das eleies, passado uma hora sobre o fecho das urnas, altura em que comeam a contar os votos para cada candidato, surgiram os primeiros resultados nos canais televisivos. Relativamente a um daqueles candidatos, que passaremos a representar por X, apresentaram o seguinte resultado: - O candidato X tem, neste momento, uma percentagem de 48.4%, com um erro mximo de

3.45% e uma confiana de 95%.


1. Explique, por palavras suas, o que significa o resultado anterior. 2. Qual a amplitude do intervalo de confiana, que pode construir com os resultados apresentados no enunciado do problema, para a percentagem de lisboetas que votaram no candidato X? 3. Acha razovel admitir que o candidato X, ao ouvir aquele resultado, pense que tem alguma Chance de ganhar a Cmara de Lisboa, admitindo que para ganhar essa Cmara eram necessrios, pelo menos, 50% de votos favorveis? 4. Passadas trs horas do fecho das urnas, o resultado anunciado para o candidato X era: - O candidato

X tem, neste momento, uma percentagem de 49.8%, com um erro mximo de 1.23% e uma confiana de 95%.
a) Compare a amplitude do intervalo de confiana considerado na alnea 2, com a amplitude do intervalo de confiana, que pode construir com os resultados agora anunciados. b) Como que interpreta o resultado a que chegou na alnea anterior?

Maria Eugnia Graa Martins - DEIO

46 de 48

Introduo Inferncia Estatstica

5.

Quando todos os votos tiverem sido escrutinados, obtm o resultado para a percentagem de eleitores que votaram no candidato X, na forma de um intervalo de confiana, ou na forma de um valor? Explique porqu.

Exerccio 6. Numa altura em que se discutia o problema dos touros de morte, em Portugal, nomeadamente por
causa das festas de Barrancos, uma conhecida estao de televiso props a seguinte questo aos telespectadores, no final do telejornal de uma 6 feira:

Se a favor dos touros de morte, em Portugal, envie uma mensagem para 7771 Se contra os touros de morte, em Portugal, envie uma mensagem para 7772

No telejornal do dia seguinte, sbado, apresentaram a seguinte notcia, como sendo o resultado da sondagem efectuada: 72% dos portugueses so a favor dos touros de morte, em Portugal, enquanto que 28% so contra! Acontece que o jornal Expresso, desse sbado, publicou o seguinte resultado de uma sondagem, encomendada a uma conceituada empresa de sondagens: 81% dos portugueses so contra os touros de

morte, em Portugal!
1. Alguma das amostras consideradas para obter os resultados anteriores, pode ser considerada enviesada? Isso poder explicar a discrepncia obtida, nas duas sondagens, relativamente s percentagens obtidas para os portugueses, que so contra os touros de morte? 2. Qual dos resultados anteriores, 28% ou 81%, estar mais perto da percentagem de portugueses que so contra os touros de morte em Portugal? Explique porqu 3. Admitindo que o resultado obtido pela empresa de sondagens, foi baseado numa amostra aleatria de dimenso 150, obtenha um intervalo de 95% de confiana para a percentagem de portugueses que so contra os touros de morte, em Portugal. 4. Calcule a margem de erro do intervalo obtido anteriormente. O que que aconselharia a algum, que lhe perguntasse como poderia obter um intervalo de confiana, com uma margem de erro inferior?

Exerccio 7. O Sr. Silva, fabricante de camisas para homem, recebeu uma encomenda proveniente de Macau.
Ficou um pouco preocupado, pois quando visitou este territrio, na sua viagem de lua-de-mel, apercebeu-se que os homens tinham, de um modo geral, os braos mais curtos. Sendo assim, no poderia utilizar os moldes habituais. Pediu, ento, a uma empresa de sondagens que lhe fornecessem uma estimativa do comprimento mdio dos braos dos naturais de Macau. A empresa apresentou um estudo, que se pode resumir da seguinte forma:

Sr. Silva Apresentando os nossos cumprimentos, vimos apresentar os resultado do nosso estudo: recolhemos uma amostra de dimenso 70, de outros tantos indivduos adultos, do sexo masculino, a quem medimos o tamanho do brao, tendo obtido como mdia dos 70 valores observados, o valor 52 cm. Reiterando os nossos cumprimentos, aproveitamos para dizer que segue, em anexo, a factura do trabalho prestado. AtenciosamenteO gerente (assinatura irreconhecvel)
O Sr. Silva ficou um pouco menos preocupado, mas continuava sem saber o que fazer:

Maria Eugnia Graa Martins - DEIO

47 de 48

Introduo Inferncia Estatstica

1. Efectivamente, qual a confiana que poderia atribuir estimativa obtida? Se tivesse sido outra a amostra obtida, seria de esperar obter o mesmo valor para a mdia? Explique porqu. 2. O Sr. Silva resolveu questionar a empresa e esta forneceu-lhe os seguintes intervalos de confiana para o tamanho mdio do brao dos naturais de Macau, com uma confiana de 50% e 75%, respectivamente, e obtidos a partir da mesma amostra: [51.4, 52.6] e [51.0, 53.0]. a. Qual a margem de erro dos intervalos anteriores? b. Se fosse o Sr. Silva, qual o intervalo que escolhia? O de menor amplitude ou o de maior amplitude? Explique porqu?

Maria Eugnia Graa Martins - DEIO

48 de 48

Você também pode gostar