Você está na página 1de 14

Capı́tulo 10

Estimação

Neste capı́tulo, estudaremos o problema de avaliar certas caracterı́sticas dos elementos


da população (parâmetros), com base em operações com os dados de uma amostra. Para
tal, reforcemos algumas definições:

População é o conjunto de elementos para os quais desejamos que as conclusões da


pesquisa sejam válidas, com a restrição de que esses elementos possam ser observados
ou mensurados sob as mesmas condições.

Parâmetro é uma medida que descreve certa caracterı́stica dos elementos da


população.

Amostra Aleatória Simples: uma parte da população, sendo que os elementos são
extraı́dos por sorteio.

Estatı́stica: alguma medida associada com os dados de uma amostra a ser extraı́da
da população. Quando usada com o objetivo de avaliar (estimar ) o valor de algum
parâmetro, também é chamada de estimador.

1
2 Estimação

Erro amostral é a diferença (em módulo) entre uma estatı́stica e o parâmetro que
se quer estimar.

Estimativa: valor da estatı́stica (estimador), calculado com base na amostra


efetivamente observada.

Exemplo 10.1 A prefeitura de determinado municı́pio pretende avaliar a aceitação de


um projeto de mudança no transporte coletivo. Deseja-se conhecer o parâmetro

π = proporção de moradores favoráveis ao projeto (na população

de usuários de transporte coletivo no municı́pio).

Para estimar este parâmetro, a prefeitura planeja uma amostragem de n = 400 usuários
e, dessa amostra, calcular a estatı́stica

P = proporção de moradores favoráveis ao projeto (na amostra).

A estatı́stica P pode ser usada como um estimador do parâmetro π. Observada


efetivamente a amostra, devemos ter P 6= π, devido ao erro amostral. Então,
pensaremos em avaliar a margem de erro que podemos estar cometendo por examinar
apenas uma amostra, e não toda a população.

Exemplo 10.2 Para estudar o efeito da merenda escolar introduzida nas escolas de um
municı́pio, planeja-se acompanhar uma amostra de n = 100 crianças que estão entrando
na rede municipal de ensino. Um dos parâmetros que se pretende avaliar é

µ = ganho médio de peso durante o primeiro ano letivo (na população

de crianças que estão entrando na rede municipal de ensino).


Prof. Felipe Rafael Ribeiro Melo 3

Da amostra de crianças em estudo, pode-se calcular a estatı́stica

X = ganho médio de peso, durante o primeiro ano letivo, das 100 crianças na amostra.

A estatı́stica X pode ser usada como um estimador do parâmetro µ. Mas, como no


exemplo anterior, devemos ter X 6= µ devido ao erro amostral.

Vimos nos exemplos anteriores o interesse em estimar a proporção de um certo


atributo em uma população através da proporção deste mesmo atributo dentro de uma
amostra, e o interesse em estimar a média de uma variável de natureza quantitativa
em uma população através da média desta mesma variável dentro de uma amostra.
Parâmetros do tipo proporção e média são, em geral, os mais comuns de estimar,
mas não são os únicos. Por exemplo, pode-se ter interesse em estimar o desvio padrão
de uma variável de natureza quantitativa em uma população, através do desvio padrão
desta mesma variável dentro de uma amostra coletada desta população de interesse.

Parâmetros Estatı́sticas / Estimadores


(caracterı́sticas da população) (caracterı́sticas da amostra)
π = proporção de algum P = proporção de elementos com
atributo, dentre os o atributo, dentre os que
elementos da população. serão observados na amostra.
µ = média de alguma X = média da variável,
variável quantitativa, nos a ser calculada com
elementos da população. os elementos da amostra.
σ = desvio padrão de uma S = desvio padrão da variável,
variável, dentre os a ser calculado com
elementos da população. os elementos da amostra.
4 Estimação

10.1 Natureza de parâmetros e estimadores


A partir deste capı́tulo, evitaremos a utilização do termo estatı́stica conforme
definido na página 1, dando preferência ao termo estimador. Como estamos falando de
estimação, qualquer estatı́stica de interesse é, na verdade, estimador de algum parâmetro.
Em geral, os parâmetros são números desconhecidos (somente seriam
conhecidos se fosse feito um censo, isto é, uma pesquisa de toda a população). De fato,
seria totalmente desnecessário estimar um parâmetro se seu valor real já fosse conhecido.
Além disso, um parâmetro é um valor fixo.
Já os estimadores podem ser interpretados como variáveis aleatórias, pois
seus valores dependem dos elementos a serem sorteados na amostragem. Se coletarmos
diferentes amostras da mesma população e usarmos o mesmo estimador em todas
elas, o valor que o estimador assume em cada amostra (estimativa) será tipicamente
diferente. Conforme já vimos em capı́tulos anteriores, uma variável aleatória possui uma
distribuição de probabilidades, ou seja, a forma como as probabilidades associadas a esta
variável aleatória se distribuem. A distribuição de probabilidades de um estimador é
chamada de distribuição amostral do estimador.
Como mencionado no parágrafo acima, ao se observar efetivamente uma amostra, o
estimador se identifica com um valor (resultado do cálculo), chamado de estimativa.

Exemplo 10.3 Tome novamente a amostra de n = 400 moradores do Exemplo 10.1, na


qual encontrarmos exatamente 240 moradores favoráveis. Então temos para

π = proporção de moradores favoráveis ao projeto (na população

de usuários de transporte coletivo no municı́pio)

a seguinte estimativa:
240
P = = 0, 60 (ou 60%).
400
Se um outro órgão de pesquisa coleta uma nova amostra de n = 400 moradores e, dentre
estes, exatamente 258 são favoráveis, então a estimativa para π segundo este órgão de
pesquisa é de
Prof. Felipe Rafael Ribeiro Melo 5

258
= 0, 645 (ou 64, 5%).
400
Vale ressaltar que as duas amostras diferentes tomadas neste exemplo podem ter
elementos em comum.

Observação 10.4 Na literatura de Estatı́stica, geralmente são usadas letras maiúsculas


para denotar estimadores e letras minúsculas para denotar estimativas. Porém, neste
curso, não diferenciaremos a notação de estimadores e de estimativas: usaremos sempre
letras maiúsculas.

10.2 O erro amostral e a margem de erro


Conforme definimos na página 2, o erro amostral de um estimador (com relação
ao parâmetro de interesse) é a diferença em módulo entre o estimador e o parâmetro
que se quer estimar. Suponha que o verdadeiro valor de π no Exemplo 10.3 é igual a
0, 62 (ou 62%). Então, os erros amostrais que as duas amostras retornaram foram de,
respectivamente,

|0, 60 − 0, 62| = | − 0, 02| = 0, 02 = 2%,

|0, 645 − 0, 62| = |0, 025| = 0, 025 = 2, 5%.

Quando trabalhamos com estimação de parâmetros, é intuitivo pensar que o valor que
o estimador assume na amostra coletada (estimativa) não necessariamente será igual ao
verdadeiro valor do parâmetro de interesse. Porém, ao trabalharmos com uma amostra
representativa da população em questão, acreditamos que o valor estimado através da
amostra não seja muito diferente do valor real do parâmetro.
Um dos principais objetivos na teoria de estimação é estimar um limite superior
provável para o erro amostral. Esse valor será a base para avaliarmos a precisão de
nossa estimativa. Este limite superior provável pode ser pensado como a margem de
erro do estimador.
6 Estimação

Exemplo 10.5 Quando são divulgados resultados de pesquisas eleitorais, é comum


ouvirmos expressões do tipo: “Candidato A tem 44% das intenções de voto, com margem
de erro de 2% (ou 2 pontos percentuais) para mais ou para menos, e o nı́vel de confiança
é de 95%”. Portanto, o estimador da proporção de votos do candidato A, de acordo com
a amostra entrevistada, foi de 44%, e a margem de erro de 2%. Isto que dizer que, com
95% de confiança, a proporção de eleitores que pretendem votar no Candidato A em toda
a população de eleitores está entre 42% e 46%.

A fórmula da margem de erro de um estimador depende de sua distribuição amostral


e do chamado nı́vel de confiança. O nı́vel de confiança mais comum é o de 95%. Mais
à frente, entenderemos melhor o seu significado.

10.3 Intervalos de confiança


Fixe um nı́vel de confiança desejado (digamos, 95%). Se coletamos uma amostra,
podemos calcular, com base nesta amostra, uma estimativa que nos fornece uma ideia
do verdadeiro valor do parâmetro de interesse. Alem disso, também podemos calcular
o limite superior provável (margem de erro) para a nossa estimativa, baseada na
distribuição do estimador e no nı́vel de confiança, de forma que possamos construir um
intervalo do tipo

Estimativa ± Margem de erro


= (Estimativa − Margem de erro ; Estimativa + Margem de erro)

que contém o verdadeiro valor do parâmetro com 95% de confiança. Um intervalo desta
forma é dito um intervalo de confiança para o parâmetro.

10.3.1 Intervalo de confiança para uma proporção π

Quando desejamos estimar, através de uma amostra com n elementos, a proporção de


elementos em uma população que possuem um atributo de interesse (denotada por π),
Prof. Felipe Rafael Ribeiro Melo 7

calculamos a proporção de elementos que possuem este atributo de interesse na amostra


(denotada por P ). Resumindo, temos

π = proporção de elementos que possuem o atributo de interesse (na população),

P = proporção de elementos que possuem o atributo de interesse (na amostra),

n = tamanho da amostra (número de elementos na amostra).

A margem de erro (que denotaremos daqui em diante pela letra E) do estimador P é


dada por
r
P (1 − P )
E=z× ,
n
onde z é um coeficiente que depende apenas do nı́vel de confiança utilizado. No caso do
nı́vel de confiança de 95%, temos z = 1, 96. Este valor está relacionado com a distribuição
normal padrão. Na Figura 10.1, temos o valor que deve ser usado em z para alguns outros
nı́veis de confiança. O intervalo de confiança para a proporção π é escrito na forma

(P − E ; P + E).

Figura 10.1: Coeficientes associados a diferentes nı́veis de confiança.


8 Estimação

Observação 10.6 Para obtenção de intervalos de confiança para uma proporção,


costuma-se exigir que o tamanho da amostra seja razoavelmente grande. Aqui, também
consideramos que a população de onde foi extraı́da a amostra é muito grande, não
necessitando considerar seu tamanho nos cálculos.

Exemplo 10.7 Voltemos ao Exemplo 10.1, no qual queremos estimar π = proporção


de moradores favoráveis ao projeto (na população de usuários de transporte coletivo no
municı́pio) por meio de uma amostra de n = 400 moradores. Se destes 400 moradores,
exatamente 240 são favoráveis ao projeto, temos P = 240/400 = 0, 60 como estimativa
para π segundo esta amostra. Fixando o nı́vel de confiança em 95%, o limite superior
provável (margem de erro) é dado por
r r
P (1 − P ) 0, 60 × 0, 40
E=z× = 1, 96 × = 1, 96 × 0, 0245 = 0, 048.
n 400
Com 95% de confiança, o verdadeiro valor de π pertence ao intervalo

(0, 60 − 0, 048 ; 0, 60 + 0, 048) = (0, 552 ; 0, 648).

10.3.2 Interpretando confiança / intervalo de confiança

ˆ Tome novamente o Exemplo 10.1. Mas desta vez, suponha que foram extraı́das 100
amostras de tamanho n = 400 cada.

ˆ Cada amostra tipicamente terá um valor diferente para P , pois não serão compostas
exatamente pelos mesmos 400 elementos.

ˆ Fixe o nı́vel de confiança em 95%. Como cada amostra terá um valor diferente
de P , então cada amostra terá um intervalo de confiança diferente, totalizando 100
intervalos.

ˆ Espera-se que cerca de 95% destes 100 intervalos (isto é, cerca de 95 intervalos)
contenham o verdadeiro valor do parâmetro π.

ˆ OBS.: Para uma mesma amostra, quanto maior o nı́vel de confiança, maior será
a amplitude do intervalo (o que é razoável).
Prof. Felipe Rafael Ribeiro Melo 9

10.3.3 Intervalo de confiança para a média populacional µ:


amostras grandes

Quando desejamos estimar, através de uma amostra com n elementos, a média de


uma quantidade de interesse em toda a população (denotada por µ), calculamos média
desta quantidade de interesse na amostra (denotada por X). Em resumo, temos

µ = média da quantidade de interesse em toda a população,

X = média da quantidade de interesse na amostra (média amostral),

n = tamanho da amostra (número de elementos na amostra).

A forma de calcular a margem de erro (que também denotaremos pela letra E) do


estimador X depende do tamanho da amostra. Quando temos uma amostra grande
(n > 30), calculamos o limite superior para o erro amostral (margem de erro) por

S
E=z×√ ,
n

onde S é o desvio padrão (da variável de interesse) na amostra, e z é obtido conforme


visto na Figura 10.1, em função de um nı́vel de confiança previamente fixado.

Exemplo 10.8 Voltemos ao Exemplo 10.2. Nosso objetivo é estimar o parâmetro

µ = ganho médio de peso durante o primeiro ano letivo, na população de crianças

da rede municipal de ensino, devido a uma merenda especial

baseado numa amostra de n = 100 crianças, e construir um intervalo do tipo

(X − E ; X + E)

que contenha o verdadeiro valor de µ com um nı́vel de confiança de 95%. Nesta amostra
extraı́da, suponha que foram obtidos os seguintes resultados:

Ganho médio de peso: X = 6, 0 kg;

Desvio padrão: S = 2, 0 kg.


10 Estimação

A margem de erro (para um nı́vel de confiança de 95%) é dada por


S 2, 0
E = z × √ = 1, 96 × √ = 1, 96 × 0, 2 = 0, 392.
n 100
Portanto, o intervalo de confiança para µ com nı́vel de confiança de 95% obtido com esta
amostra é dada por

(6, 0 − 0, 392 ; 6, 0 + 0, 392) = (5, 608 ; 6, 392),

ou seja, o verdadeiro valor de µ deve estar ao intervalo de 5, 608 kg até 6, 392 kg, com
95% de confiança.

10.3.4 Intervalo de confiança para a média populacional µ:


amostras pequenas

Quando desejamos obter intervalo de confiança para a média populacional (de alguma
quantidade de interesse), porém a amostra tem poucos elementos (digamos, n < 30), o
cálculo da margem de erro é ligeiramente diferente: no lugar de z (valor que depende do
nı́vel de confiança, e é baseado na distribuição normal padrão), usamos t, o qual depende
do nı́vel de confiança e do tamanho da amostra, e é baseado na chamada distribuição t
de Student:
S
E =t× √ .
n
A distribuição t de Student é tabelada (segue em anexo no final deste capı́tulo). Para
obter o valor t da fórmula da margem de erro, basta ligar a “linha” n − 1 com a “coluna”
(1 − nı́vel de confiança)/2.

Observação 10.9 A distribuição t de Student é parametrizada por uma quantidade


chamada graus de liberdade. No presente caso, o número de graus de liberdade será
sempre o tamanho da amostra menos 1, ou seja, g.l. = n − 1.

Exemplo 10.10 Para verificar a eficácia de um programa de prevenção de acidentes


de trabalho, foi realizado um estudo experimental, implementando esse programa em dez
Prof. Felipe Rafael Ribeiro Melo 11

empresas da construção civil, escolhidas ao acaso, numa certa região. Os dados abaixo
se referem aos percentuais de redução de acidentes de trabalho nas dez empresas.

Amostra Estatı́sticas
20 15 23 11 29 Média: X = 18
5 20 22 18 17 Desvio Padão: S = 6, 65

O objetivo é estimar / construir um intervalo de 95% de confiança para o parâmetro

µ = média da redução percentual de acidentes de trabalho, em todas as empresas de

construção civil da região, que venham a ser submetidas ao programa preventivo.

Como a amostra é pequena (n = 10), o erro padrão é calculado por

S 6, 65
E = t × √ = t × √ = t × 2, 10.
n 10

Para obter o valor de t, basta ligar a “linha” n − 1 = 10 − 1 = 9 com a “coluna”


(1 − 0, 95)/2 = 0, 025 na tabela t de Student. O valor obtido é t = 2, 262 (ver Figura
10.2), e portanto
E = 2, 262 × 2, 10 = 4, 75.

Então temos o seguinte intervalo de 95% de confiança para o parâmetro µ:

(18 − 4, 75 ; 18 + 4, 75) = (13, 25 ; 22, 75).

Ou seja, se esse programa for implementado em todas as empresas de construção civil da


região, espera-se (com um nı́vel de confiança de 95%) que a média da redução percentual
de acidentes de trabalho em todas estas se situe entre 13,25% e 22,75%.
12 Estimação

Figura 10.2: Uso da tabela da distribuição t de Student. Ilustração com gl = n − 1 = 9 e nı́vel


de confiança de 95%.
Referências Bibliográficas

[1] BARBETTA, Pedro Alberto. Estatı́stica Aplicada às Ciências Sociais. 8ª


edição revista. Florianópolis: Editora da UFSC, 2012.

13