Você está na página 1de 55

AVALIAÇÃO PELO MÉTODO DE

INFERÊNCIA ESTATÍSTICA

3
Sumário
Unidade 1: Inferência Estatística - Conceitos Básicos ..........................................6
Seção 1.1: Introdução .................................................................................6

Amostragem Aleatória ou Probabilística .....................................................................7

Análise Exploratória de Dados ....................................................................................9

Distribuição Amostral ..................................................................................................9

Estimação por Ponto de Parâmetros......................................................................... 11

Estimação por Ponto dos principais parâmetros ................................................. 12

Estimação por Intervalo de Parâmetros ................................................................ 12

ESTUDO DE CASO .................................................................................................. 16


Seção 1.2: População ............................................................................... 17

Seção 1.3: Amostra aleatória simples ..................................................... 18

Seção 1.4: Estatísticas e parâmetros ...................................................... 19

Seção 1.5: Distribuições amostrais ......................................................... 20

Seção 1.6: Propriedades de estimadores ............................................... 26

Unidade 2: Inferência Estatística e Amostragem ................................................. 29


Seção 2.1: Definição de inferência estatística ........................................ 29

Seção 2.2: Definições básicas ................................................................. 29

Seção 2.3: Técnicas de amostragem ....................................................... 30

Unidade 3: Inferência Estatística ........................................................................... 37


Seção 3.1: Desenvolvimentos acerca da inferência estatística ............ 37

Seção 3.2: Distribuições amostrais ......................................................... 39

Seção 3.3: Amostragem............................................................................ 43

Seção 3.4: Estimação................................................................................ 47

Referências .............................................................................................................. 57

4
NOSSA HISTÓRIA

A nossa história inicia com a realização do sonho de um grupo de empresários,


em atender à crescente demanda de alunos para cursos de Graduação e Pós-
Graduação. Com isso foi criado a nossa instituição, como entidade oferecendo
serviços educacionais em nível superior.

A instituição tem por objetivo formar diplomados nas diferentes áreas de


conhecimento, aptos para a inserção em setores profissionais e para a participação
no desenvolvimento da sociedade brasileira, e colaborar na sua formação contínua.
Além de promover a divulgação de conhecimentos culturais, científicos e técnicos que
constituem patrimônio da humanidade e comunicar o saber através do ensino, de
publicação ou outras normas de comunicação.

A nossa missão é oferecer qualidade em conhecimento e cultura de forma


confiável e eficiente para que o aluno tenha oportunidade de construir uma base
profissional e ética. Dessa forma, conquistando o espaço de uma das instituições
modelo no país na oferta de cursos, primando sempre pela inovação tecnológica,
excelência no atendimento e valor do serviço oferecido.

5
Unidade 1: Inferência Estatística - Conceitos Básicos

Seção 1.1: Introdução


Estatística é a ciência que se ocupa de organizar, descrever, analisar e
interpretar dados para que seja possível a tomada de decisões e/ou a validação
científica de uma conclusão.
Os dados são coletados para estudar uma ou mais características de uma
POPULAÇÃO: conjunto de elementos que tem pelo menos uma característica em
comum => conjunto das medidas da(s) característica(s) de interesse em todos os
elementos que a(s) apresenta(m).
Uma população pode ser representada através de um modelo probabilístico:
este apresenta condições para uso, uma certa forma para a distribuição de
probabilidades, e parâmetros.
Os dados necessários para a obtenção do modelo podem ser obtidos através
de um CENSO (pesquisa de toda a população), ou através de uma AMOSTRA
(subconjunto finito) da população.
Uma AMOSTRA traz economia; rapidez e evita a exaustão/extinção da
população, por isso deve A AMOSTRA ser representativa da população, suficiente
para que o resultado tenha confiabilidade, e aleatória, retirada por sorteio não viciado.
A Inferência Estatística consiste em fazer afirmações probabilísticas sobre as
características do modelo probabilístico, que se supõe representar uma população, a
partir dos dados de uma amostra aleatória (probabilística) desta mesma população.
Fazer uma afirmação probabilística sobre uma característica qualquer é
associar à declaração feita uma probabilidade de que tal declaração esteja correta (e
portanto a probabilidade complementar de que esteja errada). Quando se usa uma

6
amostra da população SEMPRE haverá uma probabilidade de estar cometendo um
erro (justamente por ser usada uma amostra): a diferença entre os métodos
estatísticos e os outros reside no fato de que os métodos estatísticos permitem
calcular essa probabilidade de erro. E para que isso seja possível a amostra da
população precisa ser aleatória.
As afirmações probabilísticas sobre o modelo da população podem ser
basicamente:
=> estimar quais são os possíveis valores dos parâmetros (Estimação de
Parâmetros):
 qual é o valor da média de uma variável que segue uma distribuição
normal?
 qual é o valor da proporção de um dos 2 resultados possíveis de uma
variável que segue uma distribuição binomial.
=> testar hipóteses sobre as características do modelo: parâmetros, forma da
distribuição de probabilidades, etc. (Testes de Hipóteses).
 o valor da média de uma variável que segue uma distribuição é maior do
que um certo valor?
 o modelo probabilístico da população é uma distribuição normal?
 o valor da média de uma variável que segue uma distribuição normal em
uma população é diferente da mesma média em outra população?
Amostragem Aleatória ou Probabilística
Na amostragem aleatória todos os elementos da população têm chance
diferente de zero de pertencer à amostra, uma vez que a seleção dos elementos é
feita por sorteio não viciado.
Amostragem Aleatória Simples
=> todos os elementos da população têm a mesma chance de pertencer à
amostra (escolha por sorteio não viciado);
=> cada elemento sorteado é reposto na população antes do próximo sorteio.
Obviamente nem sempre é viável a amostragem com reposição, se a
amostragem for feita SEM REPOSIÇÃO os resultados serão praticamente iguais se o
tamanho da amostra não exceder a 5% do tamanho da população (a reposição
garante que as probabilidades de selecionar um determinado elemento permanecem
constantes, uma vez que o “espaço amostral” permanece o mesmo. Quando o

7
tamanho da amostra é menor ou igual a 5% do tamanho da população, mesmo que
não haja reposição supõe-se que as probabilidades não se modificam
substancialmente) . Se a população não for homogênea em relação à variável sob
estudo, para garantir a representatividade da amostra somos obrigados a selecionar
elementos de cada uma de suas subdivisões.

Análise Exploratória de Dados


Uma vez tendo coletado os dados, seja através de censo ou por amostragem,
é preciso resumi-los e organizá-los de maneira a permitir uma primeira análise, e
posterior uso das informações. As técnicas estatísticas que se ocupam desses
aspectos constituem a Análise Exploratória de Dados.
O conjunto de dados pode ser resumido (e apresentado) através das
distribuições de freqüências, que relacionam os valores que a variável pode assumir
com a freqüência (contagem) com que foram encontrados naquele conjunto. Esta
distribuição pode ser apresentada na forma de uma tabela, ou através de um gráfico
(estes dois métodos podem ser usados tanto para variáveis qualitativas quanto para
variáveis qualitativas).
Há uma terceira forma de resumir o conjunto de dados: as medidas de síntese
ou estatísticas. As principais estatísticas são a média, o desvio padrão, a variância e
a proporção. Serão apresentadas suas fórmulas básicas, e o que cada uma significa.

8
Os valores das medidas de síntese, além de resumirem o conjunto de dados,
constituem uma indicação dos prováveis valores dos parâmetros. Assim, em estudos
baseados em amostras, é comum utilizar tais medidas de síntese como estatísticas
que serão utilizadas para estimar os parâmetros do modelo probabilístico que
descreve a população.
Distribuição Amostral
Os valores dos parâmetros do modelo populacional calculados em uma
amostra são chamados de estatísticas:
Figura 1: Parâmetros x Estatística
Parâmetros (População) Esatatística (Amostra)
Média ()
Variância ( 2 ) s2
Desvio Padrão () s
Proporção () p
Número de elementos (N) n

Seja uma população qualquer com um parâmetro  de interesse,


correspondendo a uma estatística T em uma amostra. Amostras aleatórias são
retiradas da população e para cada amostra calcula-se o valor t da estatística T. Os
valores de t formam uma nova “população” que segue uma distribuição de
probabilidades que é chamada de distribuição amostral de T.

Figura 2: Distribuição Amostral

9
.

Assim sendo, o conhecimento das distribuições amostrais das principais


estatísticas é necessário para fazer inferências sobre os parâmetros do modelo
probabilístico da população.
Por hora, basta conhecer as distribuições amostrais das estatísticas média de
uma variável quantitativa qualquer, e proporção de um dos dois únicos resultados de
uma variável qualitativa.
Exemplo elaborado pela professora Carmen Dolores de Freitas de Lacerda:
Suponha uma variável quantitativa cujos valores constituem uma população com os
seguintes valores: (2, 3, 4, 5)
Para esta população, que tem uma distribuição uniforme, podemos observar
que os parâmetros são:  = 3,5  2 = 1,25 (usou-se n no denominador por ser uma
população).
Se retirarmos todas as amostras aleatórias de 2 elementos (com reposição)
possíveis desta população (n = 2), teremos os seguintes resultados:
(2, 2) (2, 3) (2, 4) (2, 5)
(3, 2) (3, 3) (3, 4) (3, 5)
(4,2) (4, 3) (4, 4) (4, 5)
(5, 2) (5, 3) (5, 4) (5, 5)

O cálculo das médias de todas as amostras acima resultará na matriz abaixo:

Se estas médias forem plotadas em um gráfico de freqüências (um histograma):

10
Figura 3: Histogramas de Médias Amostrais

Se forem calculados a média e a variância das médias de todas as amostras o


resultado será:

Estimação por Ponto de Parâmetros


Uma vez tendo decidido que modelo probabilístico é mais adequado para
representar a variável de interesse na População resta obter os seus parâmetros. Nos
estudos feitos com base em amostras é preciso escolher qual das estatísticas da
amostra será o melhor estimador para cada parâmetro do modelo. A Estimação por
Ponto consiste em determinar qual será o melhor estimador para o parâmetro de
interesse.
Como os parâmetros serão estimados através das estatísticas (estimadores)
de uma amostra aleatória, e como para cada amostra aleatória as estatísticas

11
apresentarão diferentes valores, os estimadores também terão valores aleatórios. Em
outras palavras um Estimador é uma variável aleatória que segue uma distribuição de
probabilidades. Naturalmente haverá várias estatísticas T que poderão ser usadas
como estimadores de um parâmetro .
Como escolher qual das estatísticas será o melhor estimador para o
parâmetro? Há basicamente três critérios para a escolha de um estimador: o
estimador precisa ser justo, consistente e eficiente (na realidade há mais critérios, mas
estes são os mais importantes)
Um Estimador T é um estimador justo (não tendencioso) de um parâmetro 
quando o valor esperado de T é igual ao valor do parâmetro  a ser estimado: E(T) =

Um Estimador T é um estimador consistente de um parâmetro  quando além
ser um estimador justo a sua variância tende a zero à medida que o tamanho da
amostra aleatória aumenta: lim n V(T)  0 .
Se há dois Estimadores justos de um parâmetro o mais eficiente é aquele que
apresentar a menor variância.
Estimação por Ponto dos principais parâmetros
Os principais parâmetros que vamos avaliar aqui são: média de uma variável
que segue uma distribuição normal (ou qualquer distribuição se a amostra for
suficientemente grande) em uma população (média populacional - ) e proporção de
ocorrência de um dos valores de uma variável que segue uma distribuição de
Bernoulli/Binomial (Ambas exigem que experimento seja um experimento de Bernoulli:
que tenha (ou possa ser reduzido) a apenas 2 resultados possíveis complementares.)
em uma população (proporção populacional - ).
Em suma escolher quais estatísticas amostrais são mais adequadas para
estimar estes parâmetros, usando os critérios definidos acima.

Estimação por Intervalo de Parâmetros


Geralmente uma inferência estatística é feita com base em uma única amostra:
na maior parte dos casos é totalmente inviável retirar todas as amostras possíveis de
uma determinada população.
Intuitivamente percebemos que as estatísticas calculadas nessa única amostra,
mesmo sendo os melhores estimadores para os parâmetros de interesse, terão uma

12
probabilidade infinitesimal de coincidir exatamente com os valores reais dos
parâmetros. Então a Estimação por Ponto dos parâmetros é insuficiente, e as
estimativas assim obtidas servirão apenas como referência para a Estimação por
Intervalo.
A Estimação por Intervalo consiste em colocar um Intervalo de Confiança (I.C.)
em torno da estimativa obtida através da Estimação por Ponto.
O Intervalo de Confiança terá uma certa probabilidade chamada de Nível de
confiança (que costuma ser simbolizado como 1 - ) de conter o valor real do
parâmetro: fazer uma Estimação por Intervalo de um parâmetro é efetuar uma
afirmação probabilística sobre este parâmetro, indicando uma faixa de possíveis
valores, e a probabilidade de que esta faixa realmente contenha o valor real do
parâmetro. A probabilidade de que o Intervalo de Confiança não contenha o valor real
do parâmetro é chamada de Nível de Significância (), e o valor desta probabilidade
será o complementar do Nível de Confiança. É comum definir o Nível de Significância
como uma probabilidade máxima de erro, um risco máximo admissível.
A determinação do Intervalo de Confiança para um determinado parâmetro
resume-se basicamente a definir o Limite Inferior e o Limite Superior do intervalo,
supondo um determinado Nível de Confiança (ou Significância). A definição dos limites
dependerá também da distribuição amostral da estatística usada como referência para
o intervalo e do tamanho da amostra utilizada.
Para os dois parâmetros em que temos maior interesse (média populacional 
e proporção populacional ) a distribuição amostral dos estimadores (média amostral
x e proporção amostral p, respectivamente) pode ser aproximada por uma distribuição
normal:15 o Intervalo de Confiança será então simétrico em relação ao valor calculado
da estimativa (média ou proporção amostral), com base na amostra aleatória coletada.

Figura 4: Intervalo de Confiança para uma distribuição normal

13
Onde: Li é o limite inferior e Ls é o limite superior do Intervalo de Confiança; 1
-  é o Nível de Confiança estabelecido, observando que o valor do Nível de
Significância  é dividido igualmente entre os valores abaixo de Li e acima de Ls. Para
obter os limites em função do Nível de Confiança devemos utilizar a distribuição
normal padrão (variável Z com média zero e variância um): fixar um certo valor de
probabilidade, obter o valor de Z correspondente, e substituir o valor em Z = (x -
“média”)/ “desvio padrão”16 , para obter o valor x (valor correspondente ao valor de Z
para a probabilidade fixada). Observe a figura 5 abaixo:

Figura 5: Intervalo de Confiança para a distribuição normal padrão

O limite Li (inferior) corresponde a Z1 e o limite Ls (superior) corresponde a Z2.


O ponto central 0 (zero) corresponde ao valor calculado da Estimativa. Como a
variável Z tem distribuição normal com média igual a zero (lembrando que a
distribuição normal é simétrica em relação à média) os valores de Z1 e Z2 serão iguais
em módulo (Z1 será negativo e Z2 positivo):

Então obteremos os valores dos limites através das expressões:


Z1 = (Li - “média”)/ “desvio padrão” => Li = “média” + Z1  “desvio padrão”
Z2 = (Ls - “média”)/ “desvio padrão” => Ls = “média” + Z2  “desvio padrão”

14
Como Z1 = - Z2, podemos substituir:
Li = “média” - Z2  “desvio padrão” Ls = “média” + Z2  “desvio padrão”

E este valor Z2 é chamado de Zcrítico, porque corresponde aos limites do


intervalo (esta notação é a utilizada na apostila de Roteiros e Tabelas):
Li = “média” - Zcrítico  “desvio padrão”
Ls = “média” + Zcrítico  “desvio padrão”
Reparem que o mesmo valor é somado e subtraído da “média”.
Este valor é chamado de semi-intervalo ou precisão do intervalo, e recebe
símbolo e0: e0 = Zcrítico  “desvio padrão”
Resta agora definir corretamente o valor da “média” e do “desvio padrão” para
cada um dos parâmetros em que estamos interessados (média e proporção
populacional). Com base nas conclusões obtidas na Estimação por Ponto isso será
simples. Contudo, há alguns outros aspectos que precisarão ser esmiuçados.

15
ESTUDO DE CASO
No estudo da estatística descritiva, vimos que população é o conjunto de
elementos para os quais se deseja estudar determinada(s) característica(s). Vimos
também que uma amostra é um subconjunto da população. No estudo da inferência
estatística, o objetivo principal é obter informações sobre uma população a partir das
informações de uma amostra e aqui vamos precisar de definições mais formais de
população e amostra. Para facilitar a compreensão destes conceitos, iremos
apresentar alguns exemplos a título de ilustração
Exemplo 1
Em um estudo antropométrico em nível nacional, uma amostra de 5000 adultos
é selecionada dentre os adultos brasileiros e uma das variáveis de estudo é a altura.
Neste exemplo, a população é o conjunto de todos os brasileiros adultos. No
entanto, o interesse (um deles, pelo menos) está na altura dos brasileiros. Assim,
nesse estudo, a cada sujeito da população associamos um número correspondente à
sua altura. Se determinado sujeito é sorteado para entrar na amostra, o que nos
interessa é esse número, ou seja, sua altura. Como vimos, essa é a definição de
variável aleatória: uma função que associa a cada ponto do espaço amostral um
número real. Dessa forma, a nossa população pode ser representada pela variável
aleatória X = “altura do adulto brasileiro”. Como essa é uma v.a. contínua, a ela está
associada uma função de densidade de probabilidade f e da literatura, sabemos que
é razoável supor que essa densidade seja a densidade normal. Assim, nossa
população, nesse caso, é representada por uma v.a. X ∼ N (μ; σ2). Conhecendo os
valores de μ e σ teremos informações completas sobre a nossa população.
Uma forma de obtermos os valores de μ e σ é medindo as alturas de todos os
brasileiros adultos. Mas esse seria um procedimento caro e demorado. Uma solução,
então, é retirar uma amostra (subonjunto) da população e estudar essa amostra.
Suponhamos que essa amostra seja retirada com reposição e que os sorteios sejam
feitos de forma independente, isto é, o resultado de cada extração não altera o
resultado das demais extrações. Ao sortearmos o primeiro elemento, estamos
realizando um experimento que dá origem à v.a. X1 =“altura do primeiro elemento”; o
segundo elemento dá origem à v.a. X2 =“altura do segundo elemento” e assim por

16
diante. Como as extrações são feitas com reposição, todas as v.a. X1, X2,... têm a
mesma distribuição, que reflete a distribuição da altura de todos os brasileiros adultos.
Para uma amostra específica, temos os valores observados x1, x2,... dessas variáveis
aleatórias.
Exemplo 2
Consideremos, agora, um exemplo baseado em pesquisas eleitorais, em que
estamos interessados no resultado do segundo turno de uma eleição presidencial
brasileira. Mais uma vez, nossos sujeitos de pesquisa são pessoas com 16 anos ou
mais, aptas a votar. O interesse final é saber a proporção de votos de um e outro
candidato. Vamos considerar uma situação simplificada em que não estamos
considerando votos nulos, indecisos, etc. Então, cada sujeito de pesquisa dá origem
a uma variável aleatória binária, isto é, uma v.a. que assume apenas dois valores.
Como visto, podemos representar esses valores por 1 (candidato A) e 0 (candidato
B), o que define uma variável aleatória de Bernoulli, ou seja, essa população pode ser
representada pela v.a. X ∼ Bern(p). O parâmetro p representa a probabilidade de um
sujeito dessa população votar no candidato A. Uma outra interpretação é que p
representa a proporção populacional de votantes no candidato A.
Para obtermos informação sobre p, retira-se uma amostra da população e,
como antes, vamos supor que essa amostra seja retirada com reposição. Ao
sortearmos o primeiro elemento, estamos realizando um experimento que dá origem
à v.a. X1 =“voto do primeiro elemento”; o segundo elemento dá origem à v.a. X2 =“voto
do segundo elemento” e assim por diante. Como as extrações são feitas com
reposição, todas as v.a. X1, X2,... têm a mesma distribuição de Bernoulli populacional,
isto é, Xi ∼ Bern(p), i = 1, 2,... .

Seção 1.2: População


A inferência estatística trata do problema de se obter informação sobre uma
população a partir de uma amostra. Embora a população real possa ser constituída
de pessoas, empresas, animais, etc., as pesquisas estatísticas buscam informações
sobre determinadas características dos sujeitos, características essas que podem ser
representadas por números. Sendo assim, a cada sujeito da população está
associado um número, o que nos permite apresentar a seguinte definição.
Definição 1.1 A população de uma pesquisa estatística pode ser representada
por uma variável aleatória X que descreve a característica de interesse.

17
Os métodos de inferência nos permitirão obter estimativas dos parâmetros de
tal variável aleatória, que pode ser contínua ou discreta.

Seção 1.3: Amostra aleatória simples


Como já dito, é bastante comum o emprego da amostragem em pesquisas
estatísticas. Nas pesquisas por amostragem, uma amostra é selecionada da
população de interesse e todas as conclusões serão baseadas apenas nessa
amostra. Para que seja possível inferir resultados para a população a partir da
amostra, é necessário que esta seja “representativa” da população.
Embora existam vários métodos de seleção de amostras, vamos nos
concentrar aqui no caso mais simples, que é a amostragem aleatória simples.
Segundo tal método, toda amostra de mesmo tamanho n tem igual chance
(probabilidade) de ser sorteada. É possível extrair amostras aleatórias simples com e
sem reposição. Quando estudamos as distribuições binomial e hipergeométrica,
vimos que a distribuição binomial correspondia a extrações com reposição e a
distribuição hipergeométrica correspondia a extrações sem reposição. No entanto,
para populações grandes - ou infinitas - extrações com e sem reposição não levam a
resultados muito diferentes. Assim, no estudo da Inferência Estatística, estaremos
lidando sempre com amostragem aleatória simples com reposição. Este método de
seleção atribui a cada elemento da população a mesma probabilidade de ser
selecionado e esta probabilidade se mantém constante ao longo do processo de
seleção da amostra (se as extrações fossem sem reposição isso não aconteceria). No
restante desse curso omitiremos a expressão “com reposição”, ou seja, o termo
amostragem (ou amostra) aleatória simples sempre se referirá à amostragem com
reposição. Por simplicidade, muitas vezes abreviaremos o termo amostra aleatória
simples por aas.
Uma forma de se obter uma amostra aleatória simples é escrever os números
ou nomes dos elementos da população em cartões iguais, colocar estes cartões em
uma urna misturando-os bem e fazer os sorteios necessários, tendo o cuidado de
colocar cada cartão sorteado na urna antes do próximo sorteio. Na prática, em geral
são usados programas de computador, uma vez que as populações tendem a ser
muito grandes.

18
Agora vamos formalizar o processo de seleção de uma amostra aleatória
simples, de forma a relacioná-lo com os problemas de inferência estatística que
iremos estudar.
Seja uma população representada por uma variável aleatória X. De tal
população será sorteada uma amostra aleatória simples com reposição de tamanho
n. Como visto nos exemplos anteriores, cada sorteio dá origem a uma variável
aleatória Xi e, como os sorteios são com reposição, todas essas variáveis têm a
mesma distribuição de X. Isso nos leva à seguinte definição.
Definição 1.2 Uma amostra aleatória simples (aas) de tamanho n de uma v.a.
X (população) é um conjunto de n v.a. X1, X2, ..., Xn independentes e identicamente
distribuídas (i.i.d.).
É interessante notar a convenção usual: o valor observado de uma v.a. X é
representado pela letra minúscula correspondente. Assim, depois do sorteio de uma
aas de tamanho n, temos valores observados x1, x2,...,xn das respectivas variáveis
aleatórias.

Seção 1.4: Estatísticas e parâmetros


Obtida uma aas, é possível calcular diversas características desta amostra,
como, por exemplo, a média, a mediana, a variância, etc. Qualquer uma destas
características é uma função de X1, X2, ..., Xn e, portanto, o seu valor depende da
amostra sorteada. Sendo assim, cada uma dessas características ou funções é
também uma v.a. . Por exemplo, a média amostral é a v.a. definida por

Temos, então, a seguinte definição:


Definição 1.3 Uma estatística amostral ou estimador T é qualquer função da
amostra X1, X2, ..., Xn, isto é,

onde g é uma função qualquer.


As estatísticas amostrais que estaremos considerando neste curso são

19
• média amostral

• variância amostral

Para uma amostra específica, o valor obido para o estimador será denominado
estimativa e, em geral, serão representadas por letras minúsculas. Por exemplo,
temos as seguintes notações correspondentes à média amostral e à variância: x e s2.
Outras estatísticas possíveis são o mínimo amostral, o máximo amostral, a
amplitude amostral, etc.
De forma análoga, temos as características de interesse da população. No
entanto, para diferenciar entre as duas situações (população e amostra), atribuimos
nomes diferentes.
Definição 1.4 Um parâmetro é uma característica da população.
Assim, se a população é representada pela v.a. X, alguns parâmetros são a
esperança E(X) e a variância V ar(X) de X.
Com relação às características mais usuais, vamos usar a seguinte notação:

Lembre-se que, para uma v.a. discreta (finita) uniforme,

Seção 1.5: Distribuições amostrais


Nos problemas de inferência, estamos interessados em estimar um parâmetro
θ da população (por exemplo, a média populacional) através de uma aas X1, X2, ...,
Xn. Para isso, usamos uma estatística T (por exemplo, a média amostral) e, com base
no valor obtido para T a partir de uma particular amostra, iremos tomar as decisões

20
que o problema exige. Já foi dito que T é uma v.a., uma vez que depende da amostra
sorteada; amostras diferentes fornecerão diferentes valores para T.
Consideremos o seguinte exemplo, onde nossa população é o conjunto {1, 3,
6, 8}, isto é, este é o conjunto dos valores da característica de interesse da população
em estudo. Assim, para esta população, ou seja, para essa v.a. X temos

Suponha que dessa população iremos extrair uma aas de tamanho 2 e a


estatística que iremos calcular é a média amostral. Algumas possibilidades de amostra
são {1,1}, {1,3}, {6,8}, para as quais os valores da média amostral são 1, 2 e 7,
respectivamente. Podemos ver, então, que há uma variabilidade nos valores da
estatística e, assim, seria interessante que conhecêssemos tal variabilidade.
Conhecendo tal variabilidade, temos condições de saber “quão infelizes” podemos ser
no sorteio da amostra. No exemplo acima, as amostras {1,1} e {8,8} são as que têm
média amostral mais afastada da verdadeira média populacional. Se esses valores
tiverem chance muito mais alta do que os valores mais próximos de E(X), podemos
ter sérios problemas.
Para conhecer o comportamento da média amostral, teríamos que conhecer
todos os possíveis valores de X, o que equivaleria a conhecer todas as possíveis
amostras de tamanho 2 de tal população. Nesse exemplo, como só temos 4 elementos
na população, a obtenção de todas as aas de tamanho 2 não é difícil.
Lembre-se do nosso estudo de análise combinatória: como o sorteio é feito com
reposição, em cada um dos sorteios temos 4 possibilidades. Logo, o número total de
amostras aleatórias simples é 4 × 4 = 16. Por outro lado, em cada sorteio, cada
elemento da população tem a mesma chance de ser sorteado; como são 4 elementos,
cada elemento tem probabilidade 1/4 de ser sorteado. Finalmente, como os sorteios
são independentes, para obter a probabilidade de um par de elementos pertencer à
amostra basta multiplicar as probabilidades (lembre-se que Pr(A ∩ B) = Pr(A) Pr(B)
quando A e B são independentes). A independência dos sorteios é garantida pela
reposição de cada elemento sorteado. Na Tabela 1.1 a seguir listamos todas as

21
possíveis amostras, com suas respectivas probabilidades e para cada uma delas,
apresentamos o valor da média amostral.
Analisando esta tabela, podemos ver que os possíveis valores X são 1; 2; 3;
3,5; 4,5; 5,5; 6; 7; 8 e podemos construir a sua função de distribuição de probabilidade,
notando, por exemplo, que o valor 2 pode ser obtido através de duas amostras: (1,3)
ou (3,1). Como essas amostras correspondem a eventos mutuamente exclusivos, a
probabilidade de se obter uma média amostral igual a 2 é

Tabela 1.1: Distribuição amostral da média amostral

Com o mesmo raciocínio, obtemos a seguinte função de distribuição de


probabilidade para X :

Note que a v.a. de interesse aqui é X! Daí segue que

22
Neste exemplo podemos ver que E(X) = μ e V ar(X) = σ2/2, onde 2 é o tamanho
da amostra. Esses resultados estão nos dizendo que, em média (esperança), a
estatística X é igual à média da população e que sua variância é igual à variância da
população dividida pelo tamanho da amostra. Na Figura 1.1 temos os gráficos da
função de distribuição de probabilidade de X (população) na parte (a) e de X (amostra)
na parte (b). Podemos ver que a média de ambas é 4,5 (ambas são simétricas em
torno de 4,5) e que a distribuição de X tem menor dispersão em torno dessa média.
Note que essa média e essa variância são calculadas ao longo de todas as possíveis
aas de tamanho 2.

23
Figura 1.1: Função de distribuição de probabilidade de X e de X para aas de tamanho 2
tirada da população {1, 3, 6, 8}

Consideremos, agora, a mesma situação, só que, em vez de estudarmos a


média amostral, uma medida de posição, vamos estudar a dispersão. Como visto, a
variância populacional é V ar(X)=7, 25. Para a amostra, vamos trabalhar com dois
estimadores. Um deles vai ser S2, definido na Equação (1.2) e o outro vai ser

Da mesma forma que fizemos para a média amostral, vamos calcular o valor
dessas estatísticas para cada uma das amostras. Na Tabela 1.2 temos os resultados
parciais e globais de interesse.

24
Tabela 1.2: Distribuição amostral de 2 estimadores da variância

Podemos ver que a função de distribuição de probabilidade de S2 é

e a função de distribuição de probabilidade de σb2 é

Para essas distribuições temos:

25
Vemos que, em média, S2 é igual à variância populacional, o que não ocorre
com σb2 . Estes dois exemplos ilustram o fato de que qualquer estatística amostral T
é uma variável aleatória, que assume diferentes valores para cada uma das diferentes
amostras e tais valores, juntamente com a probabilidade de cada amostra, nos
forneceriam a função de distribuição de probabilidades de T , caso fosse possível
obter todas as aas de tamanho n da população. Isso nos leva à seguinte definição,
que é um conceito central na Inferência Estatística.
Definição 1.5 A função de distribuição amostral de uma estatística T é a função
de distribuição de probabilidades de T ao longo de todas as possíveis amostras de
tamanho n.
Podemos ver que a obtenção da distribuição amostral de qualquer estatística
T é um processo tão ou mais complicado do que trabalhar com a população inteira.
Na prática, o que temos é uma única amostra e com esse resultado é que temos que
tomar as decisões pertinentes ao problema em estudo. Esta tomada de decisão, no
entanto, será facilitada se conhecermos resultados teóricos sobre o comportamento
da distribuição amostral.

Seção 1.6: Propriedades de estimadores


No exemplo anterior, relativo à variância amostral, vimos que E(S2) = σ2 e
E(σb2) 6= σ2. Analogamente, vimos também que E(X) = μ. Vamos entender direito o
que esses resultados significam, antes de passar a uma definição formal da
propriedade envolvida.
Dada uma população, existem muitas e muitas aas de tamanho n que podem
ser sorteadas. Cada uma dessas amostras resulta em um valor diferente da estatística
de interesse (X e S2, por exemplo). O que esses resultados estão mostrando é como
esses diferentes valores se comportam em relação ao verdadeiro (mas desconhecido)
valor do parâmetro.
Considere a Figura 1.2, onde o alvo representa o valor do parâmetro e os “tiros”,
indicados pelos símbolo x, representam os diferentes valores amostrais da estatística
de interesse.

26
Nas partes (a) e (b) da figura, os tiros estão em torno do alvo, enquanto nas
partes (c) e (d) isso não acontece. Comparando as partes (a) e (b), podemos ver que
na parte (a) os tiros estão mais concentrados em torno do alvo, isto é, têm menor
dispersão. Isso reflete uma pontaria mais certeira do atirador em (a). Analogamente,
nas partes (c) e (d), embora ambos os atiradores estejam com a mira deslocada, os
tiros do atirador (c) estão mais concentrados em torno de um alvo; o deslocamento
poderia até ser resultado de um desalinhamento da arma. Já o atirador (d), além de
estar com o alvo deslocado, ele tem os tiros mais espalhados, o que reflete menor
precisão.
Traduzindo esta situação para o contexto de estimadores e suas propriedades,
temos o seguinte: nas partes (a) e (b), temos dois estimadores que fornecem
estimativas centradas em torno do verdadeiro valor do parâmetro, ou seja, as
diferentes amostras fornecem valores distribuídos em torno do verdadeiro valor do
parâmetro. A diferença é que em (b) esses valores estão mais dispersos e, assim,
temos mais chance de obter uma amostra “infeliz”, ou seja, uma amostra que forneça
um resultado muito afastado do valor do parâmetro. Essas duas propriedades estão
associadas à esperança e à variância do estimador, que são medidas de centro e
dispersão, respectivamente. Nas partes (c) e (d), as estimativas estão centradas em
torno de um valor diferente do parâmetro de interesse e na parte (d), a dispersão é
maior.
Figura 1.2: Propriedades de estimadores

27
Temos, assim, ilustrados os seguintes conceitos.
Definição 1.6 Um estimador T é dito um estimador não-viesado do parâmetro θ
se E(T) = θ.
Como nos exemplos vistos, essa esperança é calculada ao longo de todas as
possíveis amostras, ou seja, é a esperança da distribuição amostral de T. Nas partes
(a) e (b) da Figura 1.2 os estimadores são não-viesados e nas partes (c) e (d), os
estimadores são viesados.
Com relação aos estimadores X, S2 e σb2 , veremos formalmente que os dois
primeiros são não-viesados para estimar a média e a variância populacionais,
respectivamente, enquanto σb2 é viesado para estimar a variância populacional. Essa
é a razão para se usar S2, e não σb2 .
Definição 1.7 Se T1 e T2 são dois estimadores não-viesados do parâmetro θ,
diz-se que T1 é mais eficiente que T2 se V ar(T1) < V ar(T2).
Na Figura 1.2, o estimador da parte (a) é mais eficiente que o estimador da
parte (b).
Uma outra propriedade dos estimadores está relacionada à idéia bastante
intuitiva de que à medida que se aumenta o tamanho da amostra, mais perto devemos
ficar do verdadeiro valor do parâmetro.
Definição 1.8 Uma seqüência {Tn} de estimadores de um prâmetro θ é
consistente se, para todo ε > 0

Uma maneira alternativa de verificar se uma seqüência de estimadores é


consistente é dada a seguir.
Teorema 1.1 Uma seqüência {Tn} de estimadores de um prâmetro θ é
consistente se

28
Unidade 2: Inferência Estatística e Amostragem

Seção 2.1: Definição de inferência estatística


Inferência estatística é uma área da Estatística cujo objetivo é fazer afirmações
a partir de um conjunto de valores representativos (amostra) sobre um universo e se
assume que a amostra é muito maior do que o conjunto de dados observados. Esta
afirmação deve sempre vir acompanhada de uma medida de precisão sobre sua
veracidade. Para realizar este trabalho, o estatístico coleta informações de dois tipos:
experimentais (as amostras) e aquelas que obtém na literatura. As duas principais
escolas de inferência são a inferência frequentista (ou clássica) e a inferência
bayesiana.

Seção 2.2: Definições básicas


Abaixo, algumas definições utilizadas em Inferência Estatística são
apresentadas: Variável Aleatória:
• Característico numérico do resultado de um experimento.
• É a Função que associa a cada elemento do espaço amostral um número
real. População e Amostra:
• População é o conjunto de todos os elementos ou resultados de um
problema que está sendo estudado.
• Amostra é qualquer subconjunto da população que contém os elementos
que podem ser observados e é onde as quantidades de interesse podem
ser medidas. Parâmetros:
• Característica numérica (desconhecida) da distribuição dos elementos da
população. Estimador:
• É a Função da amostra, construída com a finalidade de representar, ou
estimar um parâmetro de interesse na população. Estimativa:
• Valor numérico que um estimador assume
Exemplo:
A distribuição da altura da população brasileira adulta pode ser representada
por um modelo normal (embora as alturas não possam assumir valores negativos).

29
Neste caso, temos como interesse estimar os parâmetros média e variância dessa
distribuição.
• Solução 1: Medir a altura de todos os brasileiros adultos.
• Solução 2: Selecionar de forma aleatória algumas pessoas (amostra),
analisá-las e inferir propriedades para toda a população.

Seção 2.3: Técnicas de amostragem


As Técnicas de Amostragem atuam no estudo de um pequeno grupo de
elementos retirado de uma população que se pretende conhecer. Esses pequenos
grupos retirados da população são chamados de Amostras.
Veremos a seguir as principais técnicas de amostragem, divididas em
probabilísticas e nãoprobabilísticas:
Técnicas Probabilísticas (Aleatórias)
As técnicas probabilísticas garantem a possibilidade de realizar afirmações
sobre a população com base nas amostras. Normalmente, todos os elementos da
população possuem a mesma probabilidade de serem selecionados. Assim,
considerando N como o tamanho da população, a probabilidade de cada elemento ser
selecionado será 1/N. Estas técnicas garantem o acaso na escolha.
São técnicas probabilísticas:
• Amostragem Aleatória Simples
Amostragem Aleatória Simples é o processo mais elementar e freqüentemente
utilizado. Ela pode ser realizada a partir da numeração dos elementos da população
de 1 a n e sorteando, por meio de um dispositivo aleatório qualquer, X números dessa
seqüência, que corresponderão aos elementos pertencente à amostra.
Exemplo
Obter uma amostra representativa de 10% de uma população de 200 alunos
de uma escola.
1) Numerar os alunos de 1 a 200;
2) Escrever os números de 1 a 200 em pedaços de papel e colocá-los em uma
urna;
3) Retirar da urna 20 pedaços de papel, um a um, formando a amostra da
população.

30
Nesta técnica de amostragem, todos os elementos da população têm a mesma
probabilidade de serem selecionados: 1/N, onde N é o número de elementos da
população.
• Amostragem Estratificada
Quando a população possui características que permitem a criação de
subconjuntos, as amostras extraídas por amostragem simples são menos
representativas. Nesse caso, a amostragem estratificada é utilizada.
Como a população se divide em subconjuntos, convém que o sorteio dos
elementos leve em consideração tais divisões para que os elementos da amostra
sejam proporcionais ao número de elementos desses subconjuntos. Observe a figura
abaixo:
Figura 2: Relação entre população e amostra

Exemplo
Em uma população de 400 alunos, há 240 meninos e 160 meninas. Extraia uma
amostra representativa de 10% dessa população.
Nesse exemplo, há uma característica que permite identificar 2 subconjuntos,
a característica Sexo. Considerando essa divisão, vamos extrair a amostra da
população.

31
Figira 3: Tabela 1. Relação entre População e Amostra

Portanto, a amostra deve conter 24 alunos do sexo masculino e 16 do sexo


feminino, totalizando 40 alunos, que correspondem a 10% da população.
Para selecionar os elementos da população com o objetivo de formar a
amostra, podemos executar os seguintes passos:
1) Numerar os alunos de 1 a 400, sendo os meninos numerados de 1 a 240 e
as meninas, de 241 a 400;
2) Escrever os números de 1 a 240 em pedaços de papel e colocá-los em uma
urna A;
4) Escrever os números de 241 a 400 em pedaços de papel e colocá-los em
uma urna B;
5) Retirar da urna A 24 pedaços de papel, um a um, e 16 da urna B, formando
a amostra da população.
São exemplos desta técnica de amostragem as pesquisas eleitorais por região,
cidades pequenas e grandes, área urbana e área rural, sexo, faixa etária, faixa de
renda, etc.
• Amostragem Sistemática
Esta técnica de amostragem é aplicada em populações que possuem os
elementos ordenados em que não há a necessidade de construir um sistema de
referência. Nesta técnica, a seleção dos elementos que comporão a amostra pode ser
feita por um sistema criado pelo pesquisador.
Exemplo
Obter uma amostra de 80 casas de uma rua que contém 2000 casas. Nesta
técnica de amostragem, podemos realizar o seguinte procedimento:
1) Como 2000 dividido por 80 é igual a 25, escolhemos por um método
aleatório qualquer um número entre 1 e 25, o que indica o primeiro elemento
selecionado para a amostra.
2) Consideramos os demais elementos, periodicamente, de 25 em 25.

32
Se o número sorteado entre 1 e 25 for o número 8, a amostra será formada
pelas casas: 8ª, 33ª, 58ª, 83ª, 108ª, etc.
Apesar de esta técnica ser de fácil execução, há a possibilidade de haver ciclos
de variação, o que tornariam a amostra não-representativa da população.
• Amostragem por Conglomerados
Esta técnica é usada quando a identificação dos elementos da população é
extremamente difícil. Todavia, pode ser relativamente fácil dividir a população em
conglomerados (subgrupos) heterogêneos representativos da população global.
A seguir, é descrito o procedimento de execução desta técnica:
1) Seleciona uma amostra aleatória simples dos conglomerados existentes;
2) Realizar o estudo sobre todos os elementos do conglomerado selecionado.
São exemplos de conglomerados: quarteirões, famílias, organizações,
agências, edifícios, etc.
Exemplo
Estudar a população de uma cidade, dispondo apenas do mapa dos quarteirões
da cidade.
Neste caso, não temos a relação dos moradores da cidade, restando o uso dos
subgrupos heterogêneos (conglomerados). Para realizar o estudo estatístico sobre a
cidade, realizaremos os seguintes procedimentos:
1) Numerar os quarteirões de 1 a 𝑛;
2) Escrever os números de 1 a 𝑛 em pedaços de papel e colocá-los em uma
urna;
3) Retirar um pedaço de papel da urna e realizar o estudo sobre os elementos
do conglomerado selecionado.
Técnicas Não-Probabilísticas (Não-Aleatórias)
São técnicas em que há uma escolha deliberada dos elementos da população
onde não permite generalizar os resultados das pesquisas para a população, pois
amostras não garantem a representatividade desta.
São técnicas não-probabilísticas:
• Amostragem Acidenta
Trata-se da formação de amostras por aqueles elementos que vão aparecendo.
Este método é utilizado, geralmente, em pesquisas de opinião em que os
entrevistados são acidentalmente escolhidos.
Exemplo

33
Pesquisas de opinião em shoppings, praças e locais públicos de grandes
cidades, etc.
• Amostragem Intencional
De acordo com determinado critério, é escolhido intencionalmente um grupo de
elementos que comporão a amostra. O pesquisador se dirige intencionalmente a
grupos de elementos dos quais deseja saber a opinião.
Exemplo
Em uma pesquisa sobre preferência por determinada cerveja, o pesquisador
entrevista os frequentadores dos bares de uma cidade.
Agora que já conhecemos as principais técnicas de amostragem, vamos
aprender a calcular o tamanho das amostras dos estudos estatísticos.
Antes de prosseguir, vamos definir alguns termos:
Parâmetro: Característica da população.
Estatística: Característica descritiva de elementos de uma amostra.
Estimativa: valor acusado por uma estatística que estima o valor de um
parâmetro.
O cálculo do tamanho da amostra está diretamente ligado ao erro amostral
tolerável.
Mas o que é erro amostral?
É a diferença entre o valor que a estatística pode acusar e o verdadeiro valor
do parâmetro que se deseja estimar.
O erro amostral tolerável é a margem de erro aceitável em um estudo
estatístico. Para esclarecer melhor, é quando o apresentador do telejornal, em ano de
eleições, anuncia:
“O candidato A tem 42% das intenções de voto, 2 para mais, 2 para menos.”
Quando o apresentador cita “2 para mais, 2 para menos”, ele se refere ao erro
amostral tolerável para aquela pesquisa de intenções de voto.
Tamanho da Amostra
Obs.: um passo importante antes de iniciar o cálculo do tamanho da amostra é
definir qual o erro amostral tolerável para o estudo que será realizado.
Observe a seguinte fórmula:
Onde:
• 𝑛0 é a primeira aproximação do tamanho da amostra
• 𝐸0 é o erro amostral tolerável (Ex.: 2% = 0,02)

34
, onde:
• N é o número de elementos da população
• n é o tamanho da amostra
Observe o seguinte exemplo para compreender melhor:
Exemplo
Em uma empresa que contém 2000 colaboradores, deseja-se fazer uma
pesquisa de satisfação. Quantos colaboradores devem ser entrevistados para tal
estudo?
Resolução
N = 2000
Definindo o erro amostral tolerável em 2%
𝐸0 = 0,02

Com o erro amostral tolerável em 2%, 1111 colaboradores devem ser


entrevistados para a pesquisa. Vamos repetir os cálculos, definindo o erro amostral
tolerável em 4%.
N = 2000

35
𝐸0 = 0,04

Através deste segundo cálculo, é possível observar que, quando aumentamos


a margem de erro, o tamanho da amostra reduz.
E se houvesse 300.000 colaboradores na empresa?
N = 300000
𝐸0 = 0,04

Observe que a diferença entre n e no, neste último cálculo, é muito pequena.
Portanto: se o número de elementos da população (N) é muito grande, a
primeira aproximação do tamanho da amostra já é suficiente.
Observe ainda:
N = 2000
𝐸0 = 0,04
𝑛 = 476 colaboradores = 23,8% da população.
N = 300.000
E0 = 0,04
𝑛 = 623 colaboradores = 0,2% da população.

36
Unidade 3: Inferência Estatística

Seção 3.1: Desenvolvimentos acerca da inferência estatística


A Inferência Estatística consiste de procedimentos para fazer generalizações
sobre as características de uma população a partir da informação contida na amostra.
No processo de busca pelo conhecimento de certas características quantitativas ou
qualitativas de uma determinada população são feitos estudos ou levantamentos onde
são realizadas medições ou contagens provenientes de todos os elementos dessa
população - levantamento censitário - ou de um subconjunto ou amostra dela -
levantamento amostral.
Em princípio, o senso comum nos diz que o levantamento censitário é mais
preciso que um levantamento amostral. Entretanto, isso nem sempre é verdade, pois
erros ocorrem devido ao despreparo da equipe de coleta de dados etc.
Normalmente, utilizamos o levantamento amostral e, a partir de dados
fornecidos por essas amostras fazemos afirmações probabilísticas sobre a população
em estudo. Destacamos que o processo de seleção de uma amostra exerce um papel
primordial na determinação da composição dessa amostra. Há situações, porém, em
que a amostra se constitui por mera observação.
Nas populações infinitas, a amostra será randômica se cada observação for
independente da outra, isto é, a ocorrência de um evento não influencia de modo
algum na ocorrência do outro.
As características numéricas de uma população chamam-se parâmetros
enquanto as características de uma amostra chamam-se estatísticas. Tais
características podem ser medidas de tendência central (por exemplo: média ou
moda), dispersão (por exemplo: desvio-padrão) ou, no caso de fenômenos
qualitativos, a proporção de observações de determinada espécie. Naturalmente, os
parâmetros de uma população infinita nunca são observados. Os parâmetros de uma
população finita poderiam ser observados, mas por questões como custo e tempo de
processamento tornam-se inviáveis de serem observados na prática.
Assim, se a população for infinita, nunca poderá ser observada como um todo,
e qualquer julgamento sobre ela só poderá vir da amostra. Mas mesmo no caso da
população ser finita pode haver boa razão para observarmos apenas a amostra, como
no caso de se querer medir a duração média de lâmpadas.

37
O objetivo da inferência estatística é, portanto, ajuizar sobre parâmetros
populacionais com base em estatísticas amostrais. Na verdade, são tentativas de
adivinhação revestidas de certo grau de segurança e que podem ser de dois tipos: ou
se relacionam à estimação de parâmetros ou ao teste de alguma hipótese sobre o
parâmetro de interesse.
A estimação é feita com o auxílio de um estimador, ou seja, de uma fórmula
que descreve o modo de calcularmos o valor de determinado parâmetro populacional.
O valor específico de um estimador chama-se estimativa. Juízos na forma de testes
de hipótese consideram a priori certos pressupostos sobre o valor de um parâmetro.
Se a informação amostral fornecer evidência contra a hipótese, nós a rejeitamos. Caso
contrário, a hipótese será aceita.
É evidente que diferentes amostras conduzem a diferentes avaliações.
Algumas estarão mais perto da verdade, ou seja, do valor verdadeiro do parâmetro,
do que outras. Na prática, geralmente só temos uma amostra e, portanto, somente
uma avaliação.
Convém ressaltar, que a redução no erro de amostragem é substancial para
aumentos iniciais no tamanho da amostra, tornando-se, porém, desprezível após
determinado tamanho da amostra.
Em síntese, a variabilidade amostral indica que nem todas as amostras são
iguais. Já a representatividade amostral sugere que a média amostral terá
características similares a da população se o método de amostragem utilizado for
adequado. O equilíbrio entre essas duas ideias aparentemente antagônicas é
primordial no estudo da Inferência Estatística. Nota-se que os estudantes em geral
dão ênfase excessiva na representatividade da amostra e esquecem a sua
variabilidade e o efeito do tamanho da amostra sobre a mesma.
Destacamos que, no cálculo da variância de uma amostra de tamanho n,
devemos utilizar um fator de correção da fórmula de variância conhecido como Fator
de Correção de Bessel (APÊNDICE B). Assim, ao invés de dividirmos o desvio
quadrático de cada valor possível em relação ao valor esperado por n (supondo que
cada valor possível possui igual probabilidade de ocorrência), faremos a divisão por
n-1.

38
Seção 3.2: Distribuições amostrais
Na seção anterior vimos que a maneira de sabermos o grau de fidedignidade
de uma avaliação é conhecer o comportamento de todas as avaliações que poderiam
ser feitas com base em todas as amostras possíveis. Podemos retirar uma amostra
após a outra, procurando saber qual o valor da avaliação de cada amostra e arranjar
tais cálculos em forma de distribuição. Se tivermos um número infinito de tais
amostras, a distribuição resultante será chamada de distribuição amostral.
Consideremos, por exemplo, o problema de estimar a renda média familiar do Brasil
em determinado mês, com base em uma amostra de 100 famílias. Uma possibilidade
seria calcular a renda média familiar de nossa amostra e usá-la como estimativa da
média populacional.
Naturalmente, poderíamos usar a moda ou a mediana ou alguma outra medida
como nosso estimador. Suponhamos que estimamos a média populacional usando a
média amostral. Desejamos então saber o grau de segurança deste estimador. Um
modo de descobrir isto seria retirar um número infinito de tais amostras, calculando o
valor da média amostral de cada amostra e dispondo estes valores em forma de
distribuição. Observe que, embora a população de todas as famílias do Brasil seja
finita, o número de amostras que podemos retirar desta população é infinito, enquanto
permitirmos que cada família seja incluída em cada uma das amostras. Tal
amostragem chama-se amostragem com repetição.
Se cada família contida na amostra for selecionada ao acaso, não saberemos
de antemão qual será sua renda. Neste caso a renda familiar será uma variável
randômica. Além disso, a renda média observada numa amostra é também uma
variável randômica. Isso significa que a distribuição amostral de uma média de
amostras, considerando um número infinito de amostras, é realmente uma distribuição
de probabilidade.
Tal distribuição pode ser discreta ou contínua, dependendo da natureza da
variável populacional. Em nosso exemplo, a distribuição amostral é contínua visto que
a renda é uma variável contínua.
Naturalmente, amostras de diversos tamanhos nos darão informações diversas
sobre a população de onde são retiradas. Portanto, os estimadores que utilizam
amostras de diferentes tamanhos ostentarão diferentes graus de confiabilidade. É
importante destacar que qualquer distribuição amostral se refere sempre a amostras
do mesmo tamanho.

39
Quando se usa uma amostra da população sempre haverá uma probabilidade
de estar cometendo um erro (justamente por ser usada uma amostra), chamado erro
amostral: a diferença entre os métodos estatísticos e os outros reside no fato de que
os métodos estatísticos permitem calcular essa probabilidade de erro. E para que isso
seja possível a amostra da população precisa ser aleatória.
Distribuição Amostral da Média
Suponha uma população identificada pela variável aleatória Y, cujos
parâmetros média populacional µ=E(Y) e variância σ² = Var(Y) são supostamente
conhecidos. Vamos retirar todas as amostras possíveis de tamanho n dessa
população e para cada uma delas, calcular a média Ῡ.
Vamos supor a seguinte população {2,3,4,5} com média µ=3,5 e variância σ² =
1,25.
Vamos relacionar todas as amostras possíveis de tamanho 2, com reposição,
desta população. Da análise combinatória verificamos 16 possíveis combinações: 16
= 4x4

Agora, vamos calcular a média de cada amostra. Teremos:

Por fim, vamos calcular a média das médias, ou seja,


E(Ȳ) = (2,0 + 2,5 + ...+ 5,0)/16 = 3,5 = µ
Agora, vamos calcular a variância:
VAR (Ῡ) = [(2,0 - 3,5)² + (2,5 - 3,5)² + ... + (5,0 - 3,5)²]/16
VAR(Ȳ) = 0,625
Agora vamos relacionar todas as amostras possíveis de tamanho 3, com
reposição, desta população. Nesse caso, existem 64 possíveis combinações: 64 =
4x4x4

40
Similarmente, calculando a média de cada amostra e a média das médias
obteremos:
E(Ȳ) = 3,5
e
VAR(Ȳ) = 0,417
Seja VAR(Ȳ) = VAR(Y)/n , em que n é o tamanho das amostras retiradas da
população:
Para n=2 temos:
VAR(Ȳ) = (1,25)/2 = 0,625
Para n=3 temos:
VAR(Ȳ) = (1,25)/3 = 0,417
Podemos verificar que, a distribuição das médias destas amostras tende para
uma distribuição com média µ (igual à média da população) e com desvio padrão
Teorema Central do Limite
O Teorema Central do Limite afirma que quando o tamanho da amostra
aumenta a distribuição amostral da sua média aproxima-se cada vez mais de uma
distribuição normal. Este resultado é fundamental na teoria da inferência estatística, e
sua utilidade vai desde estimar os parâmetros como a média populacional ou o desvio
padrão da média populacional a partir de uma amostra aleatória dessa população, ou
seja, da média amostral e do desvio padrão da média amostral, até calcular a
probabilidade de um parâmetro ocorrer dado um intervalo, sua média amostral e o
desvio padrão da média amostral.
O uso generalizado da distribuição normal no universo estatístico deve-se ao
Teorema Central do Limite. Sua prova pode ser encontrada em muitos textos de

41
estatística matemática, mas não a apresentaremos aqui por não fazer parte do escopo
de nosso trabalho. Esse teorema apresenta três propriedades básicas:
a) A média da distribuição amostral é igual à média da população, e igual à
média de uma amostra quando o tamanho da amostra tende ao infinito (Lei
dos Grandes Números).
b) A forma da distribuição amostral tende a assumir a forma de sino à medida
que se aumenta o tamanho da amostra, e aproximadamente normal,
independente da forma da distribuição da população.
c) A forma da distribuição amostral cresce em altura e decresce em dispersão
à medida que o tamanho da amostra cresce.
Seja uma população com média µ e desvio padrão σ, e selecionemos várias
amostras de tamanho n. Para cada uma dessas amostras é possível calcular a
respectiva média.
Pelo Teorema Central do Limite, a distribuição das médias destas amostras
tende para uma distribuição normal com média µ (igual à média da população) e com
desvio padrão
Ao desvio padrão da distribuição das médias amostrais dá-se o nome de erro
padrão da média.
Se o erro padrão for pequeno as amostras com médias semelhantes à média
da população são mais frequentes e assim é mais provável que a amostra que
obtivemos seja uma dessas amostras. O erro padrão pode ser controlado com o
tamanho da amostra, pois quanto maior for o tamanho da amostra menor será o erro
padrão.
Obs: para amostras com tamanho n>30 a distribuição das médias amostrais
pode ser aproximada satisfatoriamente por uma distribuição normal.
Na verdade, já havíamos mostrado anteriormente a aplicação desse teorema
(sem mencionálo explicitamente) quando discorremos sobre a distribuição de
probabilidade no lançamento de n dados. Verificamos, também, sua validade no
experimento de lançamento de n moedas se ao invés de classificarmos como sucesso
ou insucesso a obtenção de cara ou coroa respectivamente atribuirmos o valor 0 para
insucesso e 1 para sucesso.
Exemplo:
As notas num certo exame padronizado têm media 500 e desvio-padrão 60.
Uma nota acima de 530 é considerada muito boa. Uma pessoa consegue entrar em

42
uma Universidade de prestígio se ela obtém acima de 530 neste exame. Numa certa
sala onde o exame foi aplicado, 36 pessoas fizeram o teste. A nota média destas
pessoas foi de 540. É razoável haver algum tipo de investigação para tentar detectar
se houve alguma fraude no certame?
Solução: Seja Y a nota no teste. Pelo enunciado do problema, Y tem media 500
e desviopadrão 60. Logo, a média amostral das notas das 36 pessoas daquela sala
(supondo que as notas são independentes umas das outras e identicamente
distribuídas) é uma variável com media 500 e variância (60)2 /36. Então, pelo Teorema
Central do Limite:

é aproximadamente N (0,1)

Logo, é absolutamente improvável que a nota media daquelas 36 pessoas


tenha sido de 540, um indício claro de fraude no teste e que, portanto, precisará ser
investigado.

Seção 3.3: Amostragem


Amostragem é o processo de obtenção de amostras. Ele é considerado parte
fundamental no estudo da inferência estatística. Nessa parte do trabalho
apresentaremos algumas noções sobre esse assunto visto que a Teoria das
Amostragens constitui hoje um campo bastante desenvolvido e amplo da Estatística.
Um processo de amostragem diz-se enviesado quando tende sistematicamente
a selecionar elementos de alguns segmentos da população, e a não selecionar
sistematicamente elementos de outros segmentos da população.
Surge assim a necessidade de fazer um planejamento da amostragem que
consiste, entre outras coisas, estabelecer quais elementos da população deverão
compor a amostra assim como o método de seleção desses elementos.
De um modo geral, o trabalho do Estatístico deve começar antes de os dados
serem recolhidos. Nesse sentido, o planejamento de um estudo estatístico, que

43
começa com a forma de selecionar a amostra, deve ser feito de forma a evitar
amostras enviesadas.
A seguir apresentamos exemplos de amostras enviesadas e como elas afetam
o resultado da sua aplicação:
• Amostra 1 – Utilização de alguns alunos de uma turma para tirar
conclusões sobre o aproveitamento de todos os alunos da escola.
Resultado – Poderíamos concluir que o aproveitamento dos alunos é pior ou
melhor do que na realidade é. As turmas de uma escola não são todas homogêneas,
pelo que a amostra não é representativa dos alunos da escola. Poderia servir para
tirar conclusões sobre a população constituída pelos alunos da turma.
• Amostra 2 – Utilização dos jogadores de uma equipa de basquete de uma
determinada escola para avaliar as alturas dos alunos dessa escola.
Resultado – O estudo concluiria que os estudantes são mais altos do que na
realidade são.
Os exemplos que apresentamos anteriormente são exemplos de amostras
enviesadas porque tiveram a intervenção do fator humano. Veremos logo adiante que,
mesmo uma amostra aleatória pode não ser representativa da população em estudo.
A amostragem divide-se em métodos probabilísticos e métodos não
probabilísticos.
Os métodos não probabilísticos de seleção de amostras não podem ser
medidos objetivamente em contraposição aos métodos probabilísticos. Uma amostra
é dita probabilística se a sua seleção é feita de maneira que cada elemento da
população tem probabilidade conhecida de ser selecionado. No presente trabalho
apresentaremos os principais métodos probabilísticos de seleção de amostras:
1) Amostragem aleatória simples: todos os elementos da população têm a
mesma chance de serem selecionados. Este tipo de amostragem
probabilística somente é recomendável se a população for homogênea em
relação à variável de interesse.
Exemplo: Queremos realizar uma pesquisa de opinião sobre a qualidade de
um curso universitário, que tem cerca de 1000 alunos, perguntando aspectos relativos
ao encadeamento das disciplinas no currículo.
No presente caso estamos interessados na opinião dos alunos sobre o
currículo. É razoável imaginar que um aluno do quarto ano tenha um conhecimento
diferente do currículo do que outro do segundo ano, podendo, portanto, acarretar em

44
diferentes opiniões e comprometer o resultado da pesquisa. Assim, como não há
homogeneidade na população acerca da variável de interesse, a amostragem
aleatória simples não é apropriada para este caso.
2) Amostragem estratificada: consiste em dividir a população em grupos
(chamados estratos) por um processo denominado estratificação e de cada
grupo selecionar uma amostra aleatória simples. A divisão da população em
grupos tem por finalidade juntar num mesmo grupo elementos da população
mais homogêneos entre si quanto à característica em estudo do que na
população como um todo. Após a determinação dos estratos, seleciona-se
uma amostra aleatória simples de cada estrato. Divide-se em:
a) Amostragem Estratificada Proporcional: A proporcionalidade do tamanho de
cada estrato da população é mantida na amostra. Exemplo: Se um estrato
abrange 30% da população, ele também deve abranger 30% da amostra.
Figura 4:

Exemplo:
Em uma população de 1000 pessoas, há 600 homens e 400 mulheres. Extraia
uma amostra representativa, de 10%, dessa população.
Nesse exemplo, há uma característica que permite identificar 2 subconjuntos,
a característica sexo. Considerando essa divisão, a amostra será constituída da
seguinte forma:
Figura 5

45
Portanto, a amostra deve conter 60 pessoas do sexo masculino e 40 do sexo
feminino, totalizando 100 pessoas, que correspondem a 10% da população.
Para selecionar os elementos da população para formar a amostra, podemos
executar os seguintes passos:
1) Numerar as pessoas de 1 a 1000, sendo os homens numerados de 1 a 600
e as mulheres, de 601 a 1000;
2) Escrever os números de 1 a 600 em pedaços de papel e colocá-los em uma
urna A;
3) Escrever os números de 601 a 1000 em pedaços de papel e colocá-los em
uma urna B;
4) Retirar 60 pedaços de papel, um a um, da urna A, e 40 da urna B, formando
a amostra da população.
São exemplos desta técnica de amostragem as pesquisas eleitorais por região,
cidades pequenas e grandes, área urbana e área rural, sexo, faixa etária, faixa de
renda, etc. Mais adiante, quando falarmos sobre pesquisa eleitoral, destacaremos a
importância da existência de um cadastro.
b) Amostragem Estratificada Uniforme: Selecionamos o mesmo número de
elementos em cada estrato. É o processo usual quando se deseja comparar
os diversos extratos.
3) Amostragem sistemática: quando os elementos da população se
apresentam ordenados e a retirada dos elementos da amostra é feita
periodicamente até compor o total da amostra, sendo o primeiro elemento
sorteado aleatoriamente. Nesse tipo de amostragem a população deverá
ser homogênea em relação à variável de interesse.
Exemplo: Uma operadora telefônica pretende saber a opinião de seus
assinantes comerciais sobre seus serviços em determinada cidade. Supondo que há
25037 assinantes comerciais, e a amostra precisa ter no mínimo 800 elementos,
mostre como seria organizada uma amostragem sistemática para selecionar os
respondentes.
A operadora dispõe de uma lista ordenada alfabeticamente com todos os seus
assinantes, o intervalo de retirada será:
k = N/n = 25037/800 = 31,2965

46
Como o valor de k é fracionário algo precisa ser feito. Aumentar o tamanho da
amostra não resolverá o problema, porque 25037 é um número primo. Como não
podemos reduzir o tamanho de amostra, devendo permanecer igual a 800, se
excluirmos por sorteio 237 elementos da população, e refizermos a lista teremos:
k = N/n = 24800/800 = 31
A cada 31 assinantes, um é retirado para fazer parte da amostra. Sorteando
como ponto de partida um número de 1 a 31 (do 1º ao 31º assinante), e tendo como
sorteado o número 5, então a amostra será da forma:
{5, 36, 67, 98, ...., 24774}

Seção 3.4: Estimação


No processo de estimação, diferentemente do que ocorre no teste de hipóteses,
não fazemos asserções apriorísticas cuja credibilidade deva ser disputada. No
processo de estimação fazemos perguntas sobre o valor de um parâmetro particular,
e mediante o uso de um estimador calculamos uma estimativa para aquele parâmetro.
A estimação pode ser dividida em duas partes, estimação por pontos e
estimação por intervalos. Na estimação por ponto o objetivo é usar a informação
amostral e apriorística para se calcular um valor que seria, em certo sentido, nossa
melhor avaliação quanto ao valor de fato do parâmetro em questão. Na estimativa por
intervalo usa-se a mesma informação com o propósito de se produzir um intervalo que
contenha o valor verdadeiro do parâmetro com algum nível de probabilidade. Como
um intervalo está plenamente caracterizado por seus limites, a estimação de um
intervalo equivale à estimação de seus limites.
Para que o estimador atenda os objetivos do estatístico/pesquisador, ou seja,
para que se alcance boas estimativas de um determinado parâmetro populacional, ele
deverá apresentar as seguintes propriedades:
1. Consistência
Consistência é uma propriedade por meio da qual a acurácia de uma estimativa
aumenta quando o tamanho da amostra aumenta.
2. Não tendenciosidade
Em uma particular amostra, o valor calculado pelo estimador pode desviar para
mais ou para menos do valor do parâmetro, mas espera-se que, em média, ele

47
determine o verdadeiro valor do parâmetro populacional. Não tendenciosidade é uma
propriedade que assegura que, em média, o estimador é adequado.
3. Erro quadrático médio
É um conceito relacionado ao conceito de variância. A diferença entre a
variância de um estimador e o erro quadrático médio é que, enquanto a variância
mede a dispersão da distribuição em torno da media, o erro quadrático médio mede a
dispersão em torno do verdadeiro valor do parâmetro. Quanto menor o seu valor,
melhor é o estimador.
Inicialmente faremos algumas considerações a respeito da aplicabilidade da
estatística em um processo eleitoral.
A ideia básica da estimação baseia-se na suposição de que se a nossa amostra
é representativa da população, então a proporção de indivíduos na amostra que
possuem a mesma intenção de voto em um determinado candidato deverá nos
fornecer uma estimativa razoável do percentual de indivíduos da população em geral
que pretendem votar nesse candidato. E para quantificarmos esse resultado
utilizamos a teoria da probabilidade.
Os institutos de pesquisa no Brasil não fazem pesquisas probabilísticas puras,
sem cotas, como é comum nos Estados Unidos. O objetivo das cotas é garantir a
representatividade do universo que se pretende estudar. No caso das pesquisas
eleitorais, a amostra deve refletir a distribuição do eleitorado segundo dados
atualizados pelo TSE. O tempo necessário para aplicar o método de forma correta no
Brasil não permitiria acompanhar o caráter dinâmico do processo eleitoral. Além disso,
os altos custos envolvidos nas pesquisas domiciliares com método probabilístico puro
inviabilizam a técnica no país. Nos Estados Unidos, a maioria dos estudos eleitorais
são feitos por telefone , com controle do histórico de comportamento do eleitorado (se
o entrevistado foi votar em eleições anteriores, por exemplo). Mas mesmo lá
pesquisas feitas por telefone têm sido questionadas, já que uma parcela significativa
dos eleitores está trocando as linhas fixas por celulares.
Uma dúvida bastante comum entre as pessoas é com relação aos dados
divulgados pela imprensa. Quando algum instituto de pesquisa informa que o
candidato A possui 44% das intenções de voto e que a margem de erro é de 2,0
pontos percentuais para mais ou para menos com intervalo de confiança de 95% isso
significa que, em 100 amostras, 95 delas contêm o verdadeiro valor. Invariavelmente

48
os institutos de pesquisa omitem o intervalo de confiança. Geralmente o intervalo
adotado é de 95%.
Vejamos, então, a aplicação do método de estimação para calcularmos o
percentual provável de indivíduos que irão votar em um determinado candidato em
um processo eleitoral:
Primeiramente, escolhemos um indivíduo aleatoriamente. Uma vez escolhido
não queremos escolher o mesmo indivíduo novamente. Supondo que a população
supera em muito qualquer número de indivíduos que possamos escolher para nossa
pesquisa, isso significa que o percentual de indivíduos que compartilham de uma
mesma opinião não se alterará, ao removermos esse indivíduo da população. Isso
acontece ao removermos o segundo, o terceiro, o quarto ou o quinto indivíduo, e daí
sucessivamente. Portanto, ao selecionarmos n indivíduos aleatoriamente da
população estaremos reproduzindo na verdade o experimento de Bernoulli n vezes.
Ainda não sabemos a probabilidade de sucesso em uma tentativa. Porém, se
escolhermos um número significativo de indivíduos o modelo probabilístico se
aproximará da distribuição normal. Como o experimento é aleatório, tudo pode
acontecer. Mas esperamos que o número de sucessos em nossa amostra esteja
próximo à media do experimento, e no intervalo de 1 ou 2 desvios-padrão da media.
Portanto, o resultado esperado deverá ficar em algum ponto próximo da parte central
de nossa curva de distribuição normal.
Destacamos que, a proporção de eleitores da amostra que pretendem votar no
candidato A certamente será diferente se selecionarmos outra amostra ao acaso.
Utilizando a distribuição binomial e o fato de que para uma amostra suficientemente
grande a distribuição de p* é aproximadamente normal com média igual a p e variância
dada por p(1-p)/n, podemos mostrar que a probabilidade de que o intervalo abaixo
contenha o verdadeiro valor de p é aproximadamente igual a 95%.

Demonstração:
Sejam:
p– proporção de eleitores que pretendem votar no candidato A
n– número de eleitores (tamanho da amostra)

49
p* é variável, dependendo da amostra colhida

Com o auxílio da distribuição binomial mostraremos que a média de p* é igual


a p e que a variância é dada por p(1-p)/n
Sabemos como calcular o valor esperado e a variância de uma variável
aleatória binomial (pag.16). Seja X o número de sucessos e p a proporção de
sucessos em n tentativas, então p=X/n. Podemos encontrar E(p) e Var(p):
E(p)=E(X/n)= E(X)/n= np/n=p
e
Var(p)=Var(X/n)=Var(X)/n 2 = np(1-p)/n 2 = p(1-p)/n
Como a aferição desse intervalo depende do valor desconhecido de p, se
substituirmos p(1- p) pelo seu valor máximo o problema estará resolvido. O produto
p(1-p) atinge seu máximo quando p= 0,5. Portanto, pode-se afirmar que a
probabilidade de que o intervalo supracitado contenha o verdadeiro valor de p é no
mínimo de 95%.
Assim, se desejarmos uma margem de confiança de 95% e uma margem de
erro de 2,0 pontos percentuais (para mais ou para menos) o tamanho de nossa
amostra n deverá satisfazer:

E, portanto, n deverá ser igual a 2401 eleitores.


Em nossa pesquisa eleitoral entrevistaremos 2401 pessoas aptas a votar.
Suponhamos que o número de pessoas que responderam que iriam votar no
candidato A seja de 1675 pessoas de 2401 pesquisadas. Se a amostra for realmente
aleatória ela deverá refletir a população como um todo.
Assumindo que a estimativa obtida em nossa amostra seja próxima à
probabilidade p0 (nº de eleitores na população que apoiam o candidato A) então p0 ≈
0,698.

50
Utilizando as fórmulas abaixo:

Obtemos,

Logo, há 95% de probabilidade da media µ se encontrar entre m – 1,96d e m +


1,96d.
Ou seja,

Como µ = 0 então,

Concluímos, portanto, que o candidato A tem aproximadamente 70% de


intenção de voto com margem de erro de 2% para mais ou para menos.
Assim, se o tamanho da amostra permanecer fixo, um aumento da precisão
implica necessariamente numa diminuição da confiança. A única forma de melhorar a
precisão sem alterar a confiança é aumentando o tamanho da amostra.
É importante observar também que a confiança e a precisão estão relacionadas
com o tamanho da amostra. Nesse sentido, se quisermos manter a confiança e reduzir
o intervalo pela metade, precisaremos de uma amostra quatro vezes maior que a
proposta inicialmente. Logo, o preço a ser pago pela melhoria da precisão nem
sempre será compensado pelo tempo de coleta.

51
Finalmente, devemos frisar que as pesquisas de intenção de voto são bem mais
sofisticadas do que a apresentada nesse trabalho e que eventuais variações nos
resultados das pesquisas eleitorais realizadas pelos diferentes institutos de pesquisa
devem-se basicamente à metodologia adotada.
Testes de Hipótese
Nos testes de hipótese, faz-se uma afirmação referente à população, e o intuito
é saber se a proposição é verdadeira ou falsa. Geralmente fazemos mais de uma
afirmação, mas nem todas elas devem ser testadas. Aquelas informações que não se
pretende que sejam expostas a testes chamam-se hipóteses subjacentes. Compõem-
se de todos os pressupostos sobre os quais nos apoiamos e nos quais acreditamos.
Naturalmente, nunca estamos totalmente certos de que tais pressupostos sejam
válidos, caso contrário não seriam pressupostos. Acreditamos que eles possuem
validade provável, de modo que as hipóteses subjacentes se encontram muito
próximas das corretas. As suposições remanescentes que devem ser testadas
chamamse hipóteses testáveis. Como afirmações específicas são mais fáceis de
serem rejeitadas do que afirmações vagas, é desejável formular problemas de testes
de hipótese de modo a fazer com que a hipótese nula seja a mais específica possível.
Isso significa que frequentemente utilizamos como hipótese nula a proposição que de
fato queremos rejeitar.
Destacamos que, o critério para a rejeição ou não rejeição da hipótese nula
com base em uma amostra não é uma garantia de chegarmos a uma conclusão
correta.
O teste de hipótese compõe-se essencialmente de três passos básicos:
definição das hipóteses, estabelecimento dos limites entre as regiões de aceitação e
rejeição e a obtenção do valor amostral do teste estatístico. No processo de obtenção
desse valor duas ocorrências são possíveis: ou a estatística/teste estatístico cai na
região de aceitação ou não. Vamos considerar, em primeiro lugar, a segunda
ocorrência.

52
Neste caso o valor do teste estatístico é tal que, se a hipótese nula for realmente
verdadeira, a probabilidade de ela ocorrer, por acaso, será muito pequena, por
exemplo, 5% (intervalo de significância). Isto significa que, se o teste for repetido um
número infinito de vezes e se a hipótese nula for realmente verdadeira, rejeitaríamos
a hipótese nula 5% das vezes. Chamamos este erro de erro do tipo I. Nos testes
estatísticos a probabilidade de se cometer tal erro é dada precisamente pelo nível de
significância escolhido. Consideremos agora a segunda ocorrência possível do teste,
isto é, o caso em que não rejeitamos a hipótese nula, isto é, continuamos julgando-a
verdadeira. Mas a probabilidade de que cheguemos a uma conclusão incorreta, isto
é, de que a hipótese nula seja realmente falsa não pode ser excluída. Um erro desta
espécie chama-se erro do tipo II. Nos testes estatísticos, a probabilidade exata desta
espécie de erro é geralmente desconhecida, pois depende da diferença entre o valor
da hipótese e o verdadeiro parâmetro da população.
Exemplo:
Considere uma turma de 10 alunos de uma escola em que se é aplicado dois
testes. O objetivo é verificar se houve significativo progresso da turma ao longo do
tempo mediante aferição dos resultados obtidos nos dois testes. Suponhamos que os
dois testes aplicados possuem dificuldade equivalente.
Para essa medição, atribuímos os números 5, 4, 3, 2, 1 para os diferentes graus
A, B, C, D, E, respectivamente.
Sejam os resultados obtidos discriminados na tabela abaixo:

Após a aplicação dos dois testes, apuramos a diferença total de +12,


sinalizando, a princípio, que houve significativo progresso da turma. Entretanto, uma
dúvida persiste. A diferença verificada é fruto de uma melhoria de fato ou um mero
acaso?

53
Vamos, por hipótese, assumir que não há razão para crer que houve de fato
um progresso da turma. Essa será a nossa hipótese a ser testada (H0). A hipótese
alternativa é a de que, de fato, houve um progresso da turma (H1).

Podemos estabelecer uma correspondência entre os números aleatórios


conforme a tabela abaixo:

Agora, reproduza esse experimento diversas vezes, utilizando para cada


experimento 20 números aleatórios e, para cada experimento, faça o registro da
diferença total obtida. Verifique quantas vezes a diferença foi maior que +12. Se o
número de vezes for pequeno, a hipótese está provavelmente errada, sugerindo que
houve um progresso significativo da turma. Caso contrário, a hipótese está
provavelmente correta.
Obs: o experimento que acabamos de realizar segue uma distribuição t de
Student. A distribuição t de Student é uma das distribuições mais utilizadas na
estatística. A sua função densidade tem a mesma forma em sino da distribuição
normal, mas reflete uma maior variabilidade (com curvas mais alargadas) que é de se
esperar em amostras pequenas.
Para auxílio do professor preparamos uma sequência de passos para a
construção de um Teste de Hipótese:
• Passo 1: determinar qual a hipótese H0 a ser testada e qual a hipótese
alternativa H1.

54
• Passo 2: usar a teoria estatística e as informações disponíveis para decidir
qual o estimador será usado para testar a hipótese H0. Obter as
propriedades dessa estatística (distribuição, média, desvio-padrão).
• Passo 3: fixar a probabilidade de cometer o erro Tipo I e usar este valor
para construir a região crítica (regra de decisão).
• Passo 4: use as observações da amostra para calcular o valor da estatística
do teste.
• Passo 5: se o valor da estatística calculado com os dados da amostra não
pertencer à região crítica, não rejeite H0; caso contrário, rejeite H0.
Na construção de hipóteses, sempre vamos estabelecer a hipótese nula como
uma igualdade, de forma que a probabilidade do Erro Tipo I, , pode ser controlada em
um valor específico.
Já a hipótese alternativa pode ser tanto unilateral como bilateral, dependendo
da conclusão a ser retirada se H0 é rejeitada.
Se o objetivo é fazer alegações como “maior que”, “menor que”, “superior a”,
“excede”, “no mínimo”, e assim por diante, uma alternativa unilateral é apropriada.
Se nenhuma direção é implicada pela alegação, ou tivermos “diferente de”, “não
igual a”, uma alternativa bilateral deve ser usada.
Portanto, se a hipótese nula e alternativa de um teste de hipótese são:

Onde µ0 é uma constante conhecida, o teste é chamado de teste unilateral


esquerdo. Para

O teste é chamado de teste unilateral direito.


No caso em que

55
o teste é chamado de teste bilateral.
Ao longo do trabalho, houve relativa dificuldade quanto à disposição em que os
tópicos deveriam ser apresentados, visto ser necessário o domínio de vários conceitos
estatísticos para o desenvolvimento do tema propriamente dito.
Acreditamos que o contato do aluno do ensino médio com a Curva Normal e
com a estatística inferencial é de fundamental importância para uma análise crítica de
diversos outros tópicos ministrados em outras disciplinas do ensino médio. Além
disso, um primeiro contato com esses assuntos servirá como base para eventuais
estudos futuros na Universidade, independentemente da área escolhida. Em
determinadas partes do trabalho o rigor matemático foi dispensado para uma maior
fluidez do assunto.
Destaco a fundamental relevância do Teorema Central do Limite sem a qual o
desenvolvimento do tema proposto careceria de uma maior aplicabilidade.
Espero que esse trabalho possa contribuir para que o ensino da estatística em
nossas escolas de ensino médio não fique limitado à apresentação da estatística
descritiva básica e, principalmente, conscientizar nossos professores do momento
mais adequado para desenvolver esses assuntos em sala de aula.

56
Referências
DEVORE, J. L. Probabilidade e Estatística para Engenharia e Ciências. Ed.
Thomson, 2006.

COSTA NETO, PEDRO. L. O. Estatística. Ed. Edgard Blücher, LTDA. 2002.

GOODE, WILLIAM J.& HATT, PAUL K. Métodos em Pesquisa Social. Ed.


Companhia Editora Nacional, 1979.

HINES, W. & MONTGOMERY, D. C. Probability and Statistics in Engineering and


Management Science. Ed. Wiley, 1990.

MONTGOMERY, D. C. & RUNGER, G. C. Estatística Aplicada e Probabilidade para


Engenheiros. LTC, 2009

MOOD A. M, GRAYBILL F., BOES, D. C. Introduction to the Theory of Statistics.


Editora McGraw-Hill, 1974.

SIEGEL, SIDNEY. Estatística Não – Paramétrica. Para Ciências do Comportamento.


Ed.McGraw-Hill, 1979.

WALPOLE, R. ; MYERS, R.; MYERS, S & YE, K. Probabilidade e Estatística para


Engenharia e Ciências. Ed. Pearson, 2009.

BARBETTA, Pedro Alberto. Estatística Aplicada às Ciências Sociais, Ed. UFSC, 5ª


Edição, 2002.

57

Você também pode gostar