Você está na página 1de 29

Universidade Federal do Recôncavo da Bahia

Centro de Ciências Exatas e Tecnológicas


GCET060 – Métodos Estatísticos

INTRODUÇÃO A INFERÊNCIA ESTATÍSTICA


Parte 1

Profª Sandra Pinheiro


I – Noções de amostragem

O que é amostragem

A amostragem é um campo da estatística bastante sofisticado que estuda técnicas de planejamento de


pesquisa para possibilitar inferências sobre um universo a partir do estudo de uma pequena parte de
seus componentes, uma amostra (subconjunto de uma população).

Se a população em estudo for muito pequena, todos os indivíduos devem ser utilizados para a medição
das características que se deseja conhecer sobre a mesma, nesse caso têm-se os valores dos
parâmetros. Agora, se a população em estudo for grande, na maioria das vezes faz-se necessário retirar
uma amostra representativa através das técnicas de amostragem.
Esquemas amostrais

Por esquema amostral entende-se a dupla: sorteio e métodos de estimação dos parâmetros,
geralmente médias e totais, e de modo que se possam obter suas variâncias.

Os principais esquemas amostrais são: amostragem aleatória simples, sistemática, estratificada e


por conglomerados. Normalmente é usada uma combinação destes esquemas básicos.

1. Amostragem Aleatória Simples

Neste tipo de amostra considera-se que cada componente da população estudada tem a mesma
chance de ser escolhido para compor a amostra e a técnica que garante esta igual probabilidade é
a seleção aleatória de indivíduos, por exemplo, através de sorteio.

O sorteio dos elementos da amostra é feito geralmente de uma lista com todos os elementos da
população, e pode-se usar a tabela de números aleatórios.
Exemplo de amostra aleatória simples

1) Selecionar uma amostra para avaliação de características do pimentão em estufas.


2) Selecionar uma amostra de camarão-vermelho para avaliar o comprimento total.

A fórmula para estimar a proporção, usada é:

Onde:
P - é o estimador da proporção de elementos da população que possuem determinada característica de
interesse;
d - representa a precisão ou distância de P, em ambas as direções, do verdadeiro valor populacional P;
z 1-/2 – designa o percentil da distribuição gaussiana a que corresponde o nível de confiança 1-;
N – é a quantidade de elementos da população.
Exemplo: Em um município existem 2000 domicílios. Para avaliar a proporção de domicílios que
têm rede de esgoto deseja-se selecionar uma amostra com precisão de 3% e um nível de
significância de 5%. Sabendo-se que a proporção de domicílios nesta região com rede de esgoto é
de 35%, qual a amostra para este tipo de estudo? n = 654

A fórmula para estimar a média:

Onde:
 2 - é a variância da população que possuem determinada característica de interesse;
d - representa a precisão ou distância de X, em ambas as direções, do verdadeiro valor
populacional ;
z 1-/2 – designa o percentil da distribuição gausiana a que corresponde o nível de confiança 1-.
2. Amostragem Aleatória Estratificada

Na amostragem estratificada a população é dividida em estratos e em seguida é selecionada uma


amostra aleatória de cada estrato. Esta estratégia geralmente é aplicada quando o evento estudado
numa população tem características distintas para diferentes categorias que dividem esta população.
Muitas vezes, deseja-se estimar os parâmetros de interesse relativos a subgrupos homogêneos da
população, como por exemplo, peixes estocados em caixas de acordo com categorias de tamanho.

O que se deseja na amostragem estratificada é obter estratos internamente homogêneos, de modo


que as estimativas desses estratos sejam representativas dos mesmos. O fato dos estratos serem
homogêneos significa que a variância interna é mínima e a variância entre os estratos é máxima.

A amostragem estratificada faz com que ao se ponderar as estimativas vindas de cada estrato em uma
estimativa global, a variabilidade final seja menor do que se fosse usada a amostragem aleatória
simples.
O dimensionamento das subamostras, ou alocação dos elementos, pode ser de maneira balanceada
(mesmo número de elementos em cada estrato) ou proporcional (número de elementos no estrato é
proporcional à sua contribuição no total populacional).

A fórmula para obtenção do tamanho amostral total é:

onde:

N é o número de elementos da população


L é o número total de estratos ( L = 1,2, ..., h)
é a proporção de indivíduos no estrato h que possui a característica que se quer estudar

é a fração de observações alocadas no estrato h

Nh é o número de elementos do estrato h


d é a precisão, que é a distância em ambas as direções do verdadeiro valor populacional
é o percentil da distribuição normal que corresponde a nível de confiança 1 - .

Exemplo: Um estudo para avaliar proporção de domicílios com piso adequado foi realizado em
zonas rurais de três municípios da Bahia. No município A existem 350 domicílios, no B existem 500
domicílios e no município C existem 1000 domicílios. A proporção de domicílios com piso adequado
nestas regiões é de 10%, 15% e 20% respectivamente. Calcule uma amostra com precisão de 3% e
nível de confiança de 5%.
Municípios Nh wh Ph Nh Ph (1 - Ph) N2h Ph (1 - Ph)/ wh

A 350 (350/1850)=0.19 0.10 31.5 58026.3

B 500 (500/1850)=0.27 0.15 63.8 118055.6

C 1000 (1000/1850)=0.54 0.20 160.0 296296.3

Total 1850 1.00 - 255.3 472378.2

Substituindo os valores encontrados na fórmula temos que n  447.


Em cada município, por alocação proporcional, temos: nA= 85, nB= 121 e nC= 241
II. Noções de Inferência Estatística

1. Introdução

O objetivo principal da inferência estatística é fazer afirmações sobre características de uma


população, baseando-se em resultados de uma amostra.

Na inferência estatística a incerteza está sempre presente. No entanto, se o experimento foi feito
de acordo com certos princípios, essa incerteza pode ser medida.

Uma função da estatística é fornecer um conjunto de técnicas para fazer inferências e medir o
grau de incerteza destas inferências.

A incerteza é medida em termos de probabilidades.


2.2. Conceitos importantes

População: é o conjunto de elementos que têm pelo menos uma característica comum observável.
Amostra: é um subconjunto de elementos extraídos de uma população.

Parâmetro: qualquer valor calculado com base em todos os elementos da população.


Estimador: uma estatística destinada a estimar um parâmetro populacional.
Estimativa: é o valor numérico do estimador com base nas observações amostrais.

Símbolos mais comuns

Estimador Parâmetro
Média 
X
Variância s2 2

Proporções p̂ P
2.3. Erros amostrais e não amostrais

O uso de um levantamento amostral introduz um tipo de erro, que pode se resumido na diferença
entre o valor de certa característica na amostra e o parâmetro de interesse na população. Esta
diferença pode ocorrer apenas devido à particular amostra selecionada, ou então devido a fatores
externos ao plano amostral. Quando o erro é devido à amostra selecionada é chamado de erro
amostral e quando é devido a fatores independentes do plano amostral (erros de medida,
digitação etc) é chamado de erro não amostral.

Considera-se um erro amostral aquele desvio que aparece porque o pesquisador não levantou a
população toda. Cada amostra possível de um plano acarreta um desvio.
2.4. Distribuições Amostrais

Diferentes amostras extraídas da população irão originar valores distintos para a estatística
considerada. Por este motivo, dizemos que as estatísticas são variáveis aleatórias, já que seu valor
não pode ser predito com certeza antes da amostra ter sido extraída.

A distribuição de probabilidade de uma estatística quando consideramos todas as amostras


possíveis de tamanho n é denominada de distribuição amostral.

1. Distribuição Amostral da Média

A distribuição amostral das médias , de amostras casuais simples de tamanho n, extraída de uma
população que tem média  e desvio padrão , tem as seguintes características:
E( X ) = 

V( X ) = 2/n

Caso a população tenha distribuição Normal com média  e desvio padrão , a distribuição amostral
das médias é Normal com média  e desvio padrão / .

A distribuição amostral das médias , de amostras casuais simples de tamanho n extraída de uma
população não Normal, com média  e desvio padrão , é aproximadamente normal com média  e
desvio padrão / , quando n é suficientemente grande. Este resultado é uma aplicação de um
importante teorema de probabilidade, chamado Teorema Central do Limite. Para a utilização deste
resultado, é usual considerar que o tamanho n da amostra é suficientemente grande quando n é
superior a 30.
2. Distribuição Amostral da Proporção

Considere que a proporção de elementos numa população com determinada característica é p.


Defina como a proporção de elementos portadores da característica na amostra, isto é,

Utilizando o Teorema Central do Limite, tem-se que a distribuição amostral de é


aproximadamente

, quando n é suficientemente grande.


2.5. Estimação Pontual

O objetivo da estimação pontual é encontrar um valor numérico único que esteja bastante próximo do
verdadeiro valor do parâmetro. Este procedimento não permite julgar a magnitude do erro que podemos
estar cometendo.
ESTIMADORES PONTUAIS DOS PRINCIPAIS PARÂMETROS POPULACIONAIS
Parâmetro
Estimador

Média () 1 n
X =  Xi
n i =1
Variância (2)
s2 =
1 n
 (Xi − X )2
n − 1 i =1
Desvio padrão
s=
1 n
 (Xi − X )2
n − 1 i =1
Proporção (p) X
p̂ = onde
n
X = número de elementos da amostra que possuem a
característica
n = tamanho da amostra
2.6. Estimação Intervalar

Procura determinar um intervalo que abranja o valor do parâmetro populacional, com certa margem de
segurança. Este procedimento permite julgar a magnitude do erro que podemos estar cometendo
quando afirmamos que o intervalo encontrado abrange o verdadeiro valor do parâmetro.

Grau de confiança é a probabilidade do intervalo de confiança conter o verdadeiro valor do parâmetro.


É também chamado de nível de confiança e geralmente expresso em porcentagem.

Suponha que o parâmetro de interesse é , desejamos obter um intervalo com limite inferior I e limite
superior S tal que

P(I <  < S) = 1 - ,


onde  (nível de significância) é um valor pequeno, ou seja 1- é próximo de 1. Os limites deste
intervalo são variáveis aleatórias pois dependem da amostra selecionada. Um intervalo deste tipo é
denominado intervalo de 1-(100)% confiança para o parâmetro .

A precisão com que se conhece  depende da amplitude deste intervalo dada por S – I. Quanto
menor esta amplitude melhor determinado estará o parâmetro.

Para esclarecer o conceito de intervalo de confiança, suponha que desejamos um intervalo de


confiança de 90% para estimar a média de uma população, uma pessoa pode extrair uma amostra
que com intervalo entre 48,5 e 51,5. Outra pessoa, baseada em outra amostra retirada da mesma
população, calculou o intervalo entre 47,9 e 52,9. Qual dos intervalos contém o verdadeiro valor da
média? Ocorre que se 100 desses intervalos fossem calculados a partir de 100 amostras diferentes,
deve-se esperar que em torno de 90 desses intervalos contenham o valor da verdadeira média,
embora não se saiba quais são estes intervalos, uma vez que a média é desconhecida.
Então, em intervalos de 95% confiança  o verdadeiro valor do parâmetro estará contido em
aproximadamente 95% dos intervalos.

Na prática trabalhamos em geral com apenas uma amostra e obtemos um único intervalo. Temos,
portanto, 95% de confiança que este intervalo seja um dos que cobrem o verdadeiro valor do
parâmetro.

2.6.1. Intervalo de Confiança para a Média de uma População

A média é uma importante característica da população. Vejamos como obter intervalos de


confiança para este parâmetro populacional. Temos que distinguir algumas situações que podem
surgir na prática:

1. Amostras pequenas (n < 30)

 População Normal

 População não Normal


1. Amostras grandes (n  30)

Para pequenas amostras os procedimentos estatísticos de inferência paramétrica exigem que se


verifique a normalidade da população e outras distribuições de probabilidade (por exemplo a
distribuição de Student) devem ser estudadas a fim de utilizar os procedimentos adequados. Além
disso, se a normalidade não for aceitável, no caso de amostras pequenas, devemos utilizar
procedimentos alternativos de inferência não paramétrica.

Para amostras suficientemente grandes os procedimentos simplificam bastante e mesmo sem


conhecermos a distribuição da população, as inferências podem ser feitas com base na
distribuição Normal mesmo que a população não seja Normal.
• Amostras pequenas

1) População Normal, (conhecido)

Esta situação é um tanto quanto rara na prática, pois, embora a hipótese de normalidade seja
razoável em muitos casos, dificilmente se conhece a variância de uma população quando sua
média é desconhecida. Algumas vezes o conhecimento de pode provir de dados históricos
sobre a população de interesse ou de resultados obtidos em estudos similares ao que está sendo
realizado.

Neste caso o Intervalo de Confiança de 1-(100)% para é dado por:


Notação: chamaremos , o valor da Dist. N (0,1), tal que

Ilustração do nível de confiança de 95%


Exemplo: O volume de dejetos de suínos provoca um grande impacto ambiental, o desvio-padrão
do volume de dejetos nos rios/córregos do Brasil é de 0,04 mil m3. Em uma amostra de 15 rios/córregos
apresentou volume médio de dejetos de 0,12 mil m3. Encontre um intervalo com 90% de confiança para o
volume médio de dejetos.

Resp: [0,103; 0,137] mil m3

1) População Normal,  2 desconhecido

Neste caso, precisamos usar o desvio padrão amostral (S) para estimar , e o intervalo de
confiança ficará alterado pois, em lugar dos limites da Normal Padrão (za/2), utilizaremos os limites de
uma outra distribuição chamada de distribuição de Student com n-1 graus de liberdade.
A distribuição de Student é contínua e simétrica com média igual a zero. Sua aparência é bastante
parecida com a distribuição Normal Padrão. A qualificação “com n-1 graus de liberdade” é
necessária, porque para cada valor diferente do tamanho da amostra n existe uma distribuição de
Student específica. O número de graus de liberdade (gl) é o parâmetro da distribuição de Student.

Notação:
Assim como a distribuição Normal padrão a distribuição de Student também é tabelada. As
tabelas fornecem valores de para vários graus de liberdade. Neste caso o Intervalo de
Confiança para a média é dado por

Exemplo: Uma amostra de 10 bacias hidrográficas brasileiras apresentou vazão média de


5225 m3/s com desvio-padrão de 2850 m3/s. Encontre um intervalo com 97,5% de confiança para a
vazão média das bacias hidrográficas brasileiras.
Resp: [2682,6; 7767,4]
• Amostras Grandes - População Normal ou não Normal

Se n é suficientemente grande (em geral, n > 30), mesmo sem conhecermos a distribuição da
população, os limites do Intervalo de Confiança para a média () poderão ser calculados com base na
distribuição Normal padrão. Da mesma forma podemos utilizar o desvio padrão amostral s no lugar de
 (desvio-padrão populacional). Neste caso o Intervalo de Confiança para a média  é dado por:
2.6.2. Intervalo de Confiança para uma Proporção Populacional

Em muitas situações pode ser de interesse construir um intervalo de confiança para a proporção
de elementos da população que possuem alguma característica de interesse (p).

Seja X o no de elementos de uma amostra de tamanho n que apresenta a característica de


interesse. Já vimos que um estimador de p é:
Se o tamanho da amostra for suficientemente grande, é possível construir um intervalo de
(1-)100% de confiança para p, baseado na distribuição Normal. O Intervalo de Confiança
para a proporção populacional p é dado por:

Exemplo: Uma amostra de 250 reservatórios apresentou 55 com qualidade de água imprópria
para abastecimento público. Encontre um intervalo com 99% de confiança para a proporção
de reservatório com qualidade inadequada da água.
Resp: [0,15; 0,29]
REFERÊNCIAS BIBLIOGRÁFICAS

• TRIOLA, Mario F., Introdução à estatística

• MORETTIN, Pedro Alberto; BUSSAB, Wilton de Oliveira. Estatística básica. 9ª. ed.

São Paulo: Saraiva Uni, 2017. 568 p. ISBN-10: 8547220224

• STEPHAN, L. e BERENSON, K., Estatística-teoria e aplicações

• PEREIRA, W e TANAKA, O. K., Elementos de estatística

• Material didático (UFBA) da disciplina MAT 027

• Material didático (UFBA) da disciplina MAT 193

Você também pode gostar