Você está na página 1de 47

Amostragem

Disciplina: Estatística Indutiva


Profa Me. Camila Gonçalves Costa

Curso: Ciência de Dados, 3º Semestre


FATEC Adamantina
População e Amostra
• Raramente conseguimos obter a distribuição exata de alguma variável, ou
porque isso é muito dispendioso, ou muito demorado ou às vezes porque
consiste num processo destrutivo.

• Por exemplo, se estivéssemos observando a durabilidade de lâmpadas e


testássemos todas até queimarem, não restaria nenhuma para ser vendida. Assim,
a solução é selecionar parte dos elementos (amostra), analisa-la e inferir
propriedades para o todo (população).

• Outras vezes não existe claramente o conjunto de todos os elementos para


encontrar os parâmetros populacionais.
FATEC Adamantina. Profa Camila Gonçalves
FATEC Adamantina. Profa Camila Gonçalves
Exemplo de amostragem:

Há razões para supor que o tempo y de reação a certo estímulo visual dependa da idade
x do indivíduo.

Para verificarmos se essa suposição é verdadeira, obtiveram-se 20 dados da seguinte


maneira:

20 pessoas foram selecionadas, sendo 10 homens e 10 mulheres.

Dentro de cada grupo de homens e mulheres foram selecionadas duas pessoas das
seguintes faixas de idade: 20, 25, 30, 35 e 40 anos. Cada pessoa foi submetida ao teste
e seu tempo de reação y foi medido.
FATEC Adamantina. Profa Camila Gonçalves
Problemas de Inferência
• O objetivo da inferência estatística é produzir informações sobre dada
característica da população, na qual estamos interessados, a partir de
informações colhidas de uma parte dessa população.
• Essa característica na população pode ser representada por uma variável
aleatória.
• Se tivéssemos informação completa sobre a função densidade de
probabilidade (caso contínuo) da variável em questão, não teríamos a
necessidade de escolher uma amostra. Toda a informação desejada seria
obtida por meio da distribuição da variável, mas isso raramente
acontece.

FATEC Adamantina. Profa Camila Gonçalves


Exemplo: Caso da moeda
• Indicando por X o número de caras obtidas depois de lançar a moeda 50 vezes, se tomados
alguns cuidados no lançamento, X segue uma distribuição binomial, ou seja, 𝑋~𝑏 50, 𝑝 .
Esse modelo é válido, admitindo-se ou não a “honestidade” da moeda. Suponha que
obtemos 36 caras ao lançar a moeda. Esse resultado traz evidência de que a moeda seja
“honesta”? Para tomarmos uma decisão, podemos partir do princípio de que a moeda não
favorece nem cara nem coroa (𝑝 = 1/2). Com essa informação poderíamos encontrar a
probabilidade de obtermos 36 caras ou mais, e esse resultado nos ajudaria a tomar a
decisão. Suponha que a decisão foi rejeitar a “honestidade” da moeda. Qual é a melhor
estimativa para 𝑝, baseando-se no resultado observado?

• Problemas básicos da inferência estatística: Teste de hipóteses e estimação.


FATEC Adamantina. Profa Camila Gonçalves
Como selecionar uma amostra
• Informação da população: a amostra pode ser representativa?

• Exemplos:
• Quantidade de glóbulos brancos no sangue;
• Bastaria tomar uma amostra que poderia ser uma gota da ponta do
dedo do paciente.
• Opinião dos habitantes sobre um projeto governamental;
• A escolha intencional da amostra poderia fornecer informações
erradas acerca da população.
FATEC Adamantina. Profa Camila Gonçalves
Exemplos

FATEC Adamantina. Profa Camila Gonçalves


Tipos de Amostra

• Amostragem aleatória:
• Simples
• Estratificada
• Por Conglomerados
• Sistemática
• De julgamento

FATEC Adamantina. Profa Camila Gonçalves


Amostragem Aleatória Simples
• População finita;
• Listagem de todos os N dados da população;
• Escrever cada elemento num papel e fazer um sorteio;
• Ou
• Associar cada elemento a um número e usar uma tabela de números
aleatórios (definir regras) ou por meio de computadores;
• Todos os elementos tem a mesma probabilidade de serem selecionados;
• Repete-se o procedimento até selecionar toda a amostra;
• Pode ser com ou sem reposição (mais adequado sem reposição, mas se
tivermos independência entre os elementos, pode ser com reposição - AAS).
FATEC Adamantina. Profa Camila Gonçalves
Amostragem Aleatória Simples
• População Infinita (ou muito grande, processos ininterruptos);
• Cada elemento selecionado vem dessa população.
• Cada elemento é selecionado de maneira independente.
• Exemplo: Selecionar uma amostra aleatória simples de clientes de um
restaurante de fastfood.
• A primeira condição é satisfeita por qualquer cliente que entre no restaurante.
• A segunda condição é satisfeita selecionando-se clientes independentemente. O
propósito da segunda condição é impedir que
• O propósito da segunda condição é impedir que haja um viés na seleção.
Ocorreria um viés de seleção se, por exemplo, cinco clientes consecutivos
selecionados fossem, todos, amigos entre si que chegassem juntos ao
restaurante. Poderíamos esperar que esses clientes apresentassem perfis
semelhantes.
FATEC Adamantina. Profa Camila Gonçalves
Tabela de números aleatórios

• Se já temos o número N de elementos da população definida e


enumerada, podemos usar a tabela de números aleatórios (dada ou
montada), definindo alguma regra que vale para todos os elementos da
amostra.

FATEC Adamantina. Profa Camila Gonçalves


Tabela de números aleatórios

FATEC Adamantina. Profa Camila Gonçalves


Exemplo
• Selecionar uma amostra em uma população finita de 2500 gerentes enumerados de 1
a 2500, conforme a ordem que aparecem nos registros do RH.
Usando a primeira linha da tabela, cada dígito, 6, 3, 2, .. ., é um dígito aleatório que
tem igual chance de ocorrer.
Uma vez que o maior número da lista da população de gerentes tem quatro dígitos,
selecionaremos números aleatórios na tabela, em conjuntos ou grupos de quatro
dígitos.
Podemos iniciar a seleção de números aleatórios em qualquer lugar da tabela e nos
deslocarmos sistematicamente na direção que preferirmos.
Escolheremos usar a primeira linha da Tabela nos deslocaremos da esquerda para a
direita. Os sete primeiros números aleatórios de quatro dígitos são

FATEC Adamantina. Profa Camila Gonçalves


• Como os números da tabela são aleatórios, esses números de quatro dígitos são
igualmente prováveis.

• Agora, podemos usar esses números aleatórios de quatro dígitos para dar a cada
gerente da população uma chance igual de ser incluído na amostra aleatória.

• O primeiro número, 6.327, é maior que 2.500. Ele não corresponde a um dos
gerentes enumerados da população e, portanto, é descartado.

• Também devemos descartar os números 8.671 e 7.445, ficando com os números


1.599, 1.102, 1.514 e 1.807.

FATEC Adamantina. Profa Camila Gonçalves


• Esse processo continua até que a amostra aleatória simples de 30 gerentes
tenha sido obtida.

• Ao implementarmos esse processo de seleção da amostra aleatória


simples, é possível que um número aleatório usado anteriormente possa
aparecer novamente na tabela antes de a amostra de 30 gerentes ser
escolhida. Como não queremos selecionar um mesmo gerente mais de
uma vez, quaisquer números aleatórios utilizados anteriormente são
ignorados (amostragem sem substituição).
FATEC Adamantina. Profa Camila Gonçalves
Exemplo: Gerar amostras

• No Excel:

Digitar a média e desvio padrão nas células B1 e B2


respectivamente, e em outa célula digitar a fórmula
=INT(INV.NORM.N(ALEATÓRIO();$B$1;$B$2))
Depois clicar, segurar e arrastar o quadradinho formado até
a quantidade de células escolhidas (5)
FATEC Adamantina. Profa Camila Gonçalves
Exemplo: Gerar amostras
• No R

FATEC Adamantina. Profa Camila Gonçalves


Outras formas de criar números aleatórios
• No excel

FATEC Adamantina. Profa Camila Gonçalves


Outras formas de criar números aleatórios
• No R studio

FATEC Adamantina. Profa Camila Gonçalves


Selecionando amostras no Excel
• Usando o suplemento “Análise de Dados” para gerar uma amostra
aleatória de uma população e outras estatísticas. (arquivo, opções,
suplementos, ir, ferramentas de análise – Aparecerá na aba “dados”)

FATEC Adamantina. Profa Camila Gonçalves


Selecionando amostras no R studio
• O comando sample(x,n) gera uma amostra sem reposição de tamanho
n do conjunto x e o comando sample(x, n, replace=T) para gerar uma
amostra com reposição

FATEC Adamantina. Profa Camila Gonçalves


Exemplo - Gerentes
• O diretor de pessoal da Electronics Associates, Inc. (EAI) foi incumbido
da tarefa de desenvolver um perfil dos 2.500 gerentes da empresa. As
características a serem identificadas incluem o salário médio anual dos
gerentes e a proporção de gerentes que concluíram o programa de
treinamento gerencial da empresa. Os dados referentes ao status no
programa de treinamento mostram que 1.500 dos 2.500 gerentes
concluíram o programa de treinamento (p = 1.500/2.500 = 0,60).
• Retire uma amostra aleatória de 50 gerentes no Excel (arquivo no SIGA).
• Poderíamos fazer o mesmo no R studio?

FATEC Adamantina. Profa Camila Gonçalves


File/Import Data Set
• Amostra somente dos salários

Dados importados como data


frame (forma de matriz)

FATEC Adamantina. Profa Camila Gonçalves


• Amostragem
conforme a
posição do
gerente: seu
salário e
respectiva
resposta
qualitativa

FATEC Adamantina. Profa Camila Gonçalves


library(readxl)
gerentes <- read_excel(“____________________________")

x = with(data = gerentes, expr = Salary) #Separando o data frame gerentes em dois vetores
y = with(data = gerentes, expr = Training)

w = seq(1, 2500) #criando uma sequência para sorteio


sw = sample(w, 50) # amostragem aleatória da posição que os gerentes se enontram na listagem

amostra_salarios = array(0, 50) # criando vetores nulos que serão a amostra de cada variável
amostra_curso = array(0, 50)

for (i in 1:50){
amostra_salarios[i] = x[sw[i]]
amostra_curso[i] = y[sw[i]] }

amostra_salarios
amostra_curso FATEC Adamantina. Profa Camila Gonçalves
Exemplo

FATEC Adamantina. Profa Camila Gonçalves


Estatísticas e Parâmetros

FATEC Adamantina. Profa Camila Gonçalves


Número de diferentes amostras possíveis
• O número de diferentes amostras aleatórias simples de tamanho n que podem ser
selecionadas de uma população de tamanho N é

N! Nem sempre
𝐷𝑁 = conhecemos
𝑛! 𝑁 − 𝑛 ! N

1
• A probabilidade de 1 amostra ser selecionada é .
𝐷𝑁

• Em relação ao problema de selecionar gerentes, com N = 2.500 e n = 30, essa


expressão pode ser usada para mostrar que aproximadamente 2,74 × 1069 diferentes
amostras aleatórias simples de 30 gerentes podem ser obtidas.
FATEC Adamantina. Profa Camila Gonçalves
Exercícios
1) Considere uma população finita com cinco elementos rotulados A, B, C, D e E.
a. Quantas possíveis amostras aleatórias simples de tamanho 2 podem ser
selecionadas
b. Relacione as dez amostras, iniciando com AB, AC e assim por diante.
c. Usando a amostragem aleatória simples, qual é a probabilidade de cada
amostra de tamanho 2 ser selecionada?
d. Considere que o número aleatório 1 corresponde a A, o número aleatório 2
corresponde a B e assim por diante. Relacione a amostra aleatória simples de
tamanho 2 que será selecionada usando-se os dígitos aleatórios 8 0 5 7 5 3 2.
2) Considere que uma população finita tenha 350 elementos. Usando os três últimos
dígitos de cada um dos seguintes números aleatórios de cinco dígitos apresentados a
seguir (601, 022, 448, ... ), determine os quatro primeiros elementos que serão
selecionados para a amostra aleatória simples.
98.601 73.022 83.448 02.147 34.229 27.553 84.147 93.289 14.209
FATEC Adamantina. Profa Camila Gonçalves
Tipos de Amostra

• Amostragem aleatória:
• Simples OK
• Estratificada
• Por Conglomerados
• Sistemática
• De conveniência
• De Julgamento
FATEC Adamantina. Profa Camila Gonçalves
Amostragem Aleatória Estratificada
• Os elementos da população são divididos primeiramente em grupos
denominados estratos (subpopulações), de forma que cada elemento
da população pertença a um e somente a um estrato.
• Depois que os estratos são formados, extrai-se uma amostra aleatória
simples de cada um deles.

FATEC Adamantina. Profa Camila Gonçalves


• Exemplo: Considere uma população com 10 estudantes para os quais
definimos as variáveis renda familiar (𝑋1 ) e classe social (𝑋2 ),
categorizada como 𝐴, 𝐵 ou 𝐶. Então os elementos em relação as
posições são 𝑃 = 1, 2, … . , 10 e suponha que a matriz de dados seja:

• Podemos considerar três estratos, determinados pela variável 𝑋2 :


𝑃𝐴 = 3, 5, 8 , 𝑃𝐵 = 1, 6, 9, 10 , 𝑃𝐶 = {2, 4, 7}

FATEC Adamantina. Profa Camila Gonçalves


Amostragem por Conglomerados
• Os elementos da população são divididos primeiramente em grupos
distintos denominados conglomerados. Cada elemento da população
pertence a um e somente a um conglomerado. Extrai-se, então, uma
amostra aleatória simples dos conglomerados (toma-se um ou mais
conglomerados para ser a amostra). Todos os elementos contidos em cada
conglomerado amostrado formam a amostra.
• Exemplo: Suponha que um bairro é dividido em conglomerados que são
quarteirões de uma cidade. Seleciona-se uma amostra desses
conglomerados e todos os elementos dos conglomerados selecionados
são analisados.

FATEC Adamantina. Profa Camila Gonçalves


Amostragem Sistemática
• Em algumas situações de amostragem, consome muito tempo selecionar
uma amostra aleatória simples. Na amostragem sistemática, supõe-se que
temos uma listagem das unidades populacionais. Dividimos essa
população em 𝑘 subpopulações. Sorteamos um elemento ente os 𝑘
primeiros elementos da listagem. Depois, observamos sistematicamente,
indivíduos separados por k unidades (tomados de 𝑘 em 𝑘).
• Exemplo: Numa listagem aleatória de 100 pessoas, queremos 10 sortear 10
100
casas. Logo, serão 𝑘 = = 10 subpopulações. Sorteamos aleatoriamente
10
números de 1 a 10, por exemplo 8. A 8ª pessoa é a primeira sorteada para
ganhar a casa. Depois tomamos as pessoas de posições 18, 28, 38, ...., 98.

FATEC Adamantina. Profa Camila Gonçalves


Amostragem de Conveniência
• Diferente das demais, é uma técnica de amostragem não-probabilística. Como
o nome implica, a amostra é identificada primeiramente por conveniência.
Elementos são incluídos na amostra sem probabilidades previamente
especificadas ou conhecidas de eles serem selecionados.
• Por exemplo, um professor que faz pesquisas em uma universidade pode
utilizar estudantes voluntários para compor uma amostra, simplesmente
porque eles estão disponíveis e participarão como objetos de experiência por
pouco ou nenhum custo.
• Analogamente, um inspetor pode extrair uma amostra de um embarque de
laranjas selecionando-as casualmente de vários engradados. Rotular cada
laranja e usar o método probabilístico de amostragem seria impraticável.
Amostras tais como de animais selvagens capturados e de grupos de
voluntários para pesquisa de consumidores também são amostras de
conveniência. FATEC Adamantina. Profa Camila Gonçalves
Amostragem de Julgamento
• Uma técnica adicional de amostragem não-probabilística é a
amostragem de julgamento. Nessa abordagem, a pessoa que conhece
mais profundamente o tema do estudo escolhe os elementos que julga
serem os mais representativos da população.
• Frequentemente, esse método é uma maneira relativamente fácil de
selecionar uma amostra.
• Por exemplo, um repórter pode tomar como amostra dois ou três
senadores, julgando que eles refletem a opinião geral de todos os
senadores. Entretanto, a qualidade dos resultados da amostra depende
do julgamento da pessoa que a seleciona.
FATEC Adamantina. Profa Camila Gonçalves
Exercícios
• Dente os tipos de amostragem: Aleatória simples, estratificada e sistemática,
para cada exercício, identifique o tipo de amostra e resolva:

• 1) Uma escola abriga 124 alunos. Obtenha uma amostra representativa


correspondendo a 15% da população. Sugestão: use a 8ª, 9ª e 10ª colunas a
partir da primeira linha da tabela de números aleatórios (de cima para baixo).

• 2) Em uma escola a 80 alunos. Obtenha uma amostra tá de 12 alunos.


Sugestão: decida, juntamente com a classe o uso da tabela de números
aleatórios.
FATEC Adamantina. Profa Camila Gonçalves
FATEC Adamantina. Profa Camila Gonçalves
• 3) Uma população é formada por 140 notas resultantes da aplicação de
um teste de inteligência:

• Obtenha uma amostra formada de 26 elementos, tomando, inicialmente,


a primeira linha da esquerda para a direita.
FATEC Adamantina. Profa Camila Gonçalves
• 4) O diretor de uma escola, na qual estão matriculados 280 meninos e 320
meninas, desejoso de conhecer as condições de vida extra escolar de seus
alunos e não dispondo de tempo para entrevistar todas as famílias resolveu
fazer um levantamento, por amostragem, em 10% dessa clientela. Obtenha,
para esse diretor, os elementos componentes da amostra.
• 5) Uma cidade X apresenta o seguinte quadro relativo às suas escolas:

• Obtenha uma amostra proporcional estratificada de 120 estudantes.

FATEC Adamantina. Profa Camila Gonçalves


• 6) Uma população encontra se dividida em 3 estratos, com tamanhos,
respectivamente, 𝑛1 = 40, 𝑛2 = 100 e 𝑛3 = 60. Sabendo que, ao ser
realizada uma amostragem estratificada proporcional, 9 elementos da
amostra foram retirados do terceiro estrato, determine o número total
de elementos da amostra.
• 7 ) Mostre como seria possível retirar uma amostra de 32 elementos
de uma população ordenada formada por 2432 elementos.
Na ordenação geral, qual dos elementos abaixo seria escolhido
para pertencer à mostra, sabendo-se que o elemento de ordem 1420 a
ela pertence?

FATEC Adamantina. Profa Camila Gonçalves


Como determinar o tamanho de uma amostra
• Em certas ocasiões podemos querer determinar o tamanho da amostra
a ser escolhida de uma população, de modo a obter um erro de
estimação (𝜀 ) previamente estipulado, com determinado grau/nível
de confiança (𝛾 em % decimal).
• Suponha que se queira determinar o valor de 𝑛 de modo que
𝑃 𝑋ത − 𝜇 ≤ 𝜀 ≥ 𝛾,
Com 0 < 𝛾 < 1 e 𝜀 é o erro amostral máximo que podemos suportar,
ambos valores fixados.

1 − 𝛼 = 𝛾, em que 𝛼 também é
uma medida de confiança
FATEC Adamantina. Profa Camila Gonçalves
• Podemos escrever


𝑋−𝜇 ത
𝑋−𝜇 𝑛 𝜎
com 𝑍 = = , visto que 𝜎𝑥 = (erro padrão).
𝜎𝑥 𝜎 𝑛
Assim, dado 𝛾, podemos obter 𝑧𝛾 da N(0, 1), tal que 𝑃 −𝑧𝛾 < 𝑍 < 𝑧𝛾 = 𝛾,
de modo que
𝑛𝜀 𝑧𝛾2 𝜎 2
= 𝑧𝛾 ⟹ 𝑛= 2
𝜎 ε
Observe que 𝜎 2 não é conhecido (variância da população). Assim, ou
devemos ter alguma informação prévia sobre 𝜎 2 ou usamos uma pequena
amostra piloto para estimar 𝜎 2 .
No caso das proporções, temos
𝑧𝛾2 𝑝(1 − 𝑝) 𝑧𝛾2
𝑛= 2
≈ 2
𝜀 4𝜀
FATEC Adamantina. Profa Camila Gonçalves
Exemplos
• 1) Suponha que uma pequena amostra piloto de 𝑛 = 10, extraída de
uma população, forneceu os valores 𝑋ത = 15 e 𝑆 2 = 16. Fixando-se
𝜀 = 0,5 e 𝛾 = 0,95, temos

O que ocorre se aumentarmos


a confiabilidade? E se
diminuirmos o erro amostral
máximo?

𝑃 −𝑧𝛾 ≤ 𝑧 ≤ 𝑧𝛾 = 𝛾 = 0.95
2𝑃 0 ≤ 𝑧 ≤ 𝑧𝛾 = 0.95
𝑃 0 ≤ 𝑧 ≤ 𝑧𝛾 = 0,4750
𝑧𝛾 = 1,96
FATEC Adamantina. Profa Camila Gonçalves
Exemplos

• 2) Suponha que numa pesquisa de mercado estima-se que no mínimo 60%


das pessoas entrevistadas preferirão a marca A de um produto. Essa
informação é baseada em pesquisas anteriores. Se quisermos que o erro
amostral de 𝑝Ƹ seja menor do que 𝜀 = 0,03, com probabilidade 𝛾 = 0,95,
teremos
1,96 2 0,6 0,4
𝑛≈ 2
= 1024
0,03

FATEC Adamantina. Profa Camila Gonçalves


• Valores de 𝑧𝛾 = 𝑧𝛼/2 para os níveis de confiança mais usados na
prática:

FATEC Adamantina. Profa Camila Gonçalves

Você também pode gostar