Você está na página 1de 39

Estatística

Introdução a Inferência

Sistemas de Informação
prof. Rayner Gomes - rayner@ufpi.edu.br/raynergomes@gmail.com
Aviso: As videoaulas gravadas e
disponibilizadas aos alunos da UFPI são
estritamente reservados aos alunos da
UFPI, sendo proibido qualquer
divulgação e distribuição. A reprodução
só é permitida aos alunos matriculados
na disciplina.
Tópicos

1. Nível de Confiança
2. Erro Amostral

3
Questões iniciais

O Pew Research Center realizou recentemente uma


pesquisa com 1.007 adultos nos Estados Unidos e concluiu
que 85% dos entrevistados sabem o que é o Twitter.

4
Questões iniciais
● Como os resultados da pesquisa podem ser usados para se estimar os
parâmetros populacionais?
○ Especificamente, se uma amostra de 1.007 adultos é entrevistada e se encontram 85% deles
que sabem o que é o Twitter, o que a porcentagem amostral nos diz sobre a porcentagem
para toda a população de adultos?

5
Questões iniciais
● Qual a precisão provável do resultado de 85%?

● Dado que apenas 1.007 pessoas foram entrevistadas em uma população de

241.472.385 adultos, o tamanho amostral é muito pequeno para ser

significativo?

● O método de seleção das unidades amostrais tem algum efeito sobre os

resultados?

6
Revisão e Visão Geral

Nas aulas anteriores, usamos a estatística descritiva ao resumir dados por meio
de ferramentas como gráficos, e estatísticas, tais como a média e o
desvio-padrão.
Nas próximas aulas, apresentaremos métodos de inferência estatística, que
envolve o uso de dados amostrais para serem feitas generalizações ou
inferências sobre uma população.

7
Revisão e Visão Geral

Veja as duas seguintes atividades principais:

1. Usar os dados amostrais para estimar valores de parâmetros populacionais


(tais como proporção ou média populacional).

2. 2.Testar hipóteses (ou afirmativas) feitas sobre parâmetros populacionais.

8
Por que precisamos de Intervalos de Confiança?
No Exemplo 1, vimos que 0,85 era nossa melhor estimativa pontual da proporção
populacional p, mas uma estimativa pontual é um valor único que não dá
nenhuma indicação de quão boa é aquela melhor estimativa.

Os estatísticos desenvolveram o intervalo de confiança ou estimativa intervalar,


que consiste em uma faixa (ou intervalo) de valores, em vez de apenas um único
valor.

Um intervalo de confiança nos dá uma melhor ideia de quão boa é a


estimativa!!!

9
Definições
● Um intervalo de confiança (ou estimativa intervalar) é uma faixa (ou um
intervalo) de valores usada para se estimar o verdadeiro valor de um
parâmetro populacional.
○ Um intervalo de confiança é, algumas vezes, abreviado como IC.

● O nível de confiança é a probabilidade 1 – α (tal como 0,95 ou 95%) de que


o intervalo de confiança realmente contenha o parâmetro populacional,
supondo que o processo de estimação seja repetido um grande número de
vezes.
○ O nível de confiança é também chamado grau de confiança, ou coeficiente de confiança.

10
Interpretação do Intervalo de Confiança

Correta:

● “Estamos 95% confiantes em que o intervalo de 0,828 a 0,872 realmente contém o verdadeiro
valor da proporção populacional p.”
○ Isto significa que, se selecionássemos muitas diferentes amostras de tamanho 1.007 e
construíssemos os intervalos de confiança correspondentes, 95% deles realmente conteriam
o valor da proporção populacional p.
Errada:

● “Há uma chance de 95% de que o verdadeiro valor de p esteja entre 0,828 e 0,872.”
● “95% das proporções amostrais estarão entre 0,828 e 0,872.”
11
Interpretação do Intervalo de Confiança

A Figura ilustra o fato e mostra também que


19 dos 20 (ou 95%) diferentes intervalos de
confiança contém o valor p = 0,90.

A Figura tenta nos contar a história de que,


com um nível de confiança de 95%,
esperamos que cerca de 19 em 20 intervalos
de confiança (ou 95%) contenham o
verdadeiro valor de p.

proporção populacional p é uma


estimativa qualquer!

12
Valor Crítico = Escore Z
Definição: Um valor crítico é um número na fronteira que separa estatísticas
amostrais que têm chance de ocorrer daquelas que não têm. O número zα/2 é um
valor crítico que é um escore z com a propriedade de separar uma área de a/2 na
cauda direita da distribuição normal padronizada.

13
Encontrando zα/2 para o Nível de Confiança de 95%

14
Padronização dos Valores
Score Z - Z Escore - Pontuação Z

Por exemplo, suponha que você tenha uma pontuação de 190 em um teste. O teste tem
uma média (μ) de 150 e um desvio padrão (σ) de 25. Esperando uma transmissão
típica, a sua pontuação z seria:

z = (x – μ)/σ

= 190 – 150/25 = 1.6.

15
Porque o Z-Score de 95% é 1,96?
Tabela da Distribuição Normal Padronizada – Valores de P(-∞ ≤ Z ≤ z0 )

Fonte: http://www.im.ufrj.br/probest/Tabelas_de_probabilidade.pdf
16
Curiosidade
Como calcular o z-score de um valor porcentual em Python?

:~$ python3
>>> from scipy.stats import norm
>>> norm.ppf(0.95)
1.6448536269514722

17
Curiosidade
Como calcular o z-score de uma lista de valores, ou seja, da média e do desvio
padrão em Python?

:~$ python3
>>> import numpy as np
>>> import scipy.stats as stats
>>> data = np.array([6, 7, 7, 12, 13, 13, 15, 16, 19, 22])
>>> stats.zscore(data)
>>> output: [-1.394, -1.195, -1.195, -0.199, 0, 0, 0.398, 0.598, 1.195, 1.793]

18
Valores mais comum do Valor Crítico

19
Margem de Erro
Quando os dados de uma amostra aleatória simples são usados para se estimar uma
proporção populacional p, a margem de erro, representada por E, é a diferença
máxima provável (com probabilidade 1 – α, tal como 0,95) entre a proporção amostral
observada e o verdadeiro valor da proporção populacional p. A margem de erro E é
também chamada de erro máximo da estimativa, e pode ser encontrada pela
multiplicação do valor crítico pelo desvio-padrão das proporções amostrais,
conforme mostrado na Fórmula:

20
Intervalo de Confiança

Notação

● p = proporção populacional
● p̂ = proporção amostral

● n = número de valores amostrais


● E = margem de erro
● zα/2 = escore z que separa uma área de α/2 na cauda direita da distribuição
normal-padrão
21
Requisitos para construção dos intervalos

Requisito 1
A amostra é uma amostra aleatória simples.
(Atenção: Se os dados amostrais tiverem sido obtidos de maneira não adequada,
a estimativa da proporção populacional pode ser errada.)

22
Requisitos para construção dos intervalos

Requisito 2
As condições para a distribuição binomial são satisfeitas.
Isto é, há um número fixo de tentativas, as tentativas são independentes, há duas
categorias de resultados, e as probabilidades permanecem constantes para cada
tentativa.

23
Requisitos para construção dos intervalos

Requisito 3
Há pelo menos 5 sucessos e pelo menos 5 fracassos.
Com as proporções p e q desconhecidas, estimamos seus valores usando a
proporção amostral, de modo que esse requisito é uma maneira de se verificar se
np ≥ 5 e nq ≥ 5 são ambas satisfeitas, de modo que a distribuição normal seja
uma aproximação adequada para a distribuição binomial.

24
Exemplo

Vimos que a pesquisa do Pew Research Center com 1.007 adultos americanos selecionados
aleatoriamente mostrou que 85% dos respondentes sabiam o que é o Twitter. Os resultados
amostrais são n = 1.007 e p̂ = 0,85.

A. Ache a margem de erro E que corresponde ao nível de confiança de 95%.


B. Ache o intervalo de confiança de 95% para a proporção populacional p.
C. Com base nos resultados, podemos concluir com segurança que mais de 75% dos adultos
americanos sabem o que é o Twitter?

25
Verificação dos Requisitos

1) Os métodos de pesquisa usados pelo Pew Research Center resultam em amostras que
podem ser consideradas amostras aleatórias simples. 🆗
2) As condições para um experimento binomial são satisfeitas, pois há um número fixo de
tentativas (1.007), as tentativas são independentes (porque a resposta de uma pessoa não
afeta a probabilidade da resposta de outra pessoa), há duas categorias de resultado (o
sujeito sabe o que é o Twitter, ou não), e a probabilidade permanece constante. 🆗
3) Com 85% dos respondentes sabendo o que é o Twitter, o número dos que sabem é 856 (ou
85% de 1.007) e o número dos que não sabem é 151, de modo que o número de sucessos
(856) e o número de fracassos (151) são ambos pelo menos 5.🆗

26
Resposta
1. A margem de erro é encontrada usando-se a Fórmula com zα/2 = 1,96
(conforme visto anteriormente), p = 0,85, q= 0,15 e n = 1.007.

27
Resposta
b) A construção do intervalo de confiança é, agora, muito fácil, uma vez que
temos os valores de e de E. Simplesmente substituímos esses valores para obter
este resultado:

28
Resposta
c) Com base no intervalo de confiança obtido na parte (b), parece que mais de
75% dos adultos sabem o que é o Twitter.
Como os limites de 0,828 e 0,872, provavelmente, contêm a verdadeira
proporção populacional, parece que a proporção populacional é um valor
maior do que 0,75.

29
Análise Estatística do Exercício

Eis uma afirmativa que resume os resultados: 85% dos adultos dos Estados
Unidos sabem o que é o Twitter. Essa porcentagem se baseia em uma pesquisa
de opinião do Pew Research Center com 1.007 adultos selecionados
aleatoriamente nos Estados Unidos. Teoricamente, em 95% de tais pesquisas, a
porcentagem deve diferir por não mais do que 2,2 pontos percentuais em ambas
as direções da porcentagem que seria encontrada entrevistando-se todos os
adultos nos Estados Unidos.

30
Determinando o Tamanho Amostral

Se desejamos coletar dados amostrais com o objetivo de estimar alguma


proporção populacional, como sabemos quantas unidades amostrais devem ser
obtidas?

31
Determinando o Tamanho Amostral

quando se conhece uma estimativa p


NOTAÇÃO

p = proporção populacional

p̂ = proporção amostral

n = número de valores amostrais

E = margem de erro desejada

zα/2 = escore z que separa uma área de α/2 na


cauda direita da distribuição normal-padrão
quando não se conhece uma estimativa p

32
Determinando o Tamanho Amostral
Papel do Tamanho Populacional N

As fórmulas são formidáveis, porque mostram que o tamanho amostral não


depende do tamanho (N) da população; o tamanho amostral depende do nível
de confiança desejado, da margem de erro desejada e, algumas vezes, da
estimativa conhecida .

33
Exemplo 2: Determinando o Tamanho Amostral
Gap, Banana Republic, J. Crew, Yahoo e America OnLine são apenas algumas das
muitas companhias interessadas em saber a porcentagem de adultos que compram
roupas pela Internet. Quantos adultos devem ser entrevistados para se ter 95% de
confiança em que a porcentagem amostral esteja em erro não superior a três pontos
percentuais?

A. Use este resultado recente do Census Bureau: 66% dos adultos compram roupas
pela Internet.

B. b.Suponha que não tenhamos nenhuma informação prévia que sugira um


possível valor da proporção.

34
Exemplo 2: Determinando o Tamanho Amostral
Resolução A: O estudo anterior sugere que p = 0,66 de modo que q = 0,34
(encontrado como = 1 – 0,66). Com um nível de confiança de 95%, temos α =
0,05,de modo que zα/2 = 1,96. Também, a margem de erro é E = 0,03 (o
equivalente decimal de “três pontos percentuais”)

35
Exemplo 2: Determinando o Tamanho Amostral
Resolução B: Como na parte (a), de novo usamos zα/2 = 1,96 e E = 0,03, mas,
sem nenhum conhecimento prévio de p (ou de q)

36
Interpretação do Exercício 2

Para se ter 95% de confiança de que nossa porcentagem amostral esteja a, no


máximo, três pontos percentuais da verdadeira porcentagem de todos os adultos,
devemos obter uma amostra aleatória simples de 1.068 adultos. Comparando
esse resultado com o tamanho amostral de 958 encontrado na parte (a),
podemos ver que, se não temos nenhum conhecimento de um estudo anterior, é
necessário uma amostra maior para obtermos os mesmos resultados de quando
um valor de pode ser estimado

37
ATENÇÃO
Tente evitar estes dois erros comuns no cálculo do tamanho da amostra:

I. Não cometa o erro de usar E = 3 como margem de erro correspondente a


“três pontos percentuais”. Se a margem de erro é de três pontos percentuais,
use E = 0,03.

II. Certifique-se de substituir o zα/2 pelo escore z crítico. Por exemplo, se você
está trabalhando com 95% de confiança, substitua zα/2 por 1,96. Não cometa
o erro de substituir zα/2 por 0,95 ou 0,05.

38
tempo

progresso

"Podemos não ganhar todas as


batalhas, mas devemos dar sempre
o nosso máximo" - Spider-Man

até a próxima aula.


[be continued]

Image source 39
https://www.tumgir.com/

Você também pode gostar