Você está na página 1de 16

Introdução à Inferência Estatística

Capítulo 10, Estatística Básica


(Bussab&Morettin, 7a Edição)

2a AULA – 02/03/2015

MAE229 - Ano letivo 2015


Lígia Henriques-Rodrigues

2a aula (02/03/2015) MAE229 1 / 16


1. Contexto
A Teoria de Probabilidade e a Inferência Estatística são processos
"complementares"
Teoria da probabilidade: parte-se de um modelo totalmente especificado,
que se assume como correto e se calcula, e.g., as probabilidades de
certos acontecimentos
Inferência estatística: Observam-se certos acontecimentos, e procura
inferir-se sobre o modelo prababilístico pelo qual se regirá o experimento
aleatório.
Exemplo:
Considere-se um grupo numeroso de pessoas entre as quais há uma
proporção θ de fumadores.
Se θ conhecido e estivermos interessados em conhecer a probabilidade
de encontrar x fumadores num grupo de 10 pessoas escolhidas ao
acaso — Teoria da Probabilidade
Na prática, sucede quase sempre que θ é desconhecido. A partir da
observação do número de fumadores na amostra de 10 pessoas,
pretende-se tirar conclusões sobre a proporção de fumadores na
população, θ – Inferência Estatística
2a aula (02/03/2015) MAE229 2 / 16
2. População e Amostra
População
É o conjunto de todos os elementos ou resultados sobre investigação.

Amostra
É qualquer subconjunto da população.

Exemplos:
Consideramos uma pesquisa para estudar os salários dos 500
funcionários da Companhia MB. Seleciona-se uma amostra de 36
indivíduos, e anotam-se os seus salários.
Consideramos uma pesquisa para estudar a duração de vida útil de um
novo tipo de lâmpadas, pois acredita-se que a duração desse novo tipo é
maior. Então 100 lâmpadas do novo tipo são deixadas acesas até
queimarem.

2a aula (02/03/2015) MAE229 3 / 16


Objetivo
O objetivo da Inferência Estatística é produzir afirmações sobre dada
característica da população, na qual estamos interessados, a partir de
informações recolhidas de uma parte dessa população.

A inferência clássica procura responder a questões do tipo:


Os dados x são compatíveis com o modelo teórico?
Neste ponto inserem-se os chamados testes de hipóteses.
Admitindo a validade do modelo, como escolher um ou mais elementos
do modelo que representem adequadamente os parâmetros
desconhecidos à custa da informação contida nos dados? Neste ponto
insere-se a estimação pontual e intervalar.

2a aula (02/03/2015) MAE229 4 / 16


Amostragem Aleatória Simples (AAS)
Aleatoriamente sorteia-se um elemento da população, sendo que todos os
elementos têm a mesma chance de ser escolhidos. Repete-se o
procedimento até que sejam sorteadas as n unidades da amostra.

AAS com/sem reposição: com reposição implica a propriedade de


independência entre unidades selecionadas. Isso facilita o tratamento
matemático de propriedades de estimadores que vamos construir em cima da
amostra.
Definição
Uma amostra aleatória simples (AAS) de tamanho n de uma variável
aleatória X , com dada distribuição, é o conjunto de n variáveis aleatórias
independentes X1 , X2 , . . . , Xn , cada uma com a mesma distribuição de X .
(X1 , . . . , Xn ): Amostra aleatória simples
(x1 , . . . , xn ): Amostra observada

2a aula (02/03/2015) MAE229 5 / 16


Estatísticas e Parâmetros

Definição
Uma estatística é uma característica da amostra, ou seja, é qualquer função
da amostra que não depende de parâmetros desconhecidos.

Exemplos
1
Pn
A média amostral X = n i=1 Xi é uma estatística;
2 1
Pn 2
A variância amostral S = n−1 i=1 (Xi − X ) é uma estatística;
X(1) = min (X1 , X2 , . . . , Xn ) é uma estatística;
X(n) = max (X1 , X2 , . . . , Xn ) é uma estatística.

Definição
Um parâmetro é uma medida usada para descrever uma característica da
população.

2a aula (02/03/2015) MAE229 6 / 16


Designação População AAS Amostra observada
X (X1 , . . . , Xn ) (x1 , . . . , xn )
Pn Pn
Média µ = E[X ] X = n1 i=1 Xi x = n1 i=1 xi
1
Pn 1
Pn
Variância σ 2 = Var [X ] S 2 = n−1 i=1 (Xi − X )
2
s2 = n−1 i=1 (xi − x)
Proporção p p̂ p̂

As estatísticas são v.a’s e a sua distribuição amostral desempenha um papel


fundamental na teoria da inferência estatística.

Esquema:
uma população X , com determinado parâmetro de interesse θ;
todas as amostras retiradas da população, via AAS;
para cada amostra, calculamos o valor observado, t, da estatística T ;
os novos valores t formam uma nova população, cuja distribuição recebe
o nome de distribuição amostral de T .

2a aula (02/03/2015) MAE229 7 / 16


Distribuição Amostral da Média
Teorema
2
Seja X uma v.a. com média
Pn µ e variância σ , e seja (X1 , . . . , Xn ) uma AAS de
1
X . Então, sendo X = n i=1 Xi , a média da amostra,

σ2
E(X ) = µ e Var (X ) = .
n

Teorema do Limite Central (TLC) (n ≥ 30)


Para AAS (X1 , . . . , Xn ), retiradas de uma população com média µ e variância
σ 2 finita, a distribuição amostral de X aproxima-se, para n grande, de uma
distribuição normal, com média µ e variância σ 2 /n.

NOTA: Se X ∼ N(., .) então X ∼ N(., .). Se X segue uma distribuição


qualquer e verifica as condições do TLC então a distribuição amostral de X
aproxima-se de uma normal.
2a aula (02/03/2015) MAE229 8 / 16
Exemplo 1:

Uma máquina está regulada para encher pacotes de café automaticamente


segundo uma distribuição normal com média de 10 gramas e desvio padrão
desconhecido. Recolheu-se uma amostra de n = 10 pacotes, tendo-se obtido
os seguintes pesos (em gramas):

10, 09; 10, 15; 9, 78; 9, 77; 9, 91; 10, 25; 9, 98; 10, 9; 10, 05; 9, 12.

Qual é a probabilidade de encontrarmos a média X diferindo de 10 gramas


de menos de 0.32 gramas.

2a aula (02/03/2015) MAE229 9 / 16


2a aula (02/03/2015) MAE229 10 / 16
Distribuição Amostral de uma Proporção
Considere-se uma população em que a distribuição de elementos portadores
de determinada caraterística é p e defina-se a v.a.

1, se o indivíduo for portador da característica
X =
0, se o indivíduo não for portador da característica.
Logo, E(X ) = p = µ e Var (X ) = p(1 − p) = σ 2 , isto é, X ∼ Ber (p).

Retirada uma AAS de dimensão n dessa população, define-se por


Yn - o total de indivíduos portadores dessa característica
p̂ = Ynn - a proporção amostral de indivíduos portadores dessa
característica,
com Yn ∼ b(n, p).

Nas condições do TLC, para n grande, podemos considerar a distribuição


amostral de p como aproximadamente normal,
 
p(1 − p)
p̂ ∼ N p, .
n

2a aula (02/03/2015) MAE229 11 / 16


Exemplo 2:

Suponha que 30% dos estudantes de uma escola sejam mulheres. Colhemos
uma AAS de n = 100 estudantes e calculamos p̂ = proporção de mulheres na
amostra. Qual probabilidade de que p̂ difira de p em menos de 0,01?

2a aula (02/03/2015) MAE229 12 / 16


Determinação do tamanho de uma amostra
Chamamos de erro amostral (da média ou da proporção) e designamos por
e a v.a. que mede a diferença entre a estatística e o parâmetro. Assim,

e =X −µ ou e = p̂ − p.

Tendo-se
σ2
   
p(1 − p)
e ∼ N 0, ou e ∼ N 0, .
n n
Suponhamos que pretendemos determinar o valor de n que satisfaz

P(|X − µ|) ≤ ε) ≥ γ

com 0 < γ < 1 e ε é o erro amostral (observado) máximo



que podemos
suportar. Definindo γ = P(−zγ < Z < zγ ), com zγ = σn ε , obtemos

σ 2 zγ2
n= .
ε2
No caso de proporções,
p(1 − p) zγ2
n= .
ε2
2a aula (02/03/2015) MAE229 13 / 16
Observando o gráfico da função p(1 − p), para 0 ≤ p ≤ 1

vemos que:
a função p(1 − p) é uma parábola simétrica em torno de p = 0, 5;
a função atinge o seu máximo (0,25) quando p = 0, 5.

Deste modo, na prática, se nada sabemos sobre o valor de p, substituimos


p(1 − p) por 0,25 obtendo-se
 z 2
γ
n = 0, 25 ,
ε
que pode fornecer um valor de n maior do que o necessário.
2a aula (02/03/2015) MAE229 14 / 16
Se soubermos que p ≤ 0, 20, então o valor máximo de p(1 − p) é
z 2
0, 2 × 0, 8 = 0, 16 e reduzimos o valor de n para n = 0, 16 εγ .

Se soubermos que p ≥ 0, 70, então o valor máximo de p(1 − p) é


z 2
0, 7 × 0, 3 = 0, 21 e reduzimos o valor de n para n = 0, 21 εγ .

Se soubermos que 0, 40 ≤ p ≤ 0, 70, então o valor máximo de p(1 − p) é


0, 5 × 0, 5 = 0, 25 e, neste caso, não há redução, ou seja,
z 2
n = 0, 25 εγ .

2a aula (02/03/2015) MAE229 15 / 16


Exemplo 3:

Suponha que se pretende estimar, com base em uma amostra, a proporção p


de alunos da USP que foram ao teatro no último mês.
Qual deve ser o tamanho da amostra para que o erro cometido ao se
estimar p seja no máximo 0, 02 com um coeficiente de confiança de
95%?
Suponha que temos informação de que no máximo 30% dos alunos da
USP foram ao teatro no último mês. Qual a dimensão da amostra que
devemos recolher? Houve redução?

2a aula (02/03/2015) MAE229 16 / 16

Você também pode gostar