Escolar Documentos
Profissional Documentos
Cultura Documentos
CATÓLICA DE ANGOLA
Faculdade de Economia e Gestão
ESTATÍSTICA II
Draft de Apontamentos teóricos
UNIVERSIDADE
CATÓLICA DE ANGOLA
Faculdade de Economia e Gestão
ESTATÍSTICA II
Draft de Apontamentos teóricos
1
ESTATÍSTICA II | ALBERTINA DELGADO
Índice
Capítulo I: Distribuições Teóricas mais Importantes .............................................................................................. 4
1.1 Distribuições Discretas .................................................................................................................................. 4
1.1.1 Distribuição Uniforme ............................................................................................................................ 4
1.1.2 Distribuição de Bernoulli ........................................................................................................................ 6
1.1.3- Distribuição Binomial ............................................................................................................................ 8
1.1.4 Distribuição de Poisson ........................................................................................................................ 11
1.1.5 Aproximação da Binomial à Poisson .................................................................................................... 12
1.2 Distribuições Contínuas .............................................................................................................................. 14
1.2.1- Distribuição Uniforme ......................................................................................................................... 14
1.2.2- Distribuição Normal ............................................................................................................................ 16
1.2.3 Aproximação da distribuição Binomial à Normal ................................................................................ 20
1.2.4 Aproximação da distribuição de Poisson à Normal.............................................................................. 21
1.2.5 Distribuição Qui-Quadrado .................................................................................................................. 22
1.2.6 Distribuição t ........................................................................................................................................ 22
1.2.7 Distribuição F........................................................................................................................................ 22
Capítulo II: Inferência Estatística........................................................................................................................... 23
2.1 Introdução. Amostra aleatória. Métodos de amostragem ......................................................................... 23
2.1.1 Conceitos relevantes da teoria da amostragem .................................................................................. 23
2.1.2 Fases de um processo de Amostragem ................................................................................................ 24
2.1.3 Desenvolvimento de um plano amostral ............................................................................................. 24
2.1.4 Principais Métodos de Amostragem .................................................................................................... 25
2.1.5 Importância da Amostragem ............................................................................................................... 26
2.1.6 Processo de amostragem ..................................................................................................................... 27
2.2 Distribuições teóricas amostrais ................................................................................................................. 28
2.2.1 Introdução ............................................................................................................................................ 28
2.2.2 Parâmetros e Estatísticas ..................................................................................................................... 29
2.2.3 Lei dos grandes números...................................................................................................................... 30
2.2.4 Distribuição Normal ............................................................................................................................. 31
2.2.5 Distribuição do Qui-quadrado .............................................................................................................. 32
2.2.5 Distribuição t de Student ...................................................................................................................... 33
2.2.6 Distribuição F de Snedecor ................................................................................................................... 34
2
ESTATÍSTICA II | ALBERTINA DELGADO
3
ESTATÍSTICA II | ALBERTINA DELGADO
1
X U p
n
A função de probabilidade de uma variável aleatória discreta X, que tem uma distribuição uniforme é
dada por:
1
x 1,2...., n
f ( x) n
0 outros valores
Exemplo:
Considere a experiência a que consiste no lançamento de um dado perfeito. Seja a v.a X – número
inscrito na face voltada para cima.
4
ESTATÍSTICA II | ALBERTINA DELGADO
1
X U p
n
1
x 1,2,3,4,5,6
P( X x) f ( x) 6
0 outros valores
A variável aleatória X assume n valores, estando associado a cada um deles uma probabilidade constante
igual a 1/N. Portanto N é o parâmetro caracterizador da distribuição uniforme.
Teorema:
N 1
EX x
2
N 2 1
Var X x2
12
Demonstração:
1
f ( xi )
N
N N
EX
1 1
x
xi 1
i
N
N
x
x i 1
i
N
1 N
x
xi 1
i
2
N
1 1 N
EX N
N 2
1 N
EX
2
5
ESTATÍSTICA II | ALBERTINA DELGADO
- Variância:
Var X x E ( X 2 ) E ( X )
2
1 N
N 2
xi f ( xi )
2
xi 1 2
1 N
( N 1) 2
N
xi
xi 1
2
4
N
N (1 N )( 2 N 1)
x
xi 1
i
2
6
1 N (1 N )( 2 N 1) ( N 1) 2
N 6 4
2( N 1)( 2 N 1) 3( N 1) 2
12
N 1
2
12
A função de distribuição F(x) duma uniforme tem as mesmas características da frequência acumulada
relativa, e facilmente obtém-se deste conceito estudado.
0 x 1
x
F X PX x i x1 x xi 1 , x1 1,2,...N 1
N
1 xN
Prova ou experiência de Bernoulli é uma experiência aleatória que apenas tem dois resultados
possíveis: A que se designa por sucesso e Ā designado por insucesso. O sucesso ocorre com
probabilidade p e o insucesso com probabilidade q = 1- p.
Exemplo:
Suponha que, com o objectivo de medir a audiência de determinado programa de televisão, se pergunta
a um potencial telespectador se viu ou não aquele programa. Trata-se de uma prova de Bernoulli?
A variável aleatória, número de sucessos numa prova de Bernoulli, toma o valor 1 caso se observe um
sucesso e 0 caso contrário.
Definição:
Dizemos que uma variável X segue o modelo de Bernoulli se atribui 0 ou 1 à ocorrência de falha ou
sucesso, respectivamente. Em uma experiência só podem ocorrer dois resultados possíveis.
6
ESTATÍSTICA II | ALBERTINA DELGADO
Diz-se que uma v.a. X tem distribuição de Bernoulli de parâmetro p, e representa-se por X∩B (p), se
a sua função de probabilidade for dada pela expressão seguinte:
p se k 1
p k (1 p)1k , se k 0,1
P( X k ) ou P( X k ) q se k 0
0, se k 0,1 0
se k 0,1
Teorema:
Demonstração:
0(1 p ) 1. p p
- Variância:
12 ( p ) p 2
p p p(1 p) p.q
2
Exemplo:
Admitamos que os 30 alunos de uma turma vivem às distâncias da escola especificadas no quadro
seguinte:
Distância ni fi
Até 1 km 15 1/2
De 1 km a 5 km 10 1/3
Mais de 5 km 5 1/6
Seja a experiência aleatória a seguinte: “ escolher um aluno ao acaso e verificar se este aluno vive a mais
de 5 km da escola”.
7
ESTATÍSTICA II | ALBERTINA DELGADO
Este é um exemplo de distribuição de Bernoulli, pois temos a caso sucesso se o aluno viver mais de 5
km da escola e o insucesso se viver a menos de 5 km. Assim X=1 se o estudante viver a mais de 5 km e
igual a zero se viver a menos de 5 km.
p k (1 p )1 k , se k 0,1
P( X k )
0, se k 0,1
Como podemos ver no quadro, a probabilidade de viver mais de 5 km é de 1/6. Aplicando a fórmula,
1 11
1 1 1
P( X 1) 1
6 6 6
Uma experiência aleatória que verifica estas condições chama-se experiência binomial.
Exemplo:
O lançamento ao ar de uma moeda perfeita (não viciada), constitui um exemplo de uma experiência
binomial.
Problema:
Considere-se uma experiência que consiste na repetição de n provas independentes de Bernoulli com p,
probabilidade de sucesso, constante de prova para prova.
Seja X a v. a., número de sucessos observados ao fim de n provas. Qual a função de probabilidade da
v.a. X?
Definição
Diz-se que uma v.a. X tem distribuição Binomial de parâmetros n e p, e representa-se por
X∩b (n, p), se a sua função de probabilidade for dada pela expressão seguinte:
n x
p 1 p
n x
x 0,1,2,3,...n
PX x f ( x) f(x; n; p) x
0
outros valores
8
ESTATÍSTICA II | ALBERTINA DELGADO
0 x0
x
n xi
PX x F ( x) p 1 p n xi 0 xn
xi 0 x
1 xn
Os parâmetros n e p são suficientes para a especificação duma distribuição binomial, isto é, a valores
diferentes de n e p correspondem diferentes distribuições desta família.
Teorema:
A Esperança, Variância e Desvio Padrão da v. a. do tipo Binomial são calculadas respectivamente por:
E(X ) = n .p Var (X ) = n. p. q
• Em resumo, as três propriedades básicas que caracterizam uma v.a. Binomial são:
Exemplo:
20% dos seus membros tinham comprado acções directamente através de uma oferta pública inicial
(AAII jornal, Julho de 2004). Em uma amostra de 10 membros destes associados verifique:
a) Qual a probabilidade de que exactamente três membros tenham comprado tais acções?
b) Qual a probabilidade de que pelo menos um membro tenha comprado tais acções?
Resolução
a) P(X = 3) =?
10
PX 3 f (3) 0,23 1 0,2 0,2013
103
3
9
ESTATÍSTICA II | ALBERTINA DELGADO
Usando a tabela de distribuição binomial obtemos o mesmo resultado, e é um calculo mais simples, ora
vejamos:
Como fazer?
Pretende-se a probabilidade de X = 3.
a) R: A probabilidade de que exactamente três membros tenham comprado tais acções é de 20,13%.
b) P(X ≥ 1) = ?
P( X 1) 1 P( X 1) 1 P( X 0) 1 0,1074 0,8926
b) R: A probabilidade de que pelo menos um membro tenha comprado tais acções é de 89,26%.
c) P(X ≤ 9) =?
P( X 9) P( X 0) P( X 1) P( X 2) P( X 3) P( X 4) P( X 5) P( X 6) P( X 7) P( X 8) P( X 9)
P( X 9) 0,1074 0,2684 0,3020 0,2013 0,0881 0,0264 0,0055 0,0008 0,0001 0,0000
P( X 9) 1
10
ESTATÍSTICA II | ALBERTINA DELGADO
Ela expressa, por exemplo, a probabilidade de um certo número de eventos ocorrerem num dado período
tempo, caso estes ocorram com uma taxa média conhecida e caso cada evento seja independente do
tempo decorrido desde o último evento.
A distribuição foi descoberta por Siméon-Denis Poisson (1781–1840) e publicada, conjuntamente com
a sua teoria da probabilidade, em 1838 no seu trabalho Recherches sur la probabilité des jugements en
matières criminelles et matière civile ("Inquérito sobre a probabilidade em julgamentos sobre matérias
criminais e civis").
O Processo de Poisson
Se a variável X segue uma distribuição de Poisson [X∩ P (λ)], de parâmetro λ , a sua função de
probabilidade é dada por:
- x
x 0;1;2......
PX x f ( x; ) x!
0
outros valores
• número de pessoas que se dirigem ao caixa de um banco num dado intervalo de tempo;
Teorema:
Se X∩ P (λ) então a média e a variância são iguais a λ , que representa a taxa com que eventos são
observados.
11
ESTATÍSTICA II | ALBERTINA DELGADO
μ=E[X]= λ
σ2=var(X)= λ
Exemplo:
O número de pedidos de ambulância que chegam, por dia, a determinado posto de socorros, é em média
de 2. Calcule a probabilidade de que:
Resolução
X∩ P (λ=2)
b) P(X= 4) = 0,0902
Regra prática
Em geral, a distribuição de Poisson fornece uma boa aproximação da distribuição binomial quando n
>20 e p ≤0,05.
Exemplo:
12
ESTATÍSTICA II | ALBERTINA DELGADO
Uma companhia de seguros possui 10.000 apólices no ramo vida referente a acidentes de trabalho. Sabe-
se que, por ano, a probabilidade de determinado indivíduo morrer de acidente de trabalho é de 0.0001.
Qual a probabilidade de a companhia ter de pagar por ano a pelo menos 4 dos seus segurados?
Resolução
Seja X- número de apólices, em 10.000, que são pagas anualmente pela seguradora
X b (n 10000, p 0,0001)
Como n é maior que 20 e p menor que 0,05, existem condições para fazer a aproximação à distribuição
de poisson:
o
X p ( 10000 x 0, 0001)
o
X p ( 1)
13
ESTATÍSTICA II | ALBERTINA DELGADO
Uma distribuição de variável aleatória contínua é a distribuição uniforme cuja função densidade de
probabilidade é constante dentro de um intervalo de valores da variável aleatória X.
Cada um dos possíveis valores que X com distribuição uniforme pode assumir tem a mesma
probabilidade de ocorrer.
Definição:
Diz-se que a variável contínua X tem distribuição uniforme no intervalo [a, b], e escreve-se: X∩U (a,b)
se a sua função de densidade de probabilidade é dada por:
1
f ( x)
ba
1
a xb
Ou seja: f ( x) f ( x; a; b) b a
0 outros valores
Graficamente, temos:
f (x)
1
ba
a b X
A função de distribuição acumulada é dada por:
0 xa
x a
F ( x) P( X x) a xb
b a
1 xb
14
ESTATÍSTICA II | ALBERTINA DELGADO
Teorema:
ab (b a) 2
EX Var( X )
2 12
Demonstração:
Demonstração:
E ( X ) xf ( x)dx 1 x3
b
1 b3 a 3
E( X ) 2
ba 3 ba 3
b b
1 1
E( X ) x
b a a
dx xdx a
a
ba b3 a 3
E( X ) 2
b 3(b a )
1 x2 1 b2 a 2
E( X )
ba 2 a ba 2 b 3 a 3 ( a b) 2
Var ( X )
3(b a ) 4
b2 a 2 (b a )(b a )
E( X ) Var ( X )
4(b3 a 3 ) 3(b a )(a b)2
2(b a ) 2(b a ) 12(b a )
ab
E(X) c.q.d
Var ( X )
4b3 4a 3 3b3 3ab2 3a 2b 3a 3
2 12(b a )
Var ( X ) E ( X 2 ) [ E ( X )]2
b3 3ab2 3a 2b a 3
b Var ( X )
12(b a )
E( X ) x
2 2
f ( x )dx
a
(b a )3 (b a ) 2
1
b
1
b
Var (X) c.q.d
E( X ) x
2
dx
2
x
2
dx 12(b a ) 12
a
ba ba a
Exemplo 1
Se X é uma variável aleatória uniformemente distribuída no intervalo (-4,10), calcule a probabilidade de:
(a) P( X 4) . (b) P(1 X 6) . (c) P( X 0) . (d) P( X 1 2) .
Solução
X ~ U(-4,10)
4 4 8
4
1
4 4
1 1
a) P( X 4) dx dx x
4
10 (4) 4
14 14 4 14 14 14
P( X 4) 0,57
15
ESTATÍSTICA II | ALBERTINA DELGADO
1 6 1 5
6 6 6
1 1
P(1 X 6) dx dx x
b) 1
10 (4) 1
14 14 1 14 14 14
P(1 X 6) 0,36
10 0 10
10
1
10 10
1 1
P( X 0) dx dx x
c) 0
10 (4) 0
14 14 0 14 14 14
P( X 0) 0,71
d)
P( x 1 2) P(1 x 3)
3
1
3
1 3 1 4
114dx 14 x 1 14 14 14
Exemplo 2
Exemplo 2
Suponha que X tenha uma distribuição contínua uniforme no intervalo [1,5; 5,5]. Determine:
a) E(X) e V(X).
b) P(X<2,5)
Solução:
ab 7
a) E( X )
2 2
(b a) 16
2
V (X )
12 12
2,5
1 1
b) P( x 2,5) 4 dx 4
1, 5
A distribuição Normal também funciona como uma boa aproximação para outras densidades. Por
exemplo, sob algumas condições pode-se provar que a densidade Binomial pode ser aproximada pela
Normal.
Suponha que trabalha numa empresa e recebe um lote de peças cuja espessura precisa medir. Ao realizar
essas medições, encontra um conjunto de valores que tendem a concentrar-se em torno de um
determinado valor e a curva de distribuição encontrada tem a forma de um sino, perfeitamente simétrica
16
ESTATÍSTICA II | ALBERTINA DELGADO
em relação ao eixo das ordenadas. Isso ocorre quando o número de medidas e as componentes de erro
(acidentais, aleatórios) são grandes. Ou seja, quando uma medida é realizada, o valor está sujeito a
inúmeros pequenos erros aleatórios, que fazem com que o valor lido possa ser muito maior ou muito
menor do valor correcto, dependendo do modo como se combinam.
Definição:
A curva normal tem forma de sino, ou seja, é uni modal e simétrica, e o seu valor de máxima frequência
(moda) coincide com o valor da média e da mediana.
A distribuição de valores maiores que a média (x + μ > 0) e a dos valores menores que a média (x - μ <
0) é perfeitamente simétrica, ou seja, se passarmos uma linha exactamente pelo centro da curva teremos
duas metades, sendo que cada uma delas é a imagem especular da outra.
As extremidades da curva se estendem de forma indefinida ao longo de sua base (o eixo das abcissas)
sem jamais tocá-la. (Portanto, o campo de variação da distribuição normal se estende de - infinito a +
infinito).
Assim sendo, a curva apresenta uma área central em torno da média, onde se localizam os pontos de
maior frequência e também possui áreas menores, progressivamente mais próximas de ambas as
extremidades, em que são encontrados valores muito baixos de x (à esquerda) ou escores muito altos (à
direita), ambos presentes em baixas frequências.
Se a v.a contínua X, segue uma distribuição normal e escreve-se X∩ N ( μ; σ) se a sua função densidade
de probabilidade for dada por:
1 X
2
f X f ( X ; ; )
1
e 2 com X
2
17
ESTATÍSTICA II | ALBERTINA DELGADO
Teorema:
E X
Var X 2
4. A curva é assintótica;
Note-se que, se diferentes amostras apresentarem o mesmo valor de média μ e diferentes valores de
desvios padrão σ, a distribuição que tiver o maior desvio padrão se apresentará mais achatada (c), com
maior dispersão em torno da média. A que tiver o menor desvio padrão apresentará o maior valor de
frequência e acentuada concentração de indivíduos em valores próximos à média (a).
Já, distribuições normais com valores de médias diferentes e o mesmo valor de desvio padrão possuem
a mesma dispersão, mas diferem quanto à localização no eixo dos X.
Uma vez que μ e σ podem assumir uma infinidade de valores não numeráveis ( - ∞ < μ < +∞ ; σ > 0)
logo também existe uma infinidade não numerável de distribuições normais diferentes.
18
ESTATÍSTICA II | ALBERTINA DELGADO
Assim sendo, para o calculo de probabilidades, qualquer distribuição normal é transformada para a
conhecida como normal padrão ou normal estandardizada.
X
Z
Se X segue uma distribuição normal, então tem - se que:
E X
Var X 2
X 1
E Z E EX
E ( X ) E ( )
1
E Z 0
1
X 1
VarZ Var 2 VarX
2 Var( X ) Var( )
1
1
2
2
0 1
X
Z N 0;1
A função de distribuição, Φ (Z) permite calcular probabilidades em determinados intervalos:
Φ (Z) = P [Z ≤ z]
A função de distribuição de Z representa-se por Φ (z). Como consequência da simetria tem-se que
Φ(− z) = 1 −Φ (z)
19
ESTATÍSTICA II | ALBERTINA DELGADO
Exemplo:
É um dado que X, a venda diária de pão de uma padaria, segue distribuição normal com média 70 e
variância 9. Qual é a probabilidade de que num dado dia a venda de pão seja:
a) 75 pães ou menos
Exemplo:
É um dado que X, a venda diária de pão de uma padaria, segue distribuição normal com
b) superior à 75 média 70 e variância 9. Qual é a probabilidade de que num dado dia a venda de pão seja:
a) 75 pães ou menos
b) superior à 75
c) entre 65 e 75 c) entre 65 e 75
X∩ N(70; 3) X∩ N(70; 3)
a) P(X ≤ 75) = ?
X 70 75 70
P PZ 1,67 (1,67) 0,9525
3 3
b) P(X >75) = ?
X 70 75 70
P P Z 1,67 1 P ( Z 1,67)
3 3
1 (1,67 ) 1 0,9525 0,0475
A distribuição Normal fornece uma boa aproximação à distribuição Binomial quando n, número de
tentativas é grande (n → ∞), e p , a probabilidade de um sucesso numa tentativa é próxima de 0,5.
Teorema: Se X é uma variável aleatória que segue uma distribuição binomial com parâmetros n e p ,
então:
20
ESTATÍSTICA II | ALBERTINA DELGADO
o
X N n. p; n. p.q
ou seja
X n. p o
N (0; 1)
n. p.q
Em termos práticos quando n > 20, podemos fazer a aproximação.
Quando λ > 20 a distribuição Normal é adequada como aproximação da distribuição de Poisson, através
do seguinte método:
e
o
X N ;
ou seja
X o
N (0; 1)
Correcção de continuidade
Quando se faz uma aproximação de uma distribuição de v.a. discreta por uma v.a. contínua, temos
sempre de fazer uma correcção por continuidade, que consiste em substituir na expressão o valor discreto
da variável por um aproximado que se distância do inicial por 0,5.
Regras:
Exemplo:
De acordo com os dados recolhidos ao longo de vários anos, sabe-se que 20% dos indivíduos que são
contactados pessoalmente pelos agentes de vendas realizam uma compra. Se determinado agente de
vendas visitar 30 potenciais clientes, qual será a probabilidade de, no mínimo 10 realizarem uma
compra?
Seja X o número de indivíduos que são contactados pessoalmente pelos agentes de vendas realizam uma
compra.
X ∩ b (n = 30 e p = 0,2)
21
ESTATÍSTICA II | ALBERTINA DELGADO
o
X N 6; 4,8
P ( X 10) ?
P ( X 10) P ( X 10 0,5) P ( X 9,5)
X 6 9,5 6
P P ( Z 1,60)
2,19 2,19
1 P ( Z 1,60) 1 (1,60)
1 0,9452 0,0548
Assim, olhando para a tabela podemos ver por exemplo que, com P = 95% de uma distribuição Qui-
Quadrado com 6 graus de liberdade é de 12,6.
1.2.6 Distribuição t
A distribuição t está fortemente relacionada com a estatística normal.
A função de distribuição t também possui a forma de sino, parecido com a distribuição normal,
e é simétrica em relação ao seu pico em zero.
A maior diferença e que as caudas são mais grossas. Na prática isso quer dizer que urna
distribuição t possui maior probabilidade de tornar valor distantes de zero.
1.2.7 Distribuição F
A distribuição F está relacionada com a distribuição Qui-Quadrado e, portanto, com graus de
liberdade.
Xm
F
Yn
As distribuições X2, t e F serão estudadas com maior detalhe no próximo capítulo uma vez que se tratam
de distribuições amostrais.
22
ESTATÍSTICA II | ALBERTINA DELGADO
Como vimos a Estatística I, A Estatística é a ciência que se ocupa da obtenção de informação, seu
tratamento inicial, com a finalidade de, através de resultados probabilísticos adequados, inferir de
uma amostra para a população, e eventualmente mesmo prever a evolução futura de um fenómeno.
Quer dizer que a Estatística é uma área da ciência ligada com a extracção de informação de dados
numéricos e a sua utilização no processo de tornada de decisões (estabelecimento de inferências) sobre
urna população da qual os dados foram obtidos.
Entende-se por amostra qualquer subconjunto de elementos retirado da população, desde que esse
subconjunto seja não vazio e tenha menor número de elementos do que a população. A obtenção de
informação sobre parte de uma população denomina-se amostragem.
Exemplos:
2- No estudo da fracção de fumantes que preferem a marca de cigarros “AC” nós assumimos que
aqueles que forem entrevistados constituem uma amostra representativa da população de todos os
fumantes (que apesar de numericamente ser uma população finita, pode ser considerada infinita para
efeitos práticos).
23
ESTATÍSTICA II | ALBERTINA DELGADO
protegidas). Quer-se saber se essa tinta protege realmente as máquinas. Nesse caso a amostra consiste
de 20 máquinas. Qual seria a população? O que seria, então, de interesse primário? A Amostra ou a
população?
Nos exemplos citados acima nós estamos primordialmente interessados na população. Na maioria dos
casos seria impossível obtermos todos os dados de interesse da população. Portanto, a amostra pode ser
de interesse imediato, mas estamos primordialmente interessados em descrever a população da qual a
amostra foi extraída.
O plano de amostragem deverá começar por determinar qual o nível de extensão geográfica em que o
processo de amostragem deverá ser conduzido (mundial, nacional, regional, urbano, rural, grupo de
indivíduos, etc.).
A construção da amostra propriamente dita envolve várias etapas igualmente importantes e que são:
A identificação da população de uma forma clara e objectiva é imprescindível, embora possa parecer
demasiado óbvia em muitas circunstâncias. Designa-se por população alvo a totalidade dos elementos
sobre os quais se deseja obter determinado tipo de informações.
Exemplo: Um estudo sobre as intenções de voto terá como população alvo todos aqueles que estão em
idade e em condições de votar. No entanto, a população inquirida poderá incluir apenas aqueles que
votaram nas últimas eleições.
Resumindo, a população alvo é constituída por todos os elementos sobre os quais se deseja obter um
determinado conjunto de informações. No entanto, em muitas situações, não é operacional inquirir uma
amostra retirada da população alvo, havendo necessidade de definir qual é a população a inquirir, não
coincidente com a população alvo, e a partir da qual se retirará a amostra.
24
ESTATÍSTICA II | ALBERTINA DELGADO
População alvo
População a inquirir
Amostra final
O objectivo geral na extracção de uma amostra é obter uma representação “honesta”da população que
conduza a estimativas das características da população com “boa” precisão relativamente aos custos de
amostragem, isto é, obter uma amostra representativa da população. Existem dois grandes grupos de
métodos para seleccionar/recolher amostras: os métodos
(ii) Os métodos de selecçãoaleatórios
da amostra e métodos não aleatórios.
O objectivo geral na extracção de uma amostra é obter uma representação “honesta”da população que
- Tipos de amostra
conduza a estimativas das características da população com “boa” precisão relativamente aos custos de
amostragem, isto é, obter uma amostra representativa da população. Existem dois grandes grupos de
- Amostra aleatória
métodos para casual) – é amostras:
(ouseleccionar/recolher possível calcular,
os métodos a priori,
aleatórios a não
e métodos probabilidade
aleatórios. de observar cada
indivíduo da população na amostra.
- Tipos de amostra
- Amostra aleatória (ou casual) – é possível calcular, a priori, a probabilidade de observar cada
- Amostra determinística (ou dirigida)–
indivíduo da população na amostra. não é possível calcular essa probabilidade.
- Amostra determinística (ou dirigida)– não é possível calcular essa probabilidade.
25
ESTATÍSTICA II | ALBERTINA DELGADO
- Amostragem por clusters: dividir a população em secções (ou clusters); seleccionar aleatoriamente
alguns desses clusters; escolher todos os membros dos clusters seleccionados.
- Amostragem estratificada: subdividir a população em, pelo menos, dois subgrupos distintos que
partilham alguma característica e, em seguida, recolher uma amostra de cada um dos subgrupos (ou
estratos).
- Amostragem por etapas: Neste tipo de amostragem, selecciona-se em primeiro lugar, aleatoriamente,
uma amostra por Clusters – repare-se que é muito mais fácil obter uma lista por Clusters (por exemplo,
de escolas) do que uma lista exaustiva dos elementos que compõem a População (por exemplo, todos os
alunos). Seguidamente podemos realizar, ou não, uma segunda etapa, na qual são escolhidos
aleatoriamente alguns elementos dos Clusters seleccionados na fase anterior ou, então, continuando com
a selecção de Clusters até se chegar às unidades elementares.
26
ESTATÍSTICA II | ALBERTINA DELGADO
Na realização de qualquer estudo quase nunca é possível examinar todos os elementos da popula-ção de
interesse. Temos usualmente de trabalhar com uma amostra da população. A inferência estatística nos dá
elementos para generalizar, de maneira segura, as conclusões obtidas da amostra para a população.
É erróneo pensar que, caso tivéssemos acesso a todos os elementos da população, seríamos mais
preciosos. Os erros de colecta e manuseio de um grande número de dados são maiores do que as
imprecisões a que estamos sujeitos quando generalizamos, via inferência, as conclusões de uma amostra
bem seleccionada.
Assim que decidimos obter informações através de um levantamento amostral, temos imediatamente
dois problemas:
O erro amostral resulta do facto de os dados se referirem apenas a uma parte da população e não a sua
globalidade.
O erro não amostral também pode ser observado em censos e resulta de: não entendimento das questões
por parte dos inquiridos, erros no registo da informação obtida, recusa dos inquiridos em responder às
questões, etc.
São erros não controláveis mas minimizáveis (controlo de registos, simplificação das questões, etc.).
Vantagens:
o o grau de confiança associado aos resultados obtidos pode ser medido e controlado;
o o enviesamento potencial no que se refere à escolha dos indivíduos a inquirir é mínimo,
uma vez que se trata de um processo de selecção casual e mecânico.
Desvantagens:
o Dificuldade na obtenção de uma listagem completa da população a inquirir;
o “não-respostas”.
27
ESTATÍSTICA II | ALBERTINA DELGADO
- para uma dada dimensão amostral, a probabilidade de uma amostra de dimensão n ser escolhida
deve ser igual.
A escolha dos elementos é feita por software adequado ou através das tabelas de números aleatórios.
2.2.1 Introdução
Quando se pretende estudar uma população, interessa fazê-lo analisando certas características dessa
população. Estas características podem ser discretas e contínuas e o seu comportamento pode ser
definido segundo uma função de probabilidade (se a característica for discretas) ou uma função de
densidade de probabilidade (se a variável for contínua).
Para que o comportamento de uma variável X seja conhecida, basta conhecer a sua distribuição e o valor
dos parâmetros caracterizadores dessa distribuição, se for uma distribuição binomial deve-se conhecer
o p e n, se for a normal deve-se conhecer a μ e o σ. Porém, os parâmetros da população só serão
conhecidos se for possível estudar todos os efeitos que a ela pertencem, e isso só é possível em
populações finitas. Os custos resultantes do estudo de toda população são por vezes muito elevados, logo
a alternativa consiste em trabalhar com amostras, inferindo assim da amostra da população, os métodos
de inferência estatística pressupõem que a amostra é aleatória.
- Amostra Aleatória
Nem todas as amostras permitem que, a partir dos seus resultados, se faça uma generalização a toda a
população com uma certa credibilidade. No fundo, pretende-se que a amostra seleccionada seja um
subconjunto da respectiva população e daí que nos debrucemos a partir de agora, apenas sobre o método
de amostragem aleatória.
Este método de selecção de amostras, a que já fizemos referência no início deste capítulo, garante que
todos os elementos da população têm as mesmas hipóteses de serem integrados na amostra, evitando-se
assim qualquer enviesamento da selecção, isto é, qualquer tendência sistemática para sub representar
ou sobre representar na amostra alguns elementos da população.
Consideremos então que se pretende estudar a característica X de uma população e que X tem uma f.d.p
Fx( x ) (se estivéssemos a trabalhar com uma função de probabilidade o processo era análogo).
Se for retirada dessa população uma amostra A1 de dimensão n obteremos (X11, X21, X31,…,Xn1) em que
o k-ésimo elemento da amostra Xk1, (com k = 1,2,3,..n) é um valor do conjunto de
28
ESTATÍSTICA II | ALBERTINA DELGADO
(X1,X2,X3,...,Xn )
que por gerar as diferentes amostras (A1,A2, ...,As ,...) pode ser considerada como uma variável aleatória
n-dimensional com função densidade de probabilidade conjunta.
A variável aleatória (X1,X2,X3,...,Xn ) chama-se uma amostra aleatória retirada de uma certa população,
se a sua função de probabilidade ou f.d.p for dada por:
n
f x1 , x2 ,..., xn f x1 . f x2 . ... f xn f x1
i 1
Um parâmetro é uma característica duma população, isto é, um valor que embora possa ser
desconhecido é fixo.
Uma estatística é uma característica da amostra, isto é, um valor que caracteriza uma dada amostra e
que é variável de amostra para amostra, ou seja, uma variável aleatória.
Exemplo: Se para cada uma das amostras A1,A2,...,As ,... referidas anteriormente, calcularmos a
respectiva média, iremos obter:
1 2 s
X , X ,...X
Podemos então considerar que a média amostral é uma variável aleatória (amostral), que assume um
dado valor concreto para cada amostra Ai .
Designa-se por estimativa o valor que uma estatística assume para uma dada amostra concreta.
Assim a média μ e o desvio padrão σ de uma população normal ou a media p e o desvio padrão p(1 p)
uma de uma população de Bernoulli são parâmetros.
A média de uma amostra (média amostral) recolhida de uma população é uma estatística e designa-se
por X . O desvio padrão de uma amostra é também uma estatística e designa-se por S.
29
ESTATÍSTICA II | ALBERTINA DELGADO
Exemplos:
1 n
T1 X X i é a chamada média amostral
n i 1
X
n 2
i X
T2 S 2 i 1
é a chamada var iância amostral
n
X
n
2
i X
T3 S '2 i 1
é a chamada var iância amostral corrigida
n 1
distribuídas, com média μ e desvio padrão σ, converge para μ à medida que n aumenta.
- A partir deste resultado podemos dizer que a frequência relativa de um certo acontecimento de interesse
num conjunto de n experiências independentes, converge para a probabilidade do acontecimento à
medida que n aumenta.
O teorema do limite central, em teoria das probabilidades, expressa o facto de a soma de muitas variáveis
aleatórias independentes e com mesma distribuição de probabilidade tender à distribuição normal,
também conhecida como distribuição Gaussiana.
Vimos anteriormente que a média de uma conjunto de variáveis aleatórias Normais, é ainda Normal:
X N , X N ,
n
O Teorema do Limite Central permite dizer que a média de um conjunto de variáveis aleatórias com
uma qualquer distribuição é aproximadamente Normal (cada vez mais Normal à medida que o nº de
variáveis aumenta).
X F ( X ) X N ,
o
n
30
ESTATÍSTICA II | ALBERTINA DELGADO
X
N 0,1
o
n
Vamos mais detalhadamente ver nos temas seguintes a distribuição amostral de algumas estatísticas
importantes no capítulo da inferência estatística. Porém torna-se necessário definir algumas distribuições
teóricas.
1 X
2
f X
1
e 2 com X , onde µ e σ são os parâmetros da distribuição e que
2
satisfazem:
e 0 .
Teoremas:
VAR X 2
ou seja,
X
X ~ N ; ou X ~ N ;
2
→ ~ N 0;1
2. A distribuição normal é aditiva: dadas n variáveis aleatórias independentes com distribuição
normal de parâmetros µ e σ,
n
X n
X ~ N n; n
n
→ i 1
~ N 0;1
i 1 n
X
então: ~ N 0;1 ← X ~ N ;
n
n
Características:
31
ESTATÍSTICA II | ALBERTINA DELGADO
a função densidade de probabilidade de uma variável aleatória com distribuição normal tem
forma de sino, é simétrica em relação ao eixo X e tem pontos de inflexão em X ;
qualquer distribuição normal é definida por duas medidas: a média µ que localiza o centro da
distribuição e o desvio-padrão σ mede a variabilidade de X em torno da média.
X ~ n2 então :
EX n
Var( X ) 2n
X
i 1
i ~ 2n
nj
j 1
Teoremas:
1. O quadrado de uma variável aleatória normal padronizada tem distribuição do qui-quadrado com
1 grau de liberdade.
32
ESTATÍSTICA II | ALBERTINA DELGADO
X
2
Z
2
~ 1
2
sendo Z 2 ~ N 0;1
i 1
~ n
2
E X 0
VAR X
n
se n2
n2
Teoremas:
33
ESTATÍSTICA II | ALBERTINA DELGADO
2. A distribuição t de Student tende para a distribuição normal, à medida que n aumenta. Ou seja,
se X ~ t n , quando n
n
~ N 0,1 ,
X
X ~ N 0,
ou
n 2 n
n2
Características:
E X
n
n2
2n 2 m n 2
VAR X se n 4
mn 2 n 4
2
Teoremas:
1
1. Se a variável aleatória X ~ Fnm então: ~ Fmn Onde m, graus de liberdade no numerador e n graus
X
de liberdade no denominador
X
F m ~ Fnm
Y
n
3. O seu aspecto gráfico depende dos parâmetros m e n. O quadrado de uma variável aleatória com
distribuição t de Student com n graus de liberdade tem uma distribuição F com 1 e n graus de
liberdade. Ou seja, se T ~ t n então: T 2 ~ Fn1
34
ESTATÍSTICA II | ALBERTINA DELGADO
a) Propor um estimador para θ que pareça um bom estimador graças às propriedades de que ele
goza;
b) Construir um estimador e, no processo de construção, assegurar que ele goze das propriedades
desejáveis de um bom estimador.
1. Linearidade
2. Não enviesamento
3. Eficiência
4. Não enviesamento assimptótico
35
ESTATÍSTICA II | ALBERTINA DELGADO
Um estimador diz-se linear quando é uma função linear das observações da amostra. Os estimadores
lineares são geralmente mais fáceis de utilizar.
Um estimador ˆn diz-se não enviesado assimptoticamente quando: lim E ˆ isto é, quando a
n
média da distribuição do estimador converge para o parâmetro.
Variância amostral é uma medida que se obtém somando os quadrados dos desvios dos dados
relativamente à média, e dividindo pelo número de dados menos um. Representa-se por S2.
X i X 2
ES 2
E
n
1
n
E X i X
2
1
n
E X i X
2
1
n
E X i 2 X i X X
2 2
1
n
E X i 2 X i X X
2 2
2 X i X 2 XX i X i X 2
2 X X i X i X 2
2 X X i X i nX n 2
n n
2 X X i X i nX n 2
n n
2 nX 2 nX nX n 2
36
ESTATÍSTICA II | ALBERTINA DELGADO
2 nX 2 2nX n 2
2n X 2 2X 2
2n X
2
E S2
1
n
E X i 2nX X
2 2 2
1
n
E X i 2nX nX
2 2 2
1
n
E X i nX
2 2
1
n
2
E X i E nX
2
1
n
EX nEX
i
2 2
1
n
VAR X nVARX
i
1 2
n
2
n n
1
n
n 2 2
n 1 2
n
E S 2 2 (A variância amostral não corrigida é um estimador é enviesado.)
A ideia desse método é, estimar o(s) parâmetro(s) de tal forma que a probabilidade de ocorrência desses
dados observados naquele(s) parâmetro(s) estimado(s) seja máxima, levando em consideração os dados.
37
ESTATÍSTICA II | ALBERTINA DELGADO
O princípio de máxima versossimilhança é um dos metodos mais utilizados para se obter estimadores.
Se consideremos uma população e uma v.a X, relacionada a essa população, com determinada função
de probabilidade (se X é uma v.a discreta) ou função densidade de probabilidade (se X é uma v.a
contínua) 𝑓(𝑥, 𝜃), sendo 𝜃 o parâmetro desconhecido. Retiremos uma amostra aleatória simples de X,
de tamanho n, X1 ,..Xn, e sejam 𝑥1 , … , 𝑥𝑛 os valores efetivamente observados.
𝐿(𝜃; 𝑥1 , … , 𝑥𝑛 ) = ∏ 𝐹(𝑥𝑖 ; 𝜃)
𝑖=1
Em muitos casos, o estimador de máxima verossimilhança pode ser encontrado seguindo os passos
abaixo:
Dada uma amostra concreta e identificada a distribuição da sua população – que depende do(s) seu(s)
parâmetro(s) –, o MMV basicamente responde a seguinte questão: “qual o valor do parâmetro que torna
uma amostra concreta mais verosímil (provável)?”
É, portanto, condição necessária para a aplicação deste método, que se conheça a distribuição da
população.
O método é generalizável para populações com mais de um parâmetro como é o caso da distribuição
normal e os estimadores que produz gozam, em geral, das propriedades desejáveis num bom estimador:
são os mais eficientes, consistentes e, se não são centrados, são pelo menos não enviesados
assimptoticamente.
Exemplo 1:
Obtenha através do método da máxima verosimilhança, com base na informação contida na amostra (3,
2, 1, 1, 0, 4), uma estima do parâmetro desconhecido da distribuição de Poisson:
38
ESTATÍSTICA II | ALBERTINA DELGADO
X
f x para 0 e X 0,1,2,, n
X!
Resposta
L
3 2 1 1 0 4
→ L
3 2110 4 6
3! 2! 1! 1! 0! 4! 3!2!1!1!0!4!
6 11
ln L ln → ln L ln 6 ln 11 ln 288
288
ln L
0
ln L 11
6
4- Igualar a derivada de primeira ordem a zero
11 11 11
6 0 → 6 →
6
5- Condição de segunda ordem (demonstrar que a segunda derivada é negativa no ponto que anula a
primeira derivada, isto é, que o valor/expressão que anula a primeira derivada é um máximo):
2 ln L 2 ln L 11 11
0 → 2 → 0
2 2
2
11
Logo ˆ*MV é um estimador de máxima verossimilhança.
6
Exemplo 2:
39
ESTATÍSTICA II | ALBERTINA DELGADO
1
X 2
f x
1
2 2
onde X , e 0
2 2
Resolução:
1 X 1 2 1 X 2 2 1 X n 2
L ; 2
2 2
2 2
2 2
1 1 1
1n X1 2 X 2 2 X n 2
L ; 2 2 2 2 2 2 2
2 n
2
X i 2 X i 2
1
1
1n 1
L ; 2
n
2 2
L ; 2
n n
2 2
1
1
2 2 2 2
2
2
2 2
X i 2
1
1
ln L ; 2 ln 2 2
2 2 2 2
n n
X i 2
1
n
ln 1 ln 2 2 2
n
ln L ; 2 2
ln
2 2
n
n
ln L ; 2 ln 2 ln 2
2 2
1
2 2
X i 2
ln L ; 2 ln L ; 2 2 X i
0
2 2
ln L ; 2 X i X i
0 X i 0
2 2
Xi 0 X i n 0 n X i
40
ESTATÍSTICA II | ALBERTINA DELGADO
Xi X
i
X
n n
ln L ; 2 ln L ; 2 n 1 X i 2
2
0 2
2 2 2 2 2 2
2
ln L ; 2 X i X
2 2
n n
2 0
i
2 2 2 2 2
22
2 2 2
n 2 X i 0 n 2 X i
2 2
X i X
2 2
2
2
i
n n
Depois de verificadas as respectivas condições de segunda ordem, ficará provado que os estimadores
de máxima verosimilhança para os parâmetros da distribuição normal são os seguintes:
X
2
̂ MV X ˆ
2 i
MV
n
Na estimação por intervalos, a estimativa do parâmetro pode assumir qualquer valor dentro de um
intervalo de valores possíveis.
O melhor intervalo para um parâmetro será aquele para o qual a probabilidade de conter o valor do
parâmetro é a maior:
Pa b
41
ESTATÍSTICA II | ALBERTINA DELGADO
tão alta quanto se queira, ou seja, com 90% de certeza, 95% de certeza, 99% de certeza, 99,9% de certeza
etc.
Pa b
X
VF ~ N ; (Variável fulcral)
n
P z VF z
z
X
P z
n
P z X z
n n
P X z X z
n n
P X z X z
n n
P X z X z
n n
42
ESTATÍSTICA II | ALBERTINA DELGADO
I X z ;X z
n n
I X z
n
e z (Margem de erro)
n
I X e
P z VF z
P z Z z
PZ z PZ z
PZ z PZ z
PZ z 1 PZ z
PZ z 1 PZ z
2 PZ z 1
1
PZ z
2
1 1
PZ z
2
2
PZ z
2
PZ z 1
2
43
ESTATÍSTICA II | ALBERTINA DELGADO
Pa b
pˆ p
VF ~ N ; (Variável fulcral)
p1 p
n
P z VF z
pˆ p
P z z
p1 p
n
p1 p p1 p
P z X z
n n
p1 p p1 p
P X z X z
n n
p1 p p1 p
P X z X z
n n
p1 p p1 p
P X z X z
n n
p1 p p1 p
I p X z ;X z
n n
p1 p
I p X z
n
p1 p
e z (Margem de erro)
n
I p p e
44
ESTATÍSTICA II | ALBERTINA DELGADO
Pa VF b
VF
n 1S '
2
P a
n 1S 2
b
P
a 1
2
b
n 1S n 1S 2
2 2
n 1S 2 n 1S 2
I 2 ;
b a
I
n 1S 2 ; n 1S 2
b a
1
P n21 a
2
P n21 a 2
1
P n21 b
2
P n21 b 2
1 2 1
P n21 b
2
P n21 b 2
0 a b
45
ESTATÍSTICA II | ALBERTINA DELGADO
VF
X 1 X 2 1 2
~ N 0;1 (Variável fulcral)
12 22
n1 n2
P z VF z
X X 2 1 2
P z 1
z
12 22
n1 n2
12 22 12 22
P z X 1 X 2 1 2 z
n n n n
1 2 1 2
12 22 12 22
P X 1 X 2 z 1 2 X 1 X 2 z
n n n n
1 2 1 2
12 22 12 22
P X 1 X 2 z 1 2 X 1 X 2 z
n n n n
1 2 1 2
12 22 12 22
P X 1 X 2 z
1 2 X 1 X 2 z
n1 n2 n1 n2
12 22 12 22
I X 1 X 2 z
; X 1 X 2 z
1 2 n1 n2 n1 n2
12 22
I X 1 X2 z
1 2
n1 n2
12 22
e z (Margem de erro)
n1 n2
46
ESTATÍSTICA II | ALBERTINA DELGADO
I
1 2
X 1 X 2 e
s1 2 22
VF 2 2 ~ Fnn2111 (Variável fulcral)
s 2 1
Pa VF b
s1 2 22 s 2 2 22 s 2 2
P a 2 2 b
P a 2 2 b 2
s 2 1 s1 1 s1
1 s2 1 s2
I 2
1 2 ; 1 2
b s 2 a s 2
1
22
1 1 1
P Fnn2111 a
2
1 P Fnn2111 a 2
P Fnn2111 a 1
2
1 1 2 1 1 1 1 1
P n1 1 P Fnn1 211 P Fnn1 211
Fn 1 a 2 a 2 a 2
2
1 1 2
P Fnn2111 b
2
P Fnn2111 b 2
1
P Fnn2111 b
2
47
ESTATÍSTICA II | ALBERTINA DELGADO
0 a b
Aqui estudaremos outro aspecto da inferência estatística: o teste de hipóteses, cujo o objetivo é decidir
se uma afirmação, em geral, sobre parâmetros de uma ou mais populações é, ou não, apoiado pela
evidência obtida de dados amostrais.
Hipótese nula (H0), cujo termo é aplicado para a hipótese a ser testada, e a
Hipótese alternativa (H1)
A hipótese nula (H0) é a hipótese de igualdade entre o novo e o produto padrão, ou seja, a designação
“hipótese nula” decorre da suposição que a diferença entre eles é nula ou zero.
A análise de cada situação indicará qual deve ser considerada a hipótese nula e qual a hipótese
alternativa. Uma especificação de H0 e H1 no exemplo seria:
H0 : = 0
H1 : = 1
onde: 1 > 0 e = 25
48
ESTATÍSTICA II | ALBERTINA DELGADO
Se uma hipótese estatística especifica o valor do parâmetro, ela é referida como hipótese simples; se
não, é referida como composta. Assim, no exemplo, a hipótese alternativa = 510 é simples. Seria
composta, por exemplo, se > 500, visto que não fixa um valor específico para o parâmetro . Em H0,
o valor do parâmetro tem de ser especificado.
O problema proposto consiste em verificar se com a utilização da nova ração, a média de ganho em peso
seria estatisticamente maior que 500 g e caso isto se verifique, a suinocultura passaria a utilizá-la. Caso
contrário, continuaria com a ração do tipo A, que já foi testada (conhecida a priori).
Para a tomada de decisão, deve-se extrair uma amostra aleatória (por exemplo, n = 50) de suínos,
fornecendo à mesma, da desmama até a idade de abate, a ração B, e após o término da prova, calcula-se
a média amostral ( x a) do ganho diário em peso no período, que é, no caso, a estatística teste. A
estatística teste é o valor amostral da estatística utilizada para testar um parâmetro no teste de hipóteses.
Parece razoável estabelecer que se x a estiver próxima de 500 g, não se deve rejeitar H0, e a conclusão é
que a ração do tipo B é estatisticamente igual a do tipo A. Por outro lado, se x a estiver próxima ou for
superior à 510 g, a tomada de decisão é que a ração do tipo B é superior à do tipo A (rejeitar H 0) e que
a suinocultura passe a utilizá-la. A média amostral ( x a) é, no entanto, uma variável aleatória que pode
assumir qualquer valor entre 500 e 510 g. Assim, deve-se estabelecer um critério de decisão para aceitar
ou rejeitar H0. Isto é feito determinando um valor k (ponto) entre 500 e 510 g, chamado valor crítico
( xc ) , e adotando a seguinte regra de decisão:
“Se a média amostral ( x a) estiver à direita de k, rejeita-se H0, caso contrário não se rejeita”
49
ESTATÍSTICA II | ALBERTINA DELGADO
k =xc
500 510
Um teste de hipóteses é completamente especificado pela estatística teste e região de rejeição. A região
de rejeição ou região crítica (RC) é o conjunto de valores da estatística teste para os quais H0 é rejeitada.
O procedimento do teste, então, divide os possíveis valores da estatística teste em dois subconjuntos:
uma região de aceitação e uma de rejeição para H0, o que pode levar a dois tipos de erros. Por exemplo,
se o verdadeiro valor do parâmetro é 500 g e incorretamente concluímos que = 510 g, cometeremos
um erro referido como erro tipo I. Por outro lado, se o verdadeiro valor de é 510 g e incorretamente
concluímos que = 500 g, cometeremos uma segunda espécie de erro, referido como erro tipo II.
O quadro abaixo resume a natureza dos erros envolvidos no processo de decisão, por meio dos testes de
significância:
Assim, o tamanho da região crítica é exatamente a probabilidade de cometer o erro tipo I . Essa
probabilidade é também chamada de nível de significância do teste. O nível de significância do teste
50
ESTATÍSTICA II | ALBERTINA DELGADO
() é, portanto, a probabilidade com que desejamos correr o risco de cometer o erro tipo I, ou seja, em
% dos casos de rejeição de H0, estaremos tomando decisão errada.
Escolhendo um valor para xc , pode-se determinar as probabilidades e de cometer cada tipo de erro.
Mas, o procedimento que se usa na prática para construir a regra de decisão é fixar , a probabilidade
do erro tipo I (rejeitar H0 quando ela for verdadeira). O valor é arbitrário e o resultado da amostra é tanto
mais significante para rejeitar H0 quanto menor for esse nível. Geralmente, o valor é fixado em 5%, 1%
ou 0,1%.
Por exemplo, fixemos em 5%, ou seja, P(erro I) = P( X xc / H 0 é verdadeira) = 5%, e vejamos qual
a regra de decisão correspondente.
Quando H0 é verdadeira ( = 500 g), sabe-se do Teorema Limite Central, que X , a média de amostras
de tamanho 50, terá distribuição aproximadamente
2 ( 625 g 2 )
N [ ( 500) ; ] ou seja, N (500 g ; 12,5 g 2 ) . Assim,
n( 50)
xc 0 xc 500 xc 500
P[ Z ] P[ Z ] 5% 1,65
3,5 3,5
n
Convém observar que a RC é sempre construída usando os valores hipotetizados por H 0 ou seja, sob a
hipótese H0 ser verdadeira.
51
ESTATÍSTICA II | ALBERTINA DELGADO
505,78 510
= P [Z < ] = P[Z < -1,21] = 11,31 %
3,5
Há uma relação inversa entre e , ou seja, se a probabilidade de um tipo de erro é menor, aquela do
outro tipo é maior. No caso da escolha de um valor para xc , por exemplo, 505 kg (o ponto médio entre
500 e 510 kg), podem-se reduzir as probabilidades de ambos os tipos de erros, aumentando o tamanho
da amostra (n).
Este resultado também pode ser facilmente verificado a partir da Figura 1, considerando que, da
x
transformação para a normal reduzida, z c c .
n
A probabilidade com que o teste de significância, com fixado, rejeita H0, quando o particular valor
alternativo do parâmetro é verdadeiro, é chamada poder do teste. O poder do teste é um menos a
probabilidade do erro tipo II ou seja, (1 - ). No exemplo, o poder do teste é: 1 - = 1 – 0,1131 = 0,8869
(88,7%).
Frequentemente, no entanto, não são especificados valores fixos para o parâmetro em H1. Então, sua
caracterização dependerá do grau de conhecimento que se tem do problema. A alternativa mais geral é:
Neste caso, a regra de decisão deverá indicar dois pontos xc1 e xc 2 , tais que, H1 será sustentada se a
média da amostra for muito grande ou muito pequena. Então, a estrutura apropriada da região de rejeição
ou crítica (RC) é:
“rejeita-se H0 se X xc1 ou X xc 2 ”
/2 /2
0
RC RC
Com esta regra de decisão, não podemos encontrar , consequentemente, não podemos controlar o
erro tipo II, pois o valor do parâmetro sob a hipótese alternativa não é especificado.
52
ESTATÍSTICA II | ALBERTINA DELGADO
H1: 500 g
xc1 500
1,96 xc1 493,1 g
3,5
xc 2 500
1,96 xc 2 506,9 g
3,5
Assim,
RC = { X R/ X 493,1g ou X 506,9 g}
Exemplo 2. No caso da suinocultura, considerando a amostra de 50 leitões (n = 50), aos quais foi
fornecida a nova ração (B), deve-se ou não adotar essa ração, admitindo-se como resultado um ganho
em peso médio diário de 504 g ( xa 504 g ), fixando = 5%?
Solução:
H0: = 500 g
H1: = 510 g
x a 504g n = 50 = 0,05 = 25 g
x c 0 x c 500
zc
/ n 1,65 = 25 / 50 x c = 505,78 g
RC = { X 505,78 g}
Conclusão:
53
ESTATÍSTICA II | ALBERTINA DELGADO
Como xa RC, não se rejeita H0 ao nível de significância de 5%, ou seja, a ração B não é melhor do
que a A. Portanto, a suinocultura não deve adotá-la.
X 0
Z , obtendo-se as regiões críticas na distribuição N (0,1).
/ n
Assim procedendo na resolução do Exemplo 2, o valor observado da estatística teste (Zobs) é dado por:
xa 0 504 500
zobs = = 1,14
/ n 25 / 50
= 5%
Z
0 zc = 1,65
RC
RC = {Z 1,65}
Como zobs < zc, não se rejeita H0 ao nível de 5%.
H 0 : 1 2 k
2. Estatística do teste
54
ESTATÍSTICA II | ALBERTINA DELGADO
MSSB
ET ~ Fnkk1
MSSW
3. Regra de decisão
Onde:
SSB SSW
MSSB e MSSW
k 1 nk
SSB n j X j X SSW X ij X j
k k nj
2 2
e
j 1 j 1 i 1
X X n j X j X X ij X j
k nj k k nj
SST SSB SSW
2 2 2
ij
j 1 i 1 j 1 j 1 i 1
nj
X ij
Xj i 1
nj
k nj
X ij
nj X j k
X j 1 i 1
ou X e n nj
n n j 1
55
ESTATÍSTICA II | ALBERTINA DELGADO
Sendo:
k – número de grupos
1. Teste de Tukey
Xi X j
W ~ S T k ,n k
2
S 1 1
2 ni n j
S 2 1
W ST k ,n k ou X i X j S T k ,n k 1
2 n n
i j
2. Teste de Scheffé
Xi X j
TS ~ k 1F( k 1,nk )
1 1
S 2
n n
i j
56
ESTATÍSTICA II | ALBERTINA DELGADO
1 1
TS k 1F( k 1,nk ) ou Xi X j k 1F( k 1,nk ) S 2
n n
i j
1. Teste de Levene
a) Os grupos devem ser formados por unidades que proveem de populações com igual variância.
b) As unidades devem ser independentes, tanto dentro do mesmo grupo como entre os diferentes
grupos.
c) As populações amostradas devem ter distribuição normal.
2. Teste de Bartlett
1
n k ln S n j 1ln S j ~ k 1
k
B 2 2 2
para nj 6
C j 1
1 k 1 1
Sendo C 1
3 k 1 j 1 n j 1 n k
B k21
57
ESTATÍSTICA II | ALBERTINA DELGADO
Sabe-se que a FRP Yi 1 2 X i i não é directamente observável, o que nós conhecemos é sim
Yi ˆ 1 ˆ 2 X i ˆ i conforme as equações 6 e 7 o elemento erro ou resíduo é dado pela diferença do
Y observado e Y estimado.
i Yi Ŷi
Yi ( ˆ1 ˆ 2 X i )
1 Y 2 X
2
x y i i
x 2
i
Onde:
xi é valor centrado, calculado da seguinte forma: 𝑥𝑖 = 𝑋𝑖 − 𝑋̅
58
ESTATÍSTICA II | ALBERTINA DELGADO
∑𝑛𝑖=1 𝑋𝑖
𝑋̅ =
𝑁
∑𝑛𝑖=1 𝑌𝑖
𝑌̅ =
𝑁
var ˆ2 E ˆ2 E ˆ2 2
var ˆ2
2
xi2
2
ui2
n2
var ˆ1 2
X i
2
n x i
2
Admita que queiramos descobrir quão próximo é ̂ i de i , para isso tentamos descobrir dois números
positivos, e , onde posiciona-se entre 0 e 1, de modo a que a probabilidade de o intervalo aleatório
ˆ 2 ; ˆ 2 conter o verdadeiro 2 é de a 1 - .
59
ESTATÍSTICA II | ALBERTINA DELGADO
Pr(ˆ 2 2 ˆ 2 ) 1
Porém note que a equação acima apresentada, reflecte um intervalo aleatório, já que ̂ 2 é um parâmetro
desconhecido, a não ser que tenhamos uma amostra especifica e obtivermos um valor especifico de ̂ 2 .
Conhecido o estimador dos mínimos quadrados, calculados à luz dos pressupostos básicos do modelo
clássico; normalmente distribuído com esperança nula e variância conhecida, e consequentemente o
desvio padrão, a estatística de t seguindo a distribuição de t student é calculada do seguinte modo:
Onde:
t segue uma distribuição de n-2 gl , portanto, em vez de usarmos a distribuição normal, usamos
as distribuição de t estabelecendo um intervalo de confiança para 2 tal como se segue:
Pr(t 2 t t 2 ) 1
Onde:
ˆ i
Pr t 2 i t 2 1
ep ˆ i
IC= ˆ t
i 2
ep ˆi
A interpretação deste intervalo é dada pelo intervalo de confiança de 95% ao longo prazo, tal que 95 a
100% dos intervalos conterão o verdadeiro 2 . Sabe-se ainda que a amplitude do intervalo de confiança
é proporcional ao erro padrão do estimador. Quanto maior este for o erro padrão maior será a amplitude
do intervalo.
A questão da formulação das hipóteses estatísticas, relaciona-se aos casos nos quais, dada uma
observação, nos perguntamos até que ponto ela é compatível com a hipótese previamente formulada.
Estatisticamente a hipótese formulada é conhecida como hipótese nula H 0 . Geralmente ela é testada
seguida de uma hipótese alternativa H A por vezes também designada por hipótese sustentada.
60
ESTATÍSTICA II | ALBERTINA DELGADO
ˆi i
Et i
ep ˆi
Exemplo:
H0 : 2 0 H A : 2 0
Uma vez construído o intervalo ou detectado os valores críticos para o nível de significaria achado
pertinente, caso 2 cair na área de 100(1 )% , não rejeitar a hipótese nula. Porém caso cair fora, na
considerada área critica, deve-se rejeitar a H 0 . Este tipo de teste é um teste bicaudal.
Quando rejeitamos a hipótese nula, dizemos que estamos em presença de resultados estatisticamente
significantes. Porém, quando não rejeitamos, os resultados não são estatisticamente significantes.
61
ESTATÍSTICA II | ALBERTINA DELGADO
b xi yi
R2
y 2
i
R R2
Por concluir!
62