Estatística Ii: Universidade Católica de Angola

UNIVERSIDADE
CATÓLICA DE ANGOLA
Faculdade de Economia e Gestão
ESTATÍSTICA II
Draft de Apontamentos teóricos
Elaborado por: Albertina Delgado

Março de 2020
ESTATÍSTICA II | ALBERTINA DELGADO
UNIVERSIDADE
CATÓLICA DE ANGOLA
Faculdade de Economia e Gestão
ESTATÍSTICA II
Draft de Apontamentos teóricos
Este apontamento é para uso exclusivo para os

Estudantes da Faculdade de Economia e Gestão
da Universidade Católica de Angola. Constitui um
resumo dos apontamentos de aulas da
Professora Albertina Delgado.
Nota: Ainda é um draft, texto ainda carece de

correção ortográfica. Substitui todos os
anteriores.
1
Índice
Capítulo I: Distribuições Teóricas mais Importantes .............................................................................................. 4
1.1 Distribuições Discretas .................................................................................................................................. 4
1.1.1 Distribuição Uniforme ............................................................................................................................ 4
1.1.2 Distribuição de Bernoulli ........................................................................................................................ 6
1.1.3- Distribuição Binomial ............................................................................................................................ 8
1.1.4 Distribuição de Poisson ........................................................................................................................ 11
1.1.5 Aproximação da Binomial à Poisson .................................................................................................... 12
1.2 Distribuições Contínuas .............................................................................................................................. 14
1.2.1- Distribuição Uniforme ......................................................................................................................... 14
1.2.2- Distribuição Normal ............................................................................................................................ 16
1.2.3 Aproximação da distribuição Binomial à Normal ................................................................................ 20
1.2.4 Aproximação da distribuição de Poisson à Normal.............................................................................. 21
1.2.5 Distribuição Qui-Quadrado .................................................................................................................. 22
1.2.6 Distribuição t ........................................................................................................................................ 22
1.2.7 Distribuição F........................................................................................................................................ 22
Capítulo II: Inferência Estatística........................................................................................................................... 23
2.1 Introdução. Amostra aleatória. Métodos de amostragem ......................................................................... 23
2.1.1 Conceitos relevantes da teoria da amostragem .................................................................................. 23
2.1.2 Fases de um processo de Amostragem ................................................................................................ 24
2.1.3 Desenvolvimento de um plano amostral ............................................................................................. 24
2.1.4 Principais Métodos de Amostragem .................................................................................................... 25
2.1.5 Importância da Amostragem ............................................................................................................... 26
2.1.6 Processo de amostragem ..................................................................................................................... 27
2.2 Distribuições teóricas amostrais ................................................................................................................. 28
2.2.1 Introdução ............................................................................................................................................ 28
2.2.2 Parâmetros e Estatísticas ..................................................................................................................... 29
2.2.3 Lei dos grandes números...................................................................................................................... 30
2.2.4 Distribuição Normal ............................................................................................................................. 31
2.2.5 Distribuição do Qui-quadrado .............................................................................................................. 32
2.2.5 Distribuição t de Student ...................................................................................................................... 33
2.2.6 Distribuição F de Snedecor ................................................................................................................... 34
2
2.3 Estimação pontual ...................................................................................................................................... 35

2.3.1 Propriedades dos Estimadores ............................................................................................................. 35
2.3.2 Variância amostral ............................................................................................................................... 36
2.3.3 Estimadores de Máxima Verossimilhança ........................................................................................... 37
2.4 Estimação por intervalos (Intervalo de confiança)...................................................................................... 41
2.4.1 Intervalo de confiança para a média ................................................................................................... 41
2.4.2 Intervalo de confiança para uma proporção........................................................................................ 43
2.4.3 Intervalo de confiança para a variância de uma população normal ................................................... 45
2.4.4 Intervalo de confiança para a diferença entre médias ........................................................................ 46
2.4.5 Intervalo de confiança para o rácio entre variâncias ........................................................................... 47
2.5 Ensaios de hipóteses ................................................................................................................................... 48
2.5.1 Hipóteses estatísticas ........................................................................................................................... 48
2.5.2 Erros tipos I e II ..................................................................................................................................... 49
2.5.3 Ensaio para a diferença de k médias – análise de variância simples (ANOVA) ................................... 54
2.5.4 Testes de comparação múltipla ........................................................................................................... 56
2.5.5 Testes Para a Diferença Entre k Variâncias.......................................................................................... 57
Capitulo III: Métodos de Previsão ......................................................................................................................... 58
3.1 Correlação e regressão linear simples......................................................................................................... 58
3.2 Estimação e ensaios sobre parâmetros....................................................................................................... 58
3.3 Variância e erro padrão dos estimadores OLS ............................................................................................ 59
3.4 Intervalos de confiança e teste de hipótese ................................................................................................ 59
3.5 Análise de correlação .................................................................................................................................. 61
Capitulo IV: Investigação por Questionário .......................................................................................................... 62
3
Capítulo I: Distribuições Teóricas mais Importantes

1.1- Discretas
1.1.1 Uniforme
1.1.2 Bernoulli
1.1.3 Binomial
1.1.4 Poisson
1.1.5 Aproximação da distribuição Binomial à de Poisson
1.2- Contínuas
1.2.1 Uniforme
1.2.2 Normal
1.2.3 Aproximação da distribuição Binomial e de Poisson à Normal
1.2.4 Qui-Quadrado
1.2.5 T de Student
1.2.6 F de Fisher Snedecor
De entre todas as distribuições de probabilidades, as que se descrevem a seguir destacam-se porque se

ajustam bem à explicação do comportamento, de uma vasta gama de fenómenos aleatórios que ocorrem
no quotidiano.
1.1 Distribuições Discretas

Quando estudamos a estatística descritiva, falamos varias vezes de frequências ou distribuições
empíricas de variáveis discretas e continuas. As distribuições que iremos abordar, representam os
modelos matemáticos daquelas distribuições empíricas.
1.1.1 Distribuição Uniforme

Quando os valores que uma variável aleatória discreta X pode assumir ocorrem com igual probabilidade,
diz-se que X tem uma distribuição uniforme.
 1
X U  p  
 n
A função de probabilidade de uma variável aleatória discreta X, que tem uma distribuição uniforme é
dada por:
1
 x  1,2...., n
f ( x)   n
0 outros valores
Exemplo:
Considere a experiência a que consiste no lançamento de um dado perfeito. Seja a v.a X – número
inscrito na face voltada para cima.
4
 1
X U  p  
 n
1
 x  1,2,3,4,5,6
P( X  x)  f ( x)   6
X pode assumir valores inteiros x = 1, 2, 3, 4, 5 e 6 com igual probabilidade.
A variável aleatória X assume n valores, estando associado a cada um deles uma probabilidade constante
igual a 1/N. Portanto N é o parâmetro caracterizador da distribuição uniforme.
Teorema:
Se X é uma variável aleatória discreta com distribuição uniforme tem-se que:
N 1
EX   x 
2
N 2 1
Var X    x2 
12
Demonstração:
- Média ou valor esperado:

N
EX   x  x i f ( xi )
x i 1
1
f ( xi ) 
N
N N
EX  
1 1
x
xi 1
i
N

N
x
x i 1
i
N
1 N
x
xi 1
i 
2
N
1 1 N 
EX    N
N  2 
1 N
EX  
2
5
- Variância:
Var X    x  E ( X 2 )  E ( X )
2
1 N 
N 2
  xi f ( xi )   
2
xi 1  2 
1 N
( N  1) 2

N
 xi 
xi 1
2
4
N
N (1  N )( 2 N  1)
x
xi 1
i
2

6
1 N (1  N )( 2 N  1) ( N  1) 2
  
N 6 4
2( N  1)( 2 N  1)  3( N  1) 2

12
N 1
2

12
A função de distribuição F(x) duma uniforme tem as mesmas características da frequência acumulada
relativa, e facilmente obtém-se deste conceito estudado.
0 x 1
x

F  X   PX  x   i x1  x  xi 1 , x1  1,2,...N  1
N

1 xN
1.1.2 Distribuição de Bernoulli

Definição:
Prova ou experiência de Bernoulli é uma experiência aleatória que apenas tem dois resultados
possíveis: A que se designa por sucesso e Ā designado por insucesso. O sucesso ocorre com
probabilidade p e o insucesso com probabilidade q = 1- p.
Exemplo:
Suponha que, com o objectivo de medir a audiência de determinado programa de televisão, se pergunta
a um potencial telespectador se viu ou não aquele programa. Trata-se de uma prova de Bernoulli?
A variável aleatória, número de sucessos numa prova de Bernoulli, toma o valor 1 caso se observe um
sucesso e 0 caso contrário.
Definição:
Dizemos que uma variável X segue o modelo de Bernoulli se atribui 0 ou 1 à ocorrência de falha ou
sucesso, respectivamente. Em uma experiência só podem ocorrer dois resultados possíveis.
6
Diz-se que uma v.a. X tem distribuição de Bernoulli de parâmetro p, e representa-se por X∩B (p), se
a sua função de probabilidade for dada pela expressão seguinte:
p se k 1
 p k (1  p)1k , se k  0,1 
P( X  k )   ou P( X  k )  q se k 0
0, se k  0,1 0
 se k  0,1
Teorema:
Se a variável aleatória X tem distribuição de Bernoulli [X∩B (p)] então:
μ = E[X] = p σ2 = Var (X) = p (1 - p)
Demonstração:
- Média ou valor esperado:

1
E  X    xf ( x) por definição
x 0
0
 E  X    x. p x (1  q)1 x
x 1
 0(1  p )  1. p  p
- Variância:
Var X   E ( X 2 )  E ( X ) por definição

2
 
 12 ( p )  p 2
 p  p  p(1  p)  p.q
2
Exemplo:
Admitamos que os 30 alunos de uma turma vivem às distâncias da escola especificadas no quadro
seguinte:
Distância ni fi
Até 1 km 15 1/2
De 1 km a 5 km 10 1/3
Mais de 5 km 5 1/6
Seja a experiência aleatória a seguinte: “ escolher um aluno ao acaso e verificar se este aluno vive a mais
de 5 km da escola”.
7
Este é um exemplo de distribuição de Bernoulli, pois temos a caso sucesso se o aluno viver mais de 5
km da escola e o insucesso se viver a menos de 5 km. Assim X=1 se o estudante viver a mais de 5 km e
igual a zero se viver a menos de 5 km.
 p k (1  p )1 k , se k  0,1
P( X  k )  
0, se k  0,1
Como podemos ver no quadro, a probabilidade de viver mais de 5 km é de 1/6. Aplicando a fórmula,
1 11
1  1 1
P( X  1)    1   
6  6 6
1.1.3- Distribuição Binomial

Suponha-se uma experiência aleatória que obedece às seguintes condições:
i) a experiência consiste na repetição de n provas idênticas;
ii) cada prova tem dois resultados possíveis: sucesso ou insucesso;
iii) a probabilidade de sucesso mantém-se constante de prova para prova e igual a P
iv) as provas são independentes; e
v) a v. a., número de sucessos observado ao fim de n provas, toma os valores 0,1,2,...
Uma experiência aleatória que verifica estas condições chama-se experiência binomial.
Exemplo:
O lançamento ao ar de uma moeda perfeita (não viciada), constitui um exemplo de uma experiência
binomial.
Problema:
Considere-se uma experiência que consiste na repetição de n provas independentes de Bernoulli com p,
probabilidade de sucesso, constante de prova para prova.
Seja X a v. a., número de sucessos observados ao fim de n provas. Qual a função de probabilidade da
v.a. X?
Definição
Diz-se que uma v.a. X tem distribuição Binomial de parâmetros n e p, e representa-se por
X∩b (n, p), se a sua função de probabilidade for dada pela expressão seguinte:
 n  x
  p 1  p 
n x
x  0,1,2,3,...n
PX  x  f ( x)  f(x; n; p)   x 
0
 outros valores
8
Onde n e p são os parâmetros caracterizadores da distribuição. O parâmetro n corresponde ao número

de provas de Bernoulli a efectuar, sendo n qualquer inteiro positivo. O parâmetro p corresponde à
probabilidade associada ao sucesso, com 0  p 1 .
A respectiva função de distribuição, F(x), é dada por:
0 x0
 x
  n  xi
PX  x  F ( x)      p 1  p n  xi 0 xn
 xi 0 x
1 xn

Os parâmetros n e p são suficientes para a especificação duma distribuição binomial, isto é, a valores
diferentes de n e p correspondem diferentes distribuições desta família.
Teorema:
A Esperança, Variância e Desvio Padrão da v. a. do tipo Binomial são calculadas respectivamente por:
E(X ) = n .p Var (X ) = n. p. q
• Em resumo, as três propriedades básicas que caracterizam uma v.a. Binomial são:
1. A variável é resultado de contagem;
2. As experiências devem ser independentes;
3. A probabilidade de sucesso é a mesma a cada repetição da experiências.
Exemplo:
Um levantamento da Associação Americana de Investidores Pessoa Física concluiu que
20% dos seus membros tinham comprado acções directamente através de uma oferta pública inicial
(AAII jornal, Julho de 2004). Em uma amostra de 10 membros destes associados verifique:
a) Qual a probabilidade de que exactamente três membros tenham comprado tais acções?
b) Qual a probabilidade de que pelo menos um membro tenha comprado tais acções?
c) Qual a probabilidade de que no máximo 9 membros tenham comprado tais acções?
Resolução
Seja X o número de membros que comprou as acções.
a) P(X = 3) =?
10 
PX  3  f (3)   0,23 1  0,2  0,2013
103
3 
9
Usando a tabela de distribuição binomial obtemos o mesmo resultado, e é um calculo mais simples, ora
vejamos:
Como fazer?
Pretende-se a probabilidade de X = 3.
Temos que extrair os dados, n = 10, p = 0,2;
Feito isto, vamos localizar o valor na tabela,
Podemos ver que a P ( X = 3) é de 0,2013
a) R: A probabilidade de que exactamente três membros tenham comprado tais acções é de 20,13%.
b) P(X ≥ 1) = ?
P( X  1)  1  P( X  1)  1  P( X  0)  1  0,1074  0,8926
b) R: A probabilidade de que pelo menos um membro tenha comprado tais acções é de 89,26%.
c) P(X ≤ 9) =?
P( X  9)  P( X  0)  P( X  1)  P( X  2)  P( X  3)  P( X  4)  P( X  5)  P( X  6)  P( X  7)  P( X  8)  P( X  9)
P( X  9)  0,1074  0,2684  0,3020  0,2013  0,0881  0,0264  0,0055  0,0008  0,0001  0,0000
P( X  9)  1
10
c) R: A probabilidade de que no máximo 9 membros tenham comprado tais acções é de 100%.
1.1.4 Distribuição de Poisson

Na teoria da probabilidade e na estatística, a distribuição de Poisson é uma distribuição de
probabilidade discreta.
Ela expressa, por exemplo, a probabilidade de um certo número de eventos ocorrerem num dado período
tempo, caso estes ocorram com uma taxa média conhecida e caso cada evento seja independente do
tempo decorrido desde o último evento.
A distribuição foi descoberta por Siméon-Denis Poisson (1781–1840) e publicada, conjuntamente com
a sua teoria da probabilidade, em 1838 no seu trabalho Recherches sur la probabilité des jugements en
matières criminelles et matière civile ("Inquérito sobre a probabilidade em julgamentos sobre matérias
criminais e civis").
O Processo de Poisson
Suponhamos que, ao estudar um determinado fenómeno, se observa a ocorrência de certo acontecimento

num determinado intervalo de tempo e se:
 Os números de ocorrências em intervalos não sobrepostos são variáveis aleatórias independentes;

 A probabilidade de um certo número de ocorrências se verificar é a mesma para intervalos da
mesma dimensão;
 A probabilidade de se verificarem duas ou mais ocorrências num período muito pequeno é
negligenciável, quando comparada com a probabilidade de se verificar apenas uma ocorrência;
Esse fenómeno pode ser descrito através de uma distribuição de Poisson.
Se a variável X segue uma distribuição de Poisson [X∩ P (λ)], de parâmetro λ , a sua função de
probabilidade é dada por:
  -   x
 x  0;1;2......
PX  x   f ( x;  )   x!
0
 outros valores
Onde λ > 0, é o parâmetro caracterizador desta distribuição.
Exemplos de situações que obedecem a uma distribuição de Poisson:
• número de defeitos por metro de tecido produzido numa fábrica;
• número de pessoas que se dirigem ao caixa de um banco num dado intervalo de tempo;
Teorema:
Se X∩ P (λ) então a média e a variância são iguais a λ , que representa a taxa com que eventos são
observados.
11
μ=E[X]= λ
σ2=var(X)= λ
Exemplo:
O número de pedidos de ambulância que chegam, por dia, a determinado posto de socorros, é em média
de 2. Calcule a probabilidade de que:
a) Num dia, haja pelo menos um pedido.
b) Num dia haja exactamente 4 pedidos.
Resolução
X∩ P (λ=2)
X- número de pedidos de ambulância que chegam ao posto de socorros.
a) P (X ≥ 1) = 1 – P (X<1) = 1 – P(X= 0) = 1 – 0,1353 = 0,8647
a)R: A probabilidade que haja pelo menos um pedido é de 86,47%.
b) P(X= 4) = 0,0902
b) R: A probabilidade que haja 4 pedidos é de 9,02%.
1.1.5 Aproximação da Binomial à Poisson

A distribuição binomial converge para distribuição de Poisson, quando n → ∞ e p → 0, mantendo-se λ
= n.p constante.
Regra prática
Em geral, a distribuição de Poisson fornece uma boa aproximação da distribuição binomial quando n
>20 e p ≤0,05.
Exemplo:
12
Uma companhia de seguros possui 10.000 apólices no ramo vida referente a acidentes de trabalho. Sabe-
se que, por ano, a probabilidade de determinado indivíduo morrer de acidente de trabalho é de 0.0001.
Qual a probabilidade de a companhia ter de pagar por ano a pelo menos 4 dos seus segurados?
Resolução
Seja X- número de apólices, em 10.000, que são pagas anualmente pela seguradora
X  b (n  10000, p  0,0001)
Como n é maior que 20 e p menor que 0,05, existem condições para fazer a aproximação à distribuição
de poisson:
o
X  p (  10000 x 0, 0001)
o
X  p (  1)
P(X ≥ 4) = 1 – P(X < 4) = 1 – [P(X=0) + P(X= 1) + P (X=2) + P(X=3)]
= 1 – [0,3679 + 0,3679 + 0,1839 + 0,0613] = 0,019
R: A probabilidade da companhia pagar pelo menos 4 apólices num ano é de 1,9%.
13
1.2 Distribuições Contínuas
1.2.1- Distribuição Uniforme
Uma distribuição de variável aleatória contínua é a distribuição uniforme cuja função densidade de
probabilidade é constante dentro de um intervalo de valores da variável aleatória X.
Cada um dos possíveis valores que X com distribuição uniforme pode assumir tem a mesma
probabilidade de ocorrer.
Definição:
Diz-se que a variável contínua X tem distribuição uniforme no intervalo [a, b], e escreve-se: X∩U (a,b)
se a sua função de densidade de probabilidade é dada por:
1
f ( x) 
ba
 1
 a xb
Ou seja: f ( x)  f ( x; a; b)   b  a
Os parâmetros caracterizadores desta distribuição são a e , que satisfazem a condição:
-∞ < a < b <+∞
Graficamente, temos:
f (x)
1
ba
a b X
A função de distribuição acumulada é dada por:
0 xa
x a

F ( x)  P( X  x)   a xb
b  a
1 xb
14
Teorema:
Se a variável aleatória X tem distribuição uniforme em [a, b] então:
ab (b  a) 2
EX   Var( X ) 
2 12
Demonstração:
Demonstração:
E ( X )   xf ( x)dx 1 x3
b
1  b3  a 3 
E( X )  2
  
ba 3 ba  3 
b b
1 1
E( X )   x
b  a a
dx  xdx a
a
ba b3  a 3
E( X )  2
b 3(b  a )
1 x2 1  b2  a 2 
E( X )    
ba 2 a ba  2  b 3  a 3 ( a  b) 2
Var ( X )  
3(b  a ) 4
b2  a 2 (b  a )(b  a )
E( X )   Var ( X ) 
4(b3  a 3 )  3(b  a )(a  b)2
2(b  a ) 2(b  a ) 12(b  a )
ab
E(X)  c.q.d
Var ( X ) 
4b3  4a 3  3b3  3ab2  3a 2b  3a 3
2 12(b  a )
Var ( X )  E ( X 2 )  [ E ( X )]2
b3  3ab2  3a 2b  a 3
b Var ( X ) 
12(b  a )
E( X )  x
2 2
f ( x )dx
a
(b  a )3 (b  a ) 2
1
b
1
b
Var (X)   c.q.d
E( X )   x
2
dx 
2
x
2
dx 12(b  a ) 12
a
ba ba a

24
UCAN/2011
Exemplo 1
Se X é uma variável aleatória uniformemente distribuída no intervalo (-4,10), calcule a probabilidade de:
(a) P( X  4) . (b) P(1  X  6) . (c) P( X  0) . (d) P( X  1  2) .
Solução
X ~ U(-4,10)
 4    4  8
4
1 
4 4
1 1
a) P( X  4)   dx   dx   x        
4
10  (4) 4
14 14   4  14   14  14
P( X  4)  0,57
15
 1   6   1  5
6 6 6
1 1
P(1  X  6)   dx   dx   x        
b) 1
10  (4) 1
14 14 1  14   14  14
P(1  X  6)  0,36
 10   0  10
10
1 
10 10
1 1
P( X  0)   dx   dx   x        
c) 0
10  (4) 0
14 14  0  14   14  14
P( X  0)  0,71
d)
P( x  1  2)  P(1  x  3)
3
1 
3
1 3 1 4
 114dx  14 x 1  14  14  14
Exemplo 2
Exemplo 2
Suponha que X tenha uma distribuição contínua uniforme no intervalo [1,5; 5,5]. Determine:
a) E(X) e V(X).
b) P(X<2,5)
Solução:
ab 7
a) E( X )  
2 2
(b  a) 16
2
V (X )  
12 12
2,5
1 1
b) P( x  2,5)   4 dx  4
1, 5
1.2.2- Distribuição Normal

A distribuição Normal é talvez a mais importante das distribuições de probabilidade sendo usada para
modelar, por exemplo, a distribuição dos pesos, alturas e QI’s das pessoas numa população.
A distribuição Normal é também chamada Gaussiana em homenagem ao matemático Carl Friederich

Gauss (1777 – 1855), que a utilizou pela primeira vez na modelagem de erros de medida.
A distribuição Normal também funciona como uma boa aproximação para outras densidades. Por
exemplo, sob algumas condições pode-se provar que a densidade Binomial pode ser aproximada pela
Normal.
Suponha que trabalha numa empresa e recebe um lote de peças cuja espessura precisa medir. Ao realizar
essas medições, encontra um conjunto de valores que tendem a concentrar-se em torno de um
determinado valor e a curva de distribuição encontrada tem a forma de um sino, perfeitamente simétrica
16
em relação ao eixo das ordenadas. Isso ocorre quando o número de medidas e as componentes de erro
(acidentais, aleatórios) são grandes. Ou seja, quando uma medida é realizada, o valor está sujeito a
inúmeros pequenos erros aleatórios, que fazem com que o valor lido possa ser muito maior ou muito
menor do valor correcto, dependendo do modo como se combinam.
Definição:
Distribuição Normal, é uma distribuição de probabilidade contínua, que é simétrica e a curva de

frequência tem a forma de um sino, a média fica no centro da distribuição e o desvio padrão representa
a forma da curva, mais pontiaguda ou mais achatada.
A curva normal tem forma de sino, ou seja, é uni modal e simétrica, e o seu valor de máxima frequência
(moda) coincide com o valor da média e da mediana.
A média está no centro da curva.
A distribuição de valores maiores que a média (x + μ > 0) e a dos valores menores que a média (x - μ <
0) é perfeitamente simétrica, ou seja, se passarmos uma linha exactamente pelo centro da curva teremos
duas metades, sendo que cada uma delas é a imagem especular da outra.
As extremidades da curva se estendem de forma indefinida ao longo de sua base (o eixo das abcissas)
sem jamais tocá-la. (Portanto, o campo de variação da distribuição normal se estende de - infinito a +
infinito).
Assim sendo, a curva apresenta uma área central em torno da média, onde se localizam os pontos de
maior frequência e também possui áreas menores, progressivamente mais próximas de ambas as
extremidades, em que são encontrados valores muito baixos de x (à esquerda) ou escores muito altos (à
direita), ambos presentes em baixas frequências.
Se a v.a contínua X, segue uma distribuição normal e escreve-se X∩ N ( μ; σ) se a sua função densidade
de probabilidade for dada por:
1  X  
2
  
f  X   f ( X ;  ; ) 
1  
 e 2 com    X  
 2
17
Onde μ e σ são os parâmetros caracterizadores da distribuição e que satisfazem a condição
- ∞ < μ < +∞ ; σ>0
Teorema:
Se a v.a X, tem distribuição normal então:
E X   
Var X    2
Principais característica da Distribuição Normal
1. Para cada média e desvio-padrão existe uma curva diferente;
2. O ponto mais alto da curva está na média;
3. A curva é simétrica em relação a média: o lado esquerdo é igual ao lado direito;
4. A curva é assintótica;
5. O desvio-padrão determina a largura da curva;
6. A área total abaixo da curva é igual a 1 ou 100%.
Note-se que, se diferentes amostras apresentarem o mesmo valor de média μ e diferentes valores de
desvios padrão σ, a distribuição que tiver o maior desvio padrão se apresentará mais achatada (c), com
maior dispersão em torno da média. A que tiver o menor desvio padrão apresentará o maior valor de
frequência e acentuada concentração de indivíduos em valores próximos à média (a).
Já, distribuições normais com valores de médias diferentes e o mesmo valor de desvio padrão possuem
a mesma dispersão, mas diferem quanto à localização no eixo dos X.
- Cálculo de probabilidade na distribuição Normal
Uma vez que μ e σ podem assumir uma infinidade de valores não numeráveis ( - ∞ < μ < +∞ ; σ > 0)
logo também existe uma infinidade não numerável de distribuições normais diferentes.
18
Assim sendo, para o calculo de probabilidades, qualquer distribuição normal é transformada para a
conhecida como normal padrão ou normal estandardizada.
Padroniza-se a variável X, que tem distribuição Normal da seguinte forma:
X 
Z

Se X segue uma distribuição normal, então tem - se que:
E X   
Var X    2
Facilmente se deduzem os parâmetros da normal padrão Z:
X  1
E Z   E   EX   
   
 E ( X )  E (  )
1

E Z        0
1

X  1
VarZ   Var   2 VarX   
   
 2 Var( X )  Var(  )
1



1
2
 2
 0  1
Chega-se a conclusão que:
X 
Z  N 0;1

A função de distribuição, Φ (Z) permite calcular probabilidades em determinados intervalos:
Φ (Z) = P [Z ≤ z]
A função de distribuição de Z representa-se por Φ (z). Como consequência da simetria tem-se que
Φ(− z) = 1 −Φ (z)
19
Exemplo:
É um dado que X, a venda diária de pão de uma padaria, segue distribuição normal com média 70 e
variância 9. Qual é a probabilidade de que num dado dia a venda de pão seja:
a) 75 pães ou menos
Exemplo:
É um dado que X, a venda diária de pão de uma padaria, segue distribuição normal com
b) superior à 75 média 70 e variância 9. Qual é a probabilidade de que num dado dia a venda de pão seja:
a) 75 pães ou menos
b) superior à 75
c) entre 65 e 75 c) entre 65 e 75
X∩ N(70; 3) X∩ N(70; 3)
a) P(X ≤ 75) = ?
 X  70 75  70 
P    PZ  1,67   (1,67)  0,9525
 3 3 
b) P(X >75) = ?
 X  70 75  70 
P    P Z  1,67   1  P ( Z  1,67)
 3 3 
 1   (1,67 )  1  0,9525  0,0475
c) P ( 65 < X < 75) = ?

 65  70 X  70 75  70 
P     P 1,67  Z  1,67   (1,67 )  (1,67)
 3 3 3 
 (1,67 )  1  (1,67)  0,9525  1  0,9525
33
 0,905
1.2.3 Aproximação da distribuição Binomial à Normal
A distribuição Normal fornece uma boa aproximação à distribuição Binomial quando n, número de
tentativas é grande (n → ∞), e p , a probabilidade de um sucesso numa tentativa é próxima de 0,5.
Teorema: Se X é uma variável aleatória que segue uma distribuição binomial com parâmetros n e p ,
então:
20
 
o
X  N   n. p;   n. p.q
ou seja
X  n. p o
 N (0; 1)
n. p.q
Em termos práticos quando n > 20, podemos fazer a aproximação.
1.2.4 Aproximação da distribuição de Poisson à Normal
Quando λ > 20 a distribuição Normal é adequada como aproximação da distribuição de Poisson, através
do seguinte método:
  e  
Se X ∩ P (X; λ), com λ→ ∞ ( λ > 20), então:
 
o
X  N   ;   
ou seja
X  o
 N (0; 1)

Correcção de continuidade
Quando se faz uma aproximação de uma distribuição de v.a. discreta por uma v.a. contínua, temos
sempre de fazer uma correcção por continuidade, que consiste em substituir na expressão o valor discreto
da variável por um aproximado que se distância do inicial por 0,5.
Regras:
• Subtrair 0,5 de X quando é solicitada P(X ≥ x) ou P(X < x)
• Adicionar 0,5 a X quando é solicitada P(X ≤ x) ou P(X > x)
Exemplo:
De acordo com os dados recolhidos ao longo de vários anos, sabe-se que 20% dos indivíduos que são
contactados pessoalmente pelos agentes de vendas realizam uma compra. Se determinado agente de
vendas visitar 30 potenciais clientes, qual será a probabilidade de, no mínimo 10 realizarem uma
compra?
Seja X o número de indivíduos que são contactados pessoalmente pelos agentes de vendas realizam uma
compra.
X ∩ b (n = 30 e p = 0,2)
21
 
o
X  N   6;   4,8
P ( X  10)  ?
P ( X  10)  P ( X  10  0,5)  P ( X  9,5)
 X  6 9,5  6 
 P    P ( Z  1,60)
 2,19 2,19 
 1  P ( Z  1,60)  1   (1,60)
 1  0,9452  0,0548
-Distribuição Qui-Quadrado (χ2)

1.2.5 Distribuição Qui-Quadrado
 A distribuição estatística Qui-Quadrado tem por objectivo analisar a distribuição da variância
amostral de uma amostra de variável aleatória com distribuição normal.
O parâmetro dessa distribuição são os graus de liberdade. Graus de liberdade é a quantidade de
 A distribuição estatística
variáveis possuídas Qui-Quadrado tem por objectivo analisar a distribuição
na amostra. da variância
Tal qual da distribuição normal, a Qui-Quadrado também possui distribuição tabelada.
amostralAssim,
de uma amostra de variável aleatória com distribuição normal.
olhando para a tabela podemos ver por exemplo que, com P = 95% de uma distribuição
Qui-Quadrado com 6 graus de liberdade é de 12,6.
 O parâmetro dessa distribuição são os graus de liberdade. Graus de liberdade é a quantidade de
variáveis possuídas na amostra. Elaborado por: Albertina Delgado
UCAN/2011
36
 Tal qual da distribuição normal, a Qui-Quadrado também possui distribuição tabelada.
Assim, olhando para a tabela podemos ver por exemplo que, com P = 95% de uma distribuição Qui-
Quadrado com 6 graus de liberdade é de 12,6.
1.2.6 Distribuição t
A distribuição t está fortemente relacionada com a estatística normal.
 A função de distribuição t também possui a forma de sino, parecido com a distribuição normal,
e é simétrica em relação ao seu pico em zero.
 A maior diferença e que as caudas são mais grossas. Na prática isso quer dizer que urna
distribuição t possui maior probabilidade de tornar valor distantes de zero.
1.2.7 Distribuição F
 A distribuição F está relacionada com a distribuição Qui-Quadrado e, portanto, com graus de
liberdade.
 Se X e Y são variáveis aleatórias Qui-Quadrado independentes, com m e n graus de liberdade,

respectivamente, então dizemos que a variável aleatória possui uma distribuição F com:
Xm
F
Yn
As distribuições X2, t e F serão estudadas com maior detalhe no próximo capítulo uma vez que se tratam
de distribuições amostrais.
22
Capítulo II: Inferência Estatística

2.1 Introdução. Amostra aleatória. Métodos de amostragem
2.2 Distribuições amostrais teóricas (Normal, Qui-quadrado, t-Student e F-Snedecor)
2.3 Estimação pontual
2.4 Estimação por intervalos (Intervalo de confiança)
2.5 Ensaios de hipóteses
2.1 Introdução. Amostra aleatória. Métodos de amostragem
Como vimos a Estatística I, A Estatística é a ciência que se ocupa da obtenção de informação, seu
tratamento inicial, com a finalidade de, através de resultados probabilísticos adequados, inferir de
uma amostra para a população, e eventualmente mesmo prever a evolução futura de um fenómeno.
Quer dizer que a Estatística é uma área da ciência ligada com a extracção de informação de dados
numéricos e a sua utilização no processo de tornada de decisões (estabelecimento de inferências) sobre
urna população da qual os dados foram obtidos.
2.1.1 Conceitos relevantes da teoria da amostragem

População (ou Universo): Conjunto de unidades com uma ou mais características comuns (n.º de
elementos é N). As populações podem ser finitas ou infinitas. Além disso existem populações que,
embora finitas, são consideradas infinitas para qualquer finalidade prática.
Uma unidade básica da população denomina-se elemento da população.
Entende-se por amostra qualquer subconjunto de elementos retirado da população, desde que esse
subconjunto seja não vazio e tenha menor número de elementos do que a população. A obtenção de
informação sobre parte de uma população denomina-se amostragem.
Exemplos:
1- População: Intenção de voto dos eleitores de Luanda
Amostra: Intenção de voto de alguns dos eleitores de Luanda seleccionados a

partir da lista telefónica
2- No estudo da fracção de fumantes que preferem a marca de cigarros “AC” nós assumimos que
aqueles que forem entrevistados constituem uma amostra representativa da população de todos os
fumantes (que apesar de numericamente ser uma população finita, pode ser considerada infinita para
efeitos práticos).
3- Considere o problema de determinar a efectividade de protecção contra ferrugem de um certo

tipo de tinta. Para simplificar podemos supor que 20 máquinas que trabalham nas mesmas condições
foram pintadas e após um certo período de tempo verificou-se que 16 delas conservam-se intactas (ainda
23
protegidas). Quer-se saber se essa tinta protege realmente as máquinas. Nesse caso a amostra consiste
de 20 máquinas. Qual seria a população? O que seria, então, de interesse primário? A Amostra ou a
população?
Nos exemplos citados acima nós estamos primordialmente interessados na população. Na maioria dos
casos seria impossível obtermos todos os dados de interesse da população. Portanto, a amostra pode ser
de interesse imediato, mas estamos primordialmente interessados em descrever a população da qual a
amostra foi extraída.
2.1.2 Fases de um processo de Amostragem

Depois de se identificar os dados que deverão ser recolhidos e o instrumento (questionário estruturado,
por exemplo) a utilizar para essa recolha, o passo seguinte consiste em definir um processo de
amostragem adequado ao tipo de dados e ao instrumento de análise.
No processo de recolha de dados é necessário desenvolver um processo sistemático que assegure a

fiabilidade e comparabilidade desses dados. Mais especificamente, é necessário que se estabelecer a
partida um plano de amostragem de acordo com a população alvo, com a definição da população a
inquirir e com um processo adequado de administração do inquérito.
O plano de amostragem deverá começar por determinar qual o nível de extensão geográfica em que o
processo de amostragem deverá ser conduzido (mundial, nacional, regional, urbano, rural, grupo de
indivíduos, etc.).
A construção da amostra propriamente dita envolve várias etapas igualmente importantes e que são:
(i) A identificação da população alvo/população inquirida;
(ii) O método de selecção da amostra;
(iii) A dimensão da amostra.
A identificação da população de uma forma clara e objectiva é imprescindível, embora possa parecer
demasiado óbvia em muitas circunstâncias. Designa-se por população alvo a totalidade dos elementos
sobre os quais se deseja obter determinado tipo de informações.
Exemplo: Um estudo sobre as intenções de voto terá como população alvo todos aqueles que estão em
idade e em condições de votar. No entanto, a população inquirida poderá incluir apenas aqueles que
votaram nas últimas eleições.
Resumindo, a população alvo é constituída por todos os elementos sobre os quais se deseja obter um
determinado conjunto de informações. No entanto, em muitas situações, não é operacional inquirir uma
amostra retirada da população alvo, havendo necessidade de definir qual é a população a inquirir, não
coincidente com a população alvo, e a partir da qual se retirará a amostra.
2.1.3 Desenvolvimento de um plano amostral
24
População alvo
População a inquirir
Processo amostral e Método de recolha

dimensão da amostra de dados
Amostra final
(ii) Os métodos de selecção da amostra
O objectivo geral na extracção de uma amostra é obter uma representação “honesta”da população que
conduza a estimativas das características da população com “boa” precisão relativamente aos custos de
amostragem, isto é, obter uma amostra representativa da população. Existem dois grandes grupos de
métodos para seleccionar/recolher amostras: os métodos
(ii) Os métodos de selecçãoaleatórios
da amostra e métodos não aleatórios.
O objectivo geral na extracção de uma amostra é obter uma representação “honesta”da população que
- Tipos de amostra
conduza a estimativas das características da população com “boa” precisão relativamente aos custos de
amostragem, isto é, obter uma amostra representativa da população. Existem dois grandes grupos de
- Amostra aleatória
métodos para casual) – é amostras:
(ouseleccionar/recolher possível calcular,
os métodos a priori,
aleatórios a não
e métodos probabilidade
aleatórios. de observar cada
indivíduo da população na amostra.
- Tipos de amostra
- Amostra aleatória (ou casual) – é possível calcular, a priori, a probabilidade de observar cada
- Amostra determinística (ou dirigida)–
indivíduo da população na amostra. não é possível calcular essa probabilidade.
- Amostra determinística (ou dirigida)– não é possível calcular essa probabilidade.
2.1.4 Principais Métodos de Amostragem

Principais Métodos de Amostragem
- Aleatório simples
- Sistemático
- Probabilísticos, aleatórios ou casuais - Por agrupamentos (clusters)
- Estratificado
Principais métodos - Por etapas
de amostragem - Por quotas
- Intencional ou pensado
- Não probabilísticos ou dirigidos - Bola-de-neve (snowball)

42
2.1.4.1Probabilísticos, aleatórios ou casuais UCAN/2011
- Amostragem Aleatório simples: Cada elemento da amostra é retirado aleatoriamente de toda a

população (com ou sem reposição). Assim, cada possível amostra tem a mesma probabilidade de ser
recolhida. Este é o tipo de amostragem que iremos considerar ao longo da disciplina. Assim, daqui em
diante, amostra aleatória designa um conjunto de variáveis aleatórias independentes e com a mesma
distribuição.
25
- Amostragem Aleatória Sistemática: Os itens ou indivíduos da população são ordenados de alguma

forma – alfabeticamente ou através de algum outro método. Um ponto de partida aleatório é sorteado,
e então cada k-ésimo membro da população é seleccionado para a amostra.
- Amostragem por clusters: dividir a população em secções (ou clusters); seleccionar aleatoriamente
alguns desses clusters; escolher todos os membros dos clusters seleccionados.
- Amostragem estratificada: subdividir a população em, pelo menos, dois subgrupos distintos que
partilham alguma característica e, em seguida, recolher uma amostra de cada um dos subgrupos (ou
estratos).
- Amostragem por etapas: Neste tipo de amostragem, selecciona-se em primeiro lugar, aleatoriamente,
uma amostra por Clusters – repare-se que é muito mais fácil obter uma lista por Clusters (por exemplo,
de escolas) do que uma lista exaustiva dos elementos que compõem a População (por exemplo, todos os
alunos). Seguidamente podemos realizar, ou não, uma segunda etapa, na qual são escolhidos
aleatoriamente alguns elementos dos Clusters seleccionados na fase anterior ou, então, continuando com
a selecção de Clusters até se chegar às unidades elementares.
2.1.4.2 Não probabilísticos ou dirigidos

- Amostragem por quotas: busca-se, mesmo que subjectivamente, a similaridade de aspectos entre a
amostra e a população. É necessário conhecimento prévio sobre os aspectos a serem controlados e sua
distribuição na população da pesquisa. Quanto menos aspectos forem desejados de serem controlados e
menos categorias em cada um houverem, mais fácil se torna a sua especificação. Ex: quotas de homens
e mulheres com mais ou menos de 30 anos.
-Amostragem Intencional :É uma amostragem não probabilística e consiste em selecionar um subgrupo

de população que, com base nas informações disponíveis, possa ser considerado representativo, de toda
a população. A principal vantagem da amostragem intencional esta nos baixos custos de sua seleção. A
amostragem intencional não é considerada um bom método, pois os dados podem ser facilmente
manipulados, direcionados aos interesses do pesquisador ou de quem encomendou a pesquisa.
- Amostragem Bola-de-Neve (snowball): um grupo inicial de pesquisadores é seleccionado

aleatoriamente. Estes elementos, após terem sido entrevistados, identificam outros elementos que
pertençam à mesma população alvo. Este processo pode ser executado em ondas sucessivas, obtendo-se
referências ou informações à partir de referências ou informações. Este tipo de amostragem é muito
utilizado para estimar características raras na população. Sua principal vantagem é aumentar
substancialmente a possibilidade de localizar a característica desejada na população. Seus custos são
relativamente baixos.
2.1.5 Importância da Amostragem
A amostragem e em particular os processos de amostragem aplicam-se em variadíssimas áreas do

conhecimento e constituem, muitas vezes, a única forma de obter informações sobre uma deter-minada
realidade que importa conhecer. A teoria da amostragem é assim um dos instrumentos que possibilita
esse conhecimentos científico da realidade, onde outros processos ou métodos alternativos, por razões
diversas, não se mostram adequados ou até mesmo possíveis.
26
Na realização de qualquer estudo quase nunca é possível examinar todos os elementos da popula-ção de
interesse. Temos usualmente de trabalhar com uma amostra da população. A inferência estatística nos dá
elementos para generalizar, de maneira segura, as conclusões obtidas da amostra para a população.
É erróneo pensar que, caso tivéssemos acesso a todos os elementos da população, seríamos mais
preciosos. Os erros de colecta e manuseio de um grande número de dados são maiores do que as
imprecisões a que estamos sujeitos quando generalizamos, via inferência, as conclusões de uma amostra
bem seleccionada.
Tratando-se de amostra, a preocupação central é que ela seja representativa.
Assim que decidimos obter informações através de um levantamento amostral, temos imediatamente
dois problemas:
- Definir cuidadosamente a população de interesse
- Seleccionar a característica que iremos pesquisar
2.1.6 Processo de amostragem

Erro é a diferença entre o (verdadeiro) valor do parâmetro e a estimativa respectiva, calculada a partir
dos valores observados na amostra.
O erro amostral resulta do facto de os dados se referirem apenas a uma parte da população e não a sua
globalidade.
É um erro controlável mediante escolha do processo de amostragem aleatório e da respectiva dimensão

da amostra de tal modo que a amostra seja representativa da população em estudo e, consequentemente,
que aos resultados amostrais obtidos esteja associado um elevado grau de confiança e uma margem de
erro reduzida.
O erro não amostral também pode ser observado em censos e resulta de: não entendimento das questões
por parte dos inquiridos, erros no registo da informação obtida, recusa dos inquiridos em responder às
questões, etc.
São erros não controláveis mas minimizáveis (controlo de registos, simplificação das questões, etc.).
Métodos probabilísticos são aqueles em que a probabilidade de seleccionar determinado elemento da

população é conhecida a priori. (Estes métodos conduzem às amostras aleatórias.)
 Vantagens:
o o grau de confiança associado aos resultados obtidos pode ser medido e controlado;
o o enviesamento potencial no que se refere à escolha dos indivíduos a inquirir é mínimo,
uma vez que se trata de um processo de selecção casual e mecânico.
 Desvantagens:
o Dificuldade na obtenção de uma listagem completa da população a inquirir;
o “não-respostas”.
27
Amostragem aleatória simples caracteriza-se por:
- cada elemento da população deve ter a mesma probabilidade de ser seleccionado;
- para uma dada dimensão amostral, a probabilidade de uma amostra de dimensão n ser escolhida
deve ser igual.
A escolha dos elementos é feita por software adequado ou através das tabelas de números aleatórios.
A utilização desta metodologia é dificultada pela necessidade da listagem completa e rigorosa da

população. Portanto, a sua aplicabilidade cinge-se a populações cuja dimensão não seja muito grande.
2.2 Distribuições teóricas amostrais
2.2.1 Introdução
Quando se pretende estudar uma população, interessa fazê-lo analisando certas características dessa
população. Estas características podem ser discretas e contínuas e o seu comportamento pode ser
definido segundo uma função de probabilidade (se a característica for discretas) ou uma função de
densidade de probabilidade (se a variável for contínua).
Para que o comportamento de uma variável X seja conhecida, basta conhecer a sua distribuição e o valor
dos parâmetros caracterizadores dessa distribuição, se for uma distribuição binomial deve-se conhecer
o p e n, se for a normal deve-se conhecer a μ e o σ. Porém, os parâmetros da população só serão
conhecidos se for possível estudar todos os efeitos que a ela pertencem, e isso só é possível em
populações finitas. Os custos resultantes do estudo de toda população são por vezes muito elevados, logo
a alternativa consiste em trabalhar com amostras, inferindo assim da amostra da população, os métodos
de inferência estatística pressupõem que a amostra é aleatória.
- Amostra Aleatória
Nem todas as amostras permitem que, a partir dos seus resultados, se faça uma generalização a toda a
população com uma certa credibilidade. No fundo, pretende-se que a amostra seleccionada seja um
subconjunto da respectiva população e daí que nos debrucemos a partir de agora, apenas sobre o método
de amostragem aleatória.
Este método de selecção de amostras, a que já fizemos referência no início deste capítulo, garante que
todos os elementos da população têm as mesmas hipóteses de serem integrados na amostra, evitando-se
assim qualquer enviesamento da selecção, isto é, qualquer tendência sistemática para sub representar
ou sobre representar na amostra alguns elementos da população.
Consideremos então que se pretende estudar a característica X de uma população e que X tem uma f.d.p
Fx( x ) (se estivéssemos a trabalhar com uma função de probabilidade o processo era análogo).
Se for retirada dessa população uma amostra A1 de dimensão n obteremos (X11, X21, X31,…,Xn1) em que
o k-ésimo elemento da amostra Xk1, (com k = 1,2,3,..n) é um valor do conjunto de
todos os valores que X pode assumir.
28
Se retirarmos agora sucessivamente amostras de dimensão n da nossa população obteremos:
Amostra 1 (A1): (X11, X21, X31,…,Xn1)
Amostra 2 (A2): (X12, X22, X32,…,Xn2)
Amostra S (AS): (X1S, X2S, X3S,…,XnS)
Então podemos considerar que temos uma amostra tipo:
(X1,X2,X3,...,Xn )
que por gerar as diferentes amostras (A1,A2, ...,As ,...) pode ser considerada como uma variável aleatória
n-dimensional com função densidade de probabilidade conjunta.
A variável aleatória (X1,X2,X3,...,Xn ) chama-se uma amostra aleatória retirada de uma certa população,
se a sua função de probabilidade ou f.d.p for dada por:
n
f x1 , x2 ,..., xn   f x1 . f x2 . ... f xn    f x1 
i 1
Onde X1 designa o primeiro elemento da amostra, X2 o segundo e Xn o n-ésimo.
2.2.2 Parâmetros e Estatísticas
Um parâmetro é uma característica duma população, isto é, um valor que embora possa ser
desconhecido é fixo.
Uma estatística é uma característica da amostra, isto é, um valor que caracteriza uma dada amostra e
que é variável de amostra para amostra, ou seja, uma variável aleatória.
Exemplo: Se para cada uma das amostras A1,A2,...,As ,... referidas anteriormente, calcularmos a
respectiva média, iremos obter:
1 2 s
X , X ,...X
Podemos então considerar que a média amostral é uma variável aleatória (amostral), que assume um
dado valor concreto para cada amostra Ai .
Designa-se por estimativa o valor que uma estatística assume para uma dada amostra concreta.
Assim a média μ e o desvio padrão σ de uma população normal ou a media p e o desvio padrão p(1  p)
uma de uma população de Bernoulli são parâmetros.
A média de uma amostra (média amostral) recolhida de uma população é uma estatística e designa-se
por X . O desvio padrão de uma amostra é também uma estatística e designa-se por S.
29
Exemplos:
1 n
 T1  X   X i é a chamada média amostral
n i 1
 X 
n 2
i X
 T2  S 2  i 1
é a chamada var iância amostral
n
 X 
n
2
i X
 T3  S '2  i 1
é a chamada var iância amostral corrigida
n 1
2.2.3 Lei dos grandes números

- A média de um conjunto de n variáveis aleatórias independentes e identicamente
distribuídas, com média μ e desvio padrão σ, converge para μ à medida que n aumenta.
- A partir deste resultado podemos dizer que a frequência relativa de um certo acontecimento de interesse
num conjunto de n experiências independentes, converge para a probabilidade do acontecimento à
medida que n aumenta.
Teorema do Limite Central:
O teorema do limite central, em teoria das probabilidades, expressa o facto de a soma de muitas variáveis
aleatórias independentes e com mesma distribuição de probabilidade tender à distribuição normal,
também conhecida como distribuição Gaussiana.
Vimos anteriormente que a média de uma conjunto de variáveis aleatórias Normais, é ainda Normal:
X  N  ,    X  N   ,  

 n
O Teorema do Limite Central permite dizer que a média de um conjunto de variáveis aleatórias com
uma qualquer distribuição é aproximadamente Normal (cada vez mais Normal à medida que o nº de
variáveis aumenta).
X  F ( X )  X  N   ,  
o

 n
Se tivermos n variáveis aleatórias X1,X2,…,Xn independentes e com a mesma distribuição de média μ e

variância σ2,então quando n cresce para infinito,
30
X 
 N 0,1
o

n
Vamos mais detalhadamente ver nos temas seguintes a distribuição amostral de algumas estatísticas
importantes no capítulo da inferência estatística. Porém torna-se necessário definir algumas distribuições
teóricas.
2.2.4 Distribuição Normal

Diz-se que uma variável aleatória continua X tem distribuição normal e escreve-se X ~ N ;  se a
sua função de densidade de probabilidade for dada por:
1  X  
2
  
f X  
1  
 e 2 com    X   , onde µ e σ são os parâmetros da distribuição e que
 2
satisfazem:
      e   0 .
Teoremas:
1. Se a variável aleatória X tem distribuição normal então:

E X   
VAR X    2
ou seja,
X 
X ~ N ;  ou X ~ N  ; 
2
  → ~ N 0;1

2. A distribuição normal é aditiva: dadas n variáveis aleatórias independentes com distribuição
normal de parâmetros µ e σ,
n
 X  n
 X ~ N n; n 
n
→ i 1
~ N 0;1
i 1  n
X 
então: ~ N 0;1 ← X ~ N   ;  

  n
n
Características:
31
 a função densidade de probabilidade de uma variável aleatória com distribuição normal tem
forma de sino, é simétrica em relação ao eixo X   e tem pontos de inflexão em X     ;
 qualquer distribuição normal é definida por duas medidas: a média µ que localiza o centro da
distribuição e o desvio-padrão σ mede a variabilidade de X em torno da média.
2.2.5 Distribuição do Qui-quadrado

Características:
1- É uma função positiva e assimétrica.
2- Se X segue distribuição do qui-quadrado com n graus de liberdade, e escreve-se:
X ~  n2 então :
EX   n
Var( X )  2n
3- O seu aspecto gráfico depende do número de graus de liberdade, n.
4- É uma distribuição aditiva:

Se X i , i  1, 2, , n  , são independentes e X i ~  n2j então:
X
i 1
i ~  2n
nj
j 1
Teoremas:
1. O quadrado de uma variável aleatória normal padronizada tem distribuição do qui-quadrado com
1 grau de liberdade.
32
 X 
2
Z 
2
 ~ 1
2
sendo Z 2 ~ N 0;1
  
2. O somatório do quadrado de n variáveis aleatórias com distribuição normal padrão tem

distribuição do qui-quadrado com n graus de liberdade.
 X 
n 2
 
i 1  
 ~ n

2
3. A distribuição do qui-quadrado com n graus de liberdade tende para a distribuição normal a

medida que n aumenta. Ou seja, quando n   , tem-se:

 n ~ N n, 2n
2
 ou
 n2  n
~ N 0,1 ,
2n
por aplicação do teorema do Limite Central.
2.2.5 Distribuição t de Student

Características:
1. É simétrica em relação ao eixo X = 0.
2. Se X segue distribuição t de Student n graus de liberdade (escreve-se X ~ tn ) , então:
E X   0
VAR X  
n
se n2
n2
3. O seu aspecto gráfico depende do número de graus de liberdade, n.
Teoremas:
1. Se X e Y são variáveis aleatórias independentes e se X ~ N 0;1 e Y ~  n2 então:

X
T ~ tn
Y
n
33
2. A distribuição t de Student tende para a distribuição normal, à medida que n aumenta. Ou seja,
se X ~ t n , quando n  
 n 
~ N 0,1 ,
X
X ~ N  0, 
 ou
 n  2  n
n2
por aplicação do teorema do Limite Central.
2.2.6 Distribuição F de Snedecor
Características:
1. É uma distribuição positiva e não simétrica.
2. Se X segue distribuição F de Snedecor m graus de liberdade no numerador e n graus de liberdade

no denominador (escreve-se X ~ Fnm ou X ~ Fm;n  ), então:
E X  
n
n2
2n 2 m  n  2
VAR X   se n  4
mn  2 n  4 
2
Teoremas:
1
1. Se a variável aleatória X ~ Fnm então: ~ Fmn Onde m, graus de liberdade no numerador e n graus
X
de liberdade no denominador
2. Se X e Y são variáveis aleatórias independentes e se X ~  m2 e Y ~  n2 então:
X
F  m ~ Fnm
Y
n
3. O seu aspecto gráfico depende dos parâmetros m e n. O quadrado de uma variável aleatória com
distribuição t de Student com n graus de liberdade tem uma distribuição F com 1 e n graus de
liberdade. Ou seja, se T ~ t n então: T 2 ~ Fn1
34
2.3 Estimação pontual
Fazer inferência estatística

Estimação é basicamente partir de uma informação amostral, para obter resultados
de Parâmetros
estatisticamente credíveis relativamente à população.
Fazer inferência estatística é basicamente partir de informação amostral para obter resultados
estatisticamente credíveis relativamente à população.
São as seguintes as etapas da Estatística Inferencial ou Indutiva:
São as seguintes as etapas da Estatística Inferencial ou Indutiva:
Estimação Pontual (ou Por Pontos)
Estimação
Estatística Estimação por Intervalos (Intervalos de Confiança)
Inferencial
Testes ou Ensaios de Hipóteses

O objectivo da Estimação Pontual é usar toda a informação disponível a partir da amostra, para
produzir um valor que é o melhor valor que se pode adiantar para um certo parâmetro do
Universo.
Existem dois procedimentos para propor um valor para certo parâmetro θ:

a) Propor um estimador para θ que pareça um bom estimador graças às propriedades de que ele
goza;
O objectivo da Estimação Pontual é usar toda a informação disponível a partir da amostra, para produzir
b) Construir um estimador e, no processo de construção, assegurar que ele goze das propriedades
um valor que é desejáveis
o melhor de valor
um bomque se pode Elaborado
estimador. adiantar para um certo parâmetro do Universo.
por: Albertina Delgado
60
UCAN/2011
Existem dois procedimentos para propor um valor para certo parâmetro θ:
a) Propor um estimador para θ que pareça um bom estimador graças às propriedades de que ele
goza;
b) Construir um estimador e, no processo de construção, assegurar que ele goze das propriedades
desejáveis de um bom estimador.
2.3.1 Propriedades dos Estimadores

Algumas das principais propriedades de um bom estimador são:
1. Linearidade
2. Não enviesamento
3. Eficiência
4. Não enviesamento assimptótico
35
Um estimador diz-se linear quando é uma função linear das observações da amostra. Os estimadores
lineares são geralmente mais fáceis de utilizar.
Um estimador diz-se não enviesado ou centrado para θ se: E ˆ   

Um estimador diz-se eficiente se dentro da classe dos não enviesados ou centrados tiver a menor
variância. Um estimador que acumule as três propriedades acima enunciadas é dito BLUE (Best Linear
Unbiased Estimator – Melhor Estimador Linear Não Enviesado).
Um estimador ˆn diz-se não enviesado assimptoticamente quando: lim E ˆ   isto é, quando a
n  

média da distribuição do estimador converge para o parâmetro.
2.3.2 Variância amostral
Variância amostral é uma medida que se obtém somando os quadrados dos desvios dos dados
relativamente à média, e dividindo pelo número de dados menos um. Representa-se por S2.
  X i  X 2 
ES 2
 E 
 n 

1
n

E  X i  X 
2


1
n

E   X i     X   
2


1
n
 
E   X i     2 X i   X     X   
2 2


1
n

E   X i     2  X i   X      X   
2 2


 2  X i   X     2 XX i  X i  X   2 

 2 X  X i    X i   X    2 

 2 X  X i    X i  nX  n 2 
 n n 
 2 X  X i     X i   nX  n 2 
 n n 

 2 nX 2  nX  nX  n 2 
36

 2 nX 2  2nX  n 2 

 2n X 2  2X   2 
 2n X   
2
 
E S2 
1
n

E   X i     2nX      X   
2 2 2


1
n

E   X i     2nX     nX   
2 2 2


1
n

E   X i     nX   
2 2


1
n
 2
 
E   X i     E nX   
2


1
n
 EX     nEX    
i
2 2

1
n
VAR X   nVARX 
i
1 2 
     n 
 2
n n 

1
n

n 2   2 
n 1 2
 
n
 
E S 2   2 (A variância amostral não corrigida é um estimador é enviesado.)
2.3.3 Estimadores de Máxima Verossimilhança
A ideia desse método é, estimar o(s) parâmetro(s) de tal forma que a probabilidade de ocorrência desses
dados observados naquele(s) parâmetro(s) estimado(s) seja máxima, levando em consideração os dados.
37
O princípio de máxima versossimilhança é um dos metodos mais utilizados para se obter estimadores.
Se consideremos uma população e uma v.a X, relacionada a essa população, com determinada função
de probabilidade (se X é uma v.a discreta) ou função densidade de probabilidade (se X é uma v.a
contínua) 𝑓(𝑥, 𝜃), sendo 𝜃 o parâmetro desconhecido. Retiremos uma amostra aleatória simples de X,
de tamanho n, X1 ,..Xn, e sejam 𝑥1 , … , 𝑥𝑛 os valores efetivamente observados.
A função de verossimilhança L é definida por:

𝑛
𝐿(𝜃; 𝑥1 , … , 𝑥𝑛 ) = ∏ 𝐹(𝑥𝑖 ; 𝜃)
𝑖=1
Em muitos casos, o estimador de máxima verossimilhança pode ser encontrado seguindo os passos
abaixo:
1. Encontrar a função de verossimilhança;

2. Aplicar a função ln;
3. Derivar em relação ao parâmetro o 𝜃 ;
4. Igualar o resultado a zero.
5. Verificar que este estimador é ponto de máximo.
O Método da Máxima Verosimilhança (MMV) é o mais importante dentre os métodos de estimação –

procedimentos que permitem construir estimadores com as propriedades desejadas e que inclui além do
MMV o Método dos Momentos e o Método dos Mínimos Quadrados.
Dada uma amostra concreta e identificada a distribuição da sua população – que depende do(s) seu(s)
parâmetro(s) –, o MMV basicamente responde a seguinte questão: “qual o valor do parâmetro que torna
uma amostra concreta mais verosímil (provável)?”
É, portanto, condição necessária para a aplicação deste método, que se conheça a distribuição da
população.
O método é generalizável para populações com mais de um parâmetro como é o caso da distribuição
normal e os estimadores que produz gozam, em geral, das propriedades desejáveis num bom estimador:
são os mais eficientes, consistentes e, se não são centrados, são pelo menos não enviesados
assimptoticamente.
Exemplo 1:
Obtenha através do método da máxima verosimilhança, com base na informação contida na amostra (3,
2, 1, 1, 0, 4), uma estima do parâmetro desconhecido da distribuição de Poisson:
38
   X
f x   para   0 e X  0,1,2,, n
X!
Resposta
1- Escrever a função de verosimilhança:
L  
  3   2   1   1   0   4
     → L  
  3 2110 4   6
3! 2! 1! 1! 0! 4! 3!2!1!1!0!4!
 6 11  6 11

L   → L  
6  2  1  1  1  24 288
2- Escrever o logaritmo da função de verosimilhança:
 6 11
ln L   ln → ln L   ln  6  ln 11  ln 288
288
ln L   6  11ln   ln 288
3- Condição de primeira ordem (igualar a zero a primeira derivada):
 ln L 
0

 ln L  11
 6 
 
4- Igualar a derivada de primeira ordem a zero
11 11 11
6 0 → 6 → 
  6
5- Condição de segunda ordem (demonstrar que a segunda derivada é negativa no ponto que anula a
primeira derivada, isto é, que o valor/expressão que anula a primeira derivada é um máximo):
 2 ln L   2 ln L  11 11
0 →  2 →  0
2  2
 2
11
Logo ˆ*MV  é um estimador de máxima verossimilhança.
6
Exemplo 2:
Obtenha através do método da máxima verosimilhança, estimadores para os parâmetros μ e σ2 da

distribuição normal.
39
1
  X   2
f x  
1
 2 2
onde X   ,    e   0
2 2
Resolução:
1- Escrever a função de verosimilhança:

1 1 1
  1   X 1   2 1   X 2   2 1   X n   2
L ; 2
 2 2
  2 2
  2 2
2 2 2 2 2 2
1 1 1
  1n   X1   2   X 2   2   X n   2
L ; 2  2 2 2 2 2 2
 2  n

2
  X i   2   X i   2
1
 
1
  1n  1 
L  ; 2
n
 2 2
 L ; 2
n n
 2 2
 
 
1
 
1
 2  2 2  2
2
2
 2 2

 
2- Escrever o logaritmo da função de verosimilhança:
  X i   2
1
  1 
ln L  ;  2  ln  2 2
2  2  2 2
n n
    X i   2
1
   
n 
 ln 1  ln 2  2  2
n
ln L  ;  2 2
  ln 
2 2
 
 n
n
ln L ; 2   ln 2  ln  2 
2 2
1
2 2 
 X i   2
3-a) Condição de primeira ordem (resolução para a média):
 ln L ; 2   ln L ; 2   2  X i   
0  
  2 2
 ln L ; 2    X i     X i   
  0   X i     0
 2 2
 Xi    0   X i  n  0   n   X i
40
  Xi X
   i
 X
n n
3-b) Condição de primeira ordem (resolução para a variância):
 ln L ; 2   ln L ; 2  n 1  X i     2
2
0    2 
 2  2 2  2 2  2 
2
 ln L ; 2   X i     X  
2 2
n n
 2    0
i

 2 2 2  2 2  
22
2 2 2
 n 2    X i     0  n 2    X i   
2 2

  X i     X  
2 2
 
2
  2

i
n n
Depois de verificadas as respectivas condições de segunda ordem, ficará provado que os estimadores
de máxima verosimilhança para os parâmetros da distribuição normal são os seguintes:
 X  
2
̂ MV  X ˆ 
2 i
MV
n
2.4 Estimação por intervalos (Intervalo de confiança)
Na estimação por intervalos, a estimativa do parâmetro pode assumir qualquer valor dentro de um
intervalo de valores possíveis.
O melhor intervalo para um parâmetro será aquele para o qual a probabilidade de conter o valor do
parâmetro é a maior:
Pa    b  
2.4.1 Intervalo de confiança para a média
̅̅̅ , o desvio padrão da distribuição

Utilizando a estimativa de µ que é medida pela média amostral (𝑋)
amostral ( s ), assim como as propriedades da distribuição normal, o intervalo de para a média é um
intervalo de valores dentro do qual a média (µ) pode ser construída com um certo grau de confiança. O
intervalo de confiança é construído de modo que a probabilidade de que µ esteja dentro dele pode ser
41
tão alta quanto se queira, ou seja, com 90% de certeza, 95% de certeza, 99% de certeza, 99,9% de certeza
etc.
Exemplo da média populacional:
Pa    b  
X 
VF  ~ N  ;   (Variável fulcral)

n
P z  VF  z   
 
 
  
 z  
X
P z
  
 
 n 
   
P  z   X   z   
 n n
   
P  X  z      X  z    
 n n
   
P X  z     X  z   
 n n
   
P X  z     X  z   
 n n
42
   
I     X  z  ;X  z 
 n n

I    X  z
n

e  z (Margem de erro)
n
I    X e
Para o cálculo de -z e z teremos:
P z  VF  z   
P z  Z  z   
PZ  z   PZ   z   
PZ  z   PZ  z   
PZ  z   1  PZ  z   
PZ  z   1  PZ  z   
2  PZ  z     1
 1
PZ  z  
2
Ou ainda, sabendo que   1 →   1
1 1
PZ  z  
2
2 
PZ  z  
2

PZ  z   1 
2
2.4.2 Intervalo de confiança para uma proporção

Da mesma forma que um conjunto de médias amostrais são distribuídas nas proximidades da média
populacional, as proporções amostrais 𝑝̂ são distribuídas ao redor da verdadeira proporção populacional
p.
43
Pa    b  
pˆ  p
VF  ~ N  ;   (Variável fulcral)
p1  p 
n
P z  VF  z   
 
 
pˆ  p
P  z   z  
 p1  p  
 
 n 
 p1  p  p1  p  
P  z   X   z 

 n n 
 p1  p  p1  p  
P  X  z      X  z  

 n n 
 p1  p  p1  p  
P X  z     X z 

 n n 
 p1  p  p1  p  
P X  z     X  z 

 n n 
 p1  p  p1  p  
I  p   X  z  ;X  z 

 n n 
p1  p 
I  p  X  z 
n
p1  p 
e  z (Margem de erro)
n
I  p  p  e
44
2.4.3 Intervalo de confiança para a variância de uma população normal
Pa  VF  b  
VF 
n  1S '
2
~  n21 (Variável fulcral)

 2

P a 
n  1S  2 
 b    

P
a 1
 2 
b 
  
  n  1S   n  1S  2
2 2
  
 n  1S  2 n  1S  2   n  1S  2 n  1S  2 

P 2      P 2    
 a b   b a 
 n  1S  2 n  1S  2 
I   2   ; 
 b a 
Sendo o desvio-padrão a raiz positiva da variância (    2 ), teremos o seguinte intervalo de

confiança para o desvio-padrão de uma população normal:
I  


n  1S  2 ; n  1S  2 
 b a 
 
Os valores de a e b são calculados do seguinte modo:
 1 
 
P  n21  a 
2
 
P  n21  a   2
 1 
 
P  n21  b 
2
  
P  n21  b   2
 
1    2 1 
 
P  n21  b 
2
 
P  n21  b   2
0 a b
45
2.4.4 Intervalo de confiança para a diferença entre médias
Tomemos, como exemplo, a seguinte variável fulcral:
VF 
X 1  X 2   1   2 
~ N 0;1 (Variável fulcral)
 12  22

n1 n2
P z  VF  z   
 
 
 X  X 2   1   2  
P  z  1

z  
  12  22 
  
 n1 n2 
  12  22  12  22 
P  z    X 1  X 2   1   2   z   
 n n n n 
 1 2 1 2 
  12  22  12  22 
P   X 1  X 2   z    1   2   X 1  X 2   z   
 n n n n 
 1 2 1 2 
  12  22  12  22 
P  X 1  X 2   z    1   2   X 1  X 2   z   
 n n n n 
 1 2 1 2 
  12  22  12  22 
P X 1  X 2   z 
   1   2  X 1  X 2   z   
 n1 n2 n1 n2 

  12  22  12  22 
I     X 1  X 2   z 
  ; X 1  X 2   z  
1 2  n1 n2 n1 n2 

 12  22
I     X 1  X2  z  
1 2
n1 n2
 12  22
e  z  (Margem de erro)
n1 n2
46
I   
1 2
 X 1  X 2   e
2.4.5 Intervalo de confiança para o rácio entre variâncias
s1 2  22
VF  2  2 ~ Fnn2111 (Variável fulcral)
s 2  1
Pa  VF  b  
 s1 2  22   s 2 2  22 s 2 2 
P a  2  2  b   
  
P a  2  2  b  2   
 s 2  1   s1 1 s1 
 1 s2  2 1 s2   1 s2  2 1 s2 

P  1 2  12   1 2     P  1 2  12   1 2   
 a s 2  2 b s 2   b s 2  2 a s 2 
 1 s2 1 s2 
I   2
   1 2 ;  1 2 
 b s 2 a s 2 
1
 22
Sendo os valores de a e b calculados do seguinte modo:
1  1  1 
 
P Fnn2111  a 
2
 
1  P Fnn2111  a  2
  
P Fnn2111  a  1 
2
 1 1  2 1   1  1   1  1 
P n1 1     P Fnn1 211    P Fnn1 211   
 Fn 1 a  2  a 2  a 2
 2 
1  1    2
 
P Fnn2111  b 
2
  
P Fnn2111  b   2

1 
 
P Fnn2111  b 
2
47
0 a b
2.5 Ensaios de hipóteses
Aqui estudaremos outro aspecto da inferência estatística: o teste de hipóteses, cujo o objetivo é decidir
se uma afirmação, em geral, sobre parâmetros de uma ou mais populações é, ou não, apoiado pela
evidência obtida de dados amostrais.
 Hipótese Estatística é a afirmação

 Teste de Hipóteses é a regra usada para decidir se ela é verdadeira ou não.
2.5.1 Hipóteses estatísticas

Hipótese nula (H0), cujo termo é aplicado para a hipótese a ser testada, e a

 Hipótese alternativa (H1)
A hipótese nula (H0) é a hipótese de igualdade entre o novo e o produto padrão, ou seja, a designação
“hipótese nula” decorre da suposição que a diferença entre eles é nula ou zero.
A análise de cada situação indicará qual deve ser considerada a hipótese nula e qual a hipótese
alternativa. Uma especificação de H0 e H1 no exemplo seria:
H0 :  = 500 g/dia (a ração B não é melhor)
H1 :  = 510 g/dia (a ração B é melhor) ou
H0 :  = 0
H1 :  = 1
onde: 1 > 0 e  = 25
48
Se uma hipótese estatística especifica o valor do parâmetro, ela é referida como hipótese simples; se
não, é referida como composta. Assim, no exemplo, a hipótese alternativa  = 510 é simples. Seria
composta, por exemplo, se  > 500, visto que não fixa um valor específico para o parâmetro . Em H0,
o valor do parâmetro tem de ser especificado.
A hipótese preferencial é H0 e é sustentada como verdadeira, a menos que os dados se coloquem

firmemente contra ela. Em tal caso, H0 seria rejeitada a favor de H1. Rejeitar erradamente H0 é visto
como um erro mais grave do que não rejeitar H0 quando H1 é verdadeira.
2.5.2 Erros tipos I e II
O problema proposto consiste em verificar se com a utilização da nova ração, a média de ganho em peso
seria estatisticamente maior que 500 g e caso isto se verifique, a suinocultura passaria a utilizá-la. Caso
contrário, continuaria com a ração do tipo A, que já foi testada (conhecida a priori).
Para a tomada de decisão, deve-se extrair uma amostra aleatória (por exemplo, n = 50) de suínos,
fornecendo à mesma, da desmama até a idade de abate, a ração B, e após o término da prova, calcula-se
a média amostral ( x a) do ganho diário em peso no período, que é, no caso, a estatística teste. A
estatística teste é o valor amostral da estatística utilizada para testar um parâmetro no teste de hipóteses.
Parece razoável estabelecer que se x a estiver próxima de 500 g, não se deve rejeitar H0, e a conclusão é
que a ração do tipo B é estatisticamente igual a do tipo A. Por outro lado, se x a estiver próxima ou for
superior à 510 g, a tomada de decisão é que a ração do tipo B é superior à do tipo A (rejeitar H 0) e que
a suinocultura passe a utilizá-la. A média amostral ( x a) é, no entanto, uma variável aleatória que pode
assumir qualquer valor entre 500 e 510 g. Assim, deve-se estabelecer um critério de decisão para aceitar
ou rejeitar H0. Isto é feito determinando um valor k (ponto) entre 500 e 510 g, chamado valor crítico
( xc ) , e adotando a seguinte regra de decisão:
“Se a média amostral ( x a) estiver à direita de k, rejeita-se H0, caso contrário não se rejeita”
Graficamente tem-se a seguinte situação:
49
Região de aceitação para H0 Região de rejeição para H0
k =xc
 
500 510
Figura 1. Região de rejeição de H0 para o teste  = 0 vs.  = 1
Um teste de hipóteses é completamente especificado pela estatística teste e região de rejeição. A região
de rejeição ou região crítica (RC) é o conjunto de valores da estatística teste para os quais H0 é rejeitada.
O procedimento do teste, então, divide os possíveis valores da estatística teste em dois subconjuntos:
uma região de aceitação e uma de rejeição para H0, o que pode levar a dois tipos de erros. Por exemplo,
se o verdadeiro valor do parâmetro  é 500 g e incorretamente concluímos que  = 510 g, cometeremos
um erro referido como erro tipo I. Por outro lado, se o verdadeiro valor de  é 510 g e incorretamente
concluímos que  = 500 g, cometeremos uma segunda espécie de erro, referido como erro tipo II.
O quadro abaixo resume a natureza dos erros envolvidos no processo de decisão, por meio dos testes de
significância:
Situação específica na população

Conclusão do teste
H0 verdadeira H0 falsa
Erro tipo II (perdas potenciais
Não rejeitar H0 Decisão correta
para o criador)
Erro tipo I (perdas reais para o
Rejeitar H0 Decisão correta
criador)
Denota-se por:
 = P (erro tipo I) = P (rejeitar H0/H0 é verdadeira)
 = P (erro tipo II) = P (não rejeitar H0/H0 é falsa)
Assim, o tamanho da região crítica é exatamente a probabilidade  de cometer o erro tipo I . Essa
probabilidade é também chamada de nível de significância do teste. O nível de significância do teste
50
() é, portanto, a probabilidade com que desejamos correr o risco de cometer o erro tipo I, ou seja, em
% dos casos de rejeição de H0, estaremos tomando decisão errada.
Escolhendo um valor para xc , pode-se determinar as probabilidades  e  de cometer cada tipo de erro.
Mas, o procedimento que se usa na prática para construir a regra de decisão é fixar , a probabilidade
do erro tipo I (rejeitar H0 quando ela for verdadeira). O valor é arbitrário e o resultado da amostra é tanto
mais significante para rejeitar H0 quanto menor for esse nível. Geralmente, o valor é fixado em 5%, 1%
ou 0,1%.
Por exemplo, fixemos  em 5%, ou seja, P(erro I) = P( X  xc / H 0 é verdadeira) = 5%, e vejamos qual
a regra de decisão correspondente.
Quando H0 é verdadeira ( = 500 g), sabe-se do Teorema Limite Central, que X , a média de amostras
de tamanho 50, terá distribuição aproximadamente
 2 ( 625 g 2 )
N [  ( 500) ; ] ou seja, N (500 g ; 12,5 g 2 ) . Assim,
n( 50)
P(erro I )  P[ X  xc / X : N (500 g; 12,5 g 2 )]  5%
xc  0 xc  500 xc  500
P[ Z  ]  P[ Z  ]  5%   1,65
 3,5 3,5
n
ou seja, xc  k  (3,5.1,65)  500  505,78 g
Então, RC = { X  R/ X  505,78 g} e a regra de decisão é: “se x a  RC, rejeita-se H0 e a conclusão

é que a ração B é superior à A; se , não se rejeita H0, e a conclusão é que as rações são estatisticamente
iguais”.
Convém observar que a RC é sempre construída usando os valores hipotetizados por H 0 ou seja, sob a
hipótese H0 ser verdadeira.
Com essa regra de decisão:
 = P(erro II) = P[ X < 505,78/ X : N(510 g, 12,3 g2)]
51
505,78  510
 = P [Z < ] = P[Z < -1,21] = 11,31 %
3,5
Há uma relação inversa entre  e , ou seja, se a probabilidade de um tipo de erro é menor, aquela do
outro tipo é maior. No caso da escolha de um valor para xc , por exemplo, 505 kg (o ponto médio entre
500 e 510 kg), podem-se reduzir as probabilidades de ambos os tipos de erros, aumentando o tamanho
da amostra (n).
Este resultado também pode ser facilmente verificado a partir da Figura 1, considerando que, da
x 
transformação para a normal reduzida, z c  c .

n
A probabilidade com que o teste de significância, com  fixado, rejeita H0, quando o particular valor
alternativo do parâmetro é verdadeiro, é chamada poder do teste. O poder do teste é um menos a
probabilidade do erro tipo II ou seja, (1 - ). No exemplo, o poder do teste é: 1 -  = 1 – 0,1131 = 0,8869
(88,7%).
Frequentemente, no entanto, não são especificados valores fixos para o parâmetro em H1. Então, sua
caracterização dependerá do grau de conhecimento que se tem do problema. A alternativa mais geral é:
H1:   0 (teste bilateral)
Neste caso, a regra de decisão deverá indicar dois pontos xc1 e xc 2 , tais que, H1 será sustentada se a
média da amostra for muito grande ou muito pequena. Então, a estrutura apropriada da região de rejeição
ou crítica (RC) é:
“rejeita-se H0 se X  xc1 ou X  xc 2 ”
/2 /2
0
RC RC
Com esta regra de decisão, não podemos encontrar , consequentemente, não podemos controlar o
erro tipo II, pois o valor do parâmetro sob a hipótese alternativa não é especificado.
Voltando ao problema proposto, o teste seria:

H0:  = 500 g
52
H1:   500 g
Sendo que  = 5%,
P(erro I) = P[ X  xc1 ou X  xc 2 / X : N (500 g, 12,3 g2)] = 5%
= P[Z  -1,96 ou Z  1,96) = 5%
xc1  500
 1,96   xc1  493,1 g
3,5
xc 2  500
1,96   xc 2  506,9 g
3,5
Assim,
RC = { X  R/ X  493,1g ou X  506,9 g}
A extensão para testes unilaterais das formas:
H1:  > 0 (teste unilateral à direita) e
H1:  < 0 (teste unilateral à esquerda), é imediata.
Exemplo 2. No caso da suinocultura, considerando a amostra de 50 leitões (n = 50), aos quais foi
fornecida a nova ração (B), deve-se ou não adotar essa ração, admitindo-se como resultado um ganho
em peso médio diário de 504 g ( xa  504 g ), fixando  = 5%?
Solução:
H0:  = 500 g
H1:  = 510 g
x a  504g n = 50  = 0,05  = 25 g
x c  0 x c  500
zc 
/ n  1,65 = 25 / 50  x c = 505,78 g
RC = { X  505,78 g}
Conclusão:
53
Como xa  RC, não se rejeita H0 ao nível de significância de 5%, ou seja, a ração B não é melhor do
que a A. Portanto, a suinocultura não deve adotá-la.
Equivalentemente, os testes descritos podem ser com base na estatística:
X  0
Z , obtendo-se as regiões críticas na distribuição N (0,1).
/ n
Esta expressão corresponde à seguinte fórmula geral:
estimativa do parâmetro  valor do parâmetro hipotetizado por H 0

Estatística teste  ,
erro padrãoda estimativa do parâmetro
que será aplicada daqui em diante em testes de hipóteses.
Assim procedendo na resolução do Exemplo 2, o valor observado da estatística teste (Zobs) é dado por:
xa  0 504  500
zobs  = = 1,14
/ n 25 / 50
 = 5%
Z
0 zc = 1,65
RC
RC = {Z  1,65}
Como zobs < zc, não se rejeita H0 ao nível de 5%.
2.5.3 Ensaio para a diferença de k médias – análise de variância simples (ANOVA)
1. Formulação das hipóteses
H 0 : 1   2     k
H1 :  r   j para algum par (r , j ) com r  j
2. Estatística do teste
54
MSSB
ET  ~ Fnkk1
MSSW
3. Regra de decisão
Região de aceitação: 0; Fc 
Região crítica: Fc ;
É comum apresentarem-se os resultados da ANOVA através de uma tabela:
Fontes de Graus de Soma dos Soma média

F
variação Liberdade quadrados dos quadrados
Entre os grupos k-1 SSB MSSB MSSB

ET 
Dentro dos grupos n-k SSW MSSW MSSW
Total n-1 SST
Onde:
SSB SSW
MSSB  e MSSW 
k 1 nk
SSB   n j X j  X  SSW   X ij  X j 
k k nj
2 2
e
j 1 j 1 i 1
 X  X    n j X j  X    X ij  X j 
k nj k k nj
SST  SSB  SSW
2 2 2
 ij
j 1 i 1 j 1 j 1 i 1
nj
X ij
Xj  i 1
nj
k nj
 X ij
nj X j k
X j 1 i 1
ou X  e n  nj
n n j 1
55
Sendo:
k – número de grupos
n j – dimensão da amostra j ( j  1, 2,, k )
n – dimensão global (de todas as observações)
X ij – observação para o individuo i do grupo j
X j – média amostral do grupo j
X – média global (de todas as observações)
Para a utilização da ANOVA devem ser cumpridos os seguintes pressupostos:
1. Os conjuntos de observações para os k grupos constituem amostras aleatórias independentes

entre si;
2. As populações de onde se retiram as k amostras seguem distribuições normais;
3. As populações de onde se retiram as k amostras são homocedásticas, ou seja têm variâncias
iguais, isto é,  12   22     k2 .
2.5.4 Testes de comparação múltipla
1. Teste de Tukey
Xi  X j
W ~ S T k ,n k 
2  
S  1 1
 
2  ni n j 

Rejeitar a hipótese nula se:
S 2 1 
W  ST k ,n k  ou X i  X j  S T k ,n  k     1 
2 n n 
 i j 
2. Teste de Scheffé
Xi  X j
TS  ~ k  1F( k 1,nk )
1 1 
S 2   
n n 
 i j 
56
1 1 
TS  k  1F( k 1,nk ) ou Xi  X j  k  1F( k 1,nk )  S 2   
n n 
 i j 
2.5.5 Testes Para a Diferença Entre k Variâncias
1. Teste de Levene
Na análise de variância só deve ser conduzida se estiverem satisfeitas algumas exigências:
a) Os grupos devem ser formados por unidades que proveem de populações com igual variância.
b) As unidades devem ser independentes, tanto dentro do mesmo grupo como entre os diferentes
grupos.
c) As populações amostradas devem ter distribuição normal.
2. Teste de Bartlett
1 
n  k  ln S    n j  1ln S j  ~  k 1
k
B 2 2 2
para nj  6
C j 1 
1  k 1 1 
Sendo C  1   
3 k  1  j 1 n j  1 n  k 
B   k21
57
Capitulo III: Métodos de Previsão

3.1 Correlação e regressão linear simples
3.2 Estimação e ensaios sobre parâmetros
3.3 Intervalos de confiança de testes de hipótese
3.4 Variância e erro padrão dos estimadores
3.5 Análise de correlação
Os métodos de previsão em estatística é o processo de estimativas em situações de incertezas. O termo

previsão é semelhante, porém mais geral, e normalmente se refere a estimação de séries temporais ou
dados instantâneos. A previsão teve uma evolução ao longo do tempo, principalmente por causa da
economia e do mundo dos negócios.
3.1 Correlação e regressão linear simples

Conforme referido anteriormente, na estatística 1, o objecto principal testar FRP (Função de Regressão
Populacional) tendo como referência a FRA (Função de Regressão Amostral). Dos enumeros métodos
existentes, vamos aqui considerar o método dos quadrados mínimos MQO também denominado por
Ordinary Least Squares –OLS desenvolvido pelo matemático Alemão Car Friederich Gauss. O método
em causa baseia-se no princípio dos mínimos quadrados.
Sabe-se que a FRP Yi  1   2 X i   i não é directamente observável, o que nós conhecemos é sim
Yi  ˆ 1  ˆ 2 X i  ˆ i conforme as equações 6 e 7 o elemento erro ou resíduo é dado pela diferença do
Y observado e Y estimado.
 i  Yi  Ŷi
 Yi  ( ˆ1  ˆ 2 X i )
3.2 Estimação e ensaios sobre parâmetros

Para calcular os paremetros da regressão, assumindo dados centrados então podemos calcular b pela
seguinte fórmula:
Yi  ˆ 1  ˆ 2 X i  ˆ i
1  Y   2 X
2 
x y i i
x 2
i
Onde:
xi é valor centrado, calculado da seguinte forma: 𝑥𝑖 = 𝑋𝑖 − 𝑋̅
58
yi é valor centrado, calculado da seguinte forma: 𝑦𝑖 = 𝑌𝑖 − 𝑌̅
sendo que o ∑𝑛𝑖=1 𝑥𝑖 = 0 e∑𝑛𝑖=1 𝑦𝑖 = 0
∑𝑛𝑖=1 𝑋𝑖
𝑋̅ =
𝑁
∑𝑛𝑖=1 𝑌𝑖
𝑌̅ =
𝑁
3.3 Variância e erro padrão dos estimadores OLS

Conhecendo a definição da variância como sendo o quadrado do valor esperado da diferença entre o
estimador e o seu valor médio, escreveremos:
  
var ˆ2  E ˆ2  E ˆ2   2
 
var ˆ2 
2
 xi2
2  
ui2
n2
 
var ˆ1   2
X i
2
n x i
2
3.4 Intervalos de confiança e teste de hipótese
Admita que queiramos descobrir quão próximo é ̂ i de i , para isso tentamos descobrir dois números
positivos,  e  , onde  posiciona-se entre 0 e 1, de modo a que a probabilidade de o intervalo aleatório
 
ˆ 2  ; ˆ 2   conter o verdadeiro  2 é de a 1 -  .
59
Pr(ˆ 2     2  ˆ 2  )  1  
Porém note que a equação acima apresentada, reflecte um intervalo aleatório, já que ̂ 2 é um parâmetro
desconhecido, a não ser que tenhamos uma amostra especifica e obtivermos um valor especifico de ̂ 2 .
Conhecido o estimador dos mínimos quadrados, calculados à luz dos pressupostos básicos do modelo
clássico; normalmente distribuído com esperança nula e variância conhecida, e consequentemente o
desvio padrão, a estatística de t seguindo a distribuição de t student é calculada do seguinte modo:
î   i estimador  parâmetro

Et i  
 
ep î erro padrãoestimado do estimador
Onde:
t segue uma distribuição de n-2 gl , portanto, em vez de usarmos a distribuição normal, usamos
as distribuição de t estabelecendo um intervalo de confiança para  2 tal como se segue:
Pr(t  2  t  t  2 )  1  
Onde:
t  2 é o valor da variável i obtido da distribuição t para o nível de significância  e n  2 graus de

2
liberdade; também chamado por t critico que se pode encontrar na tabela.
 ˆ   i 
Pr  t  2  i  t 2   1 
  
ep ˆ i 
Assim é que se desejar calcular o intervalo de confiança, tomará a fórmula:
IC= ˆ  t
i  2  
ep î
A interpretação deste intervalo é dada pelo intervalo de confiança de 95% ao longo prazo, tal que 95 a
100% dos intervalos conterão o verdadeiro  2 . Sabe-se ainda que a amplitude do intervalo de confiança
é proporcional ao erro padrão do estimador. Quanto maior este for o erro padrão maior será a amplitude
do intervalo.
A questão da formulação das hipóteses estatísticas, relaciona-se aos casos nos quais, dada uma
observação, nos perguntamos até que ponto ela é compatível com a hipótese previamente formulada.
Estatisticamente a hipótese formulada é conhecida como hipótese nula H 0 . Geralmente ela é testada
seguida de uma hipótese alternativa H A por vezes também designada por hipótese sustentada.
A estatística para testar se o parâmetro é significante estatisticamente é a T de Student:
60
î   i
Et i 
 
ep î
Exemplo:
H0 : 2  0 H A : 2  0
Uma vez construído o intervalo ou detectado os valores críticos para o nível de significaria achado
pertinente, caso  2 cair na área de 100(1  )% , não rejeitar a hipótese nula. Porém caso cair fora, na
considerada área critica, deve-se rejeitar a H 0 . Este tipo de teste é um teste bicaudal.
Quando rejeitamos a hipótese nula, dizemos que estamos em presença de resultados estatisticamente
significantes. Porém, quando não rejeitamos, os resultados não são estatisticamente significantes.
Tabela de Decisão para o Teste de Hipótese
Tipo de hipótese H 0 : Hipótese H1 : Hipótese Regras de decisão:

Nula Alternativa rejeitar H 0 : se
Duas caudas  2 =  *2  2   *2 t  t  / 2,gl
Cauda a direita  2   *2  2 >  *2 t  t  / 2,gl
Cauda a Esquerda  2   *2  2 <  *2 t   t  / 2,gl
Onde beta asterisco é o valor numérico hipotético
3.5 Análise de correlação
Um conceito ligado ao coeficiente de determinação é o de coeficiente de correlação, R. Uma maneira de

se analisar a possibilidade de existência de uma associação linear entre um par de variáveis é através do
cálculo do coeficiente de correlação linear. O coeficiente de correlação linear, (R) , é um valor real
compreendido entre -1 e 1.
61
b xi yi
R2 
y 2
i
R  R2
Por concluir!
Capitulo IV: Investigação por Questionário

4.1- Introdução
4.2- Codificação
4.3- Respostas simples
4.4- Respostas Multiplas.
62

Estatística Ii: Universidade Católica de Angola

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estatística Ii: Universidade Católica de Angola

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE

Elaborado por: Albertina Delgado

Este apontamento é para uso exclusivo para os

Nota: Ainda é um draft, texto ainda carece de

2.3 Estimação pontual ...................................................................................................................................... 35

Capítulo I: Distribuições Teóricas mais Importantes

De entre todas as distribuições de probabilidades, as que se descrevem a seguir destacam-se porque se

1.1 Distribuições Discretas

1.1.1 Distribuição Uniforme

X pode assumir valores inteiros x = 1, 2, 3, 4, 5 e 6 com igual probabilidade.

Se X é uma variável aleatória discreta com distribuição uniforme tem-se que:

- Média ou valor esperado:

1.1.2 Distribuição de Bernoulli

Se a variável aleatória X tem distribuição de Bernoulli [X∩B (p)] então:

μ = E[X] = p σ2 = Var (X) = p (1 - p)

- Média ou valor esperado:

Var X   E ( X 2 )  E ( X ) por definição

1.1.3- Distribuição Binomial

i) a experiência consiste na repetição de n provas idênticas;

ii) cada prova tem dois resultados possíveis: sucesso ou insucesso;

iii) a probabilidade de sucesso mantém-se constante de prova para prova e igual a P

iv) as provas são independentes; e

v) a v. a., número de sucessos observado ao fim de n provas, toma os valores 0,1,2,...

Onde n e p são os parâmetros caracterizadores da distribuição. O parâmetro n corresponde ao número

A respectiva função de distribuição, F(x), é dada por:

1. A variável é resultado de contagem;

2. As experiências devem ser independentes;

3. A probabilidade de sucesso é a mesma a cada repetição da experiências.

Um levantamento da Associação Americana de Investidores Pessoa Física concluiu que

c) Qual a probabilidade de que no máximo 9 membros tenham comprado tais acções?

Seja X o número de membros que comprou as acções.

Temos que extrair os dados, n = 10, p = 0,2;

Feito isto, vamos localizar o valor na tabela,

Podemos ver que a P ( X = 3) é de 0,2013

c) R: A probabilidade de que no máximo 9 membros tenham comprado tais acções é de 100%.

1.1.4 Distribuição de Poisson

Suponhamos que, ao estudar um determinado fenómeno, se observa a ocorrência de certo acontecimento

 Os números de ocorrências em intervalos não sobrepostos são variáveis aleatórias independentes;

Esse fenómeno pode ser descrito através de uma distribuição de Poisson.

Onde λ > 0, é o parâmetro caracterizador desta distribuição.

Exemplos de situações que obedecem a uma distribuição de Poisson:

• número de defeitos por metro de tecido produzido numa fábrica;

a) Num dia, haja pelo menos um pedido.

b) Num dia haja exactamente 4 pedidos.

X- número de pedidos de ambulância que chegam ao posto de socorros.

a) P (X ≥ 1) = 1 – P (X<1) = 1 – P(X= 0) = 1 – 0,1353 = 0,8647

a)R: A probabilidade que haja pelo menos um pedido é de 86,47%.

b) R: A probabilidade que haja 4 pedidos é de 9,02%.

1.1.5 Aproximação da Binomial à Poisson

P(X ≥ 4) = 1 – P(X < 4) = 1 – [P(X=0) + P(X= 1) + P (X=2) + P(X=3)]

= 1 – [0,3679 + 0,3679 + 0,1839 + 0,0613] = 0,019

R: A probabilidade da companhia pagar pelo menos 4 apólices num ano é de 1,9%.

1.2 Distribuições Contínuas

1.2.1- Distribuição Uniforme

Os parâmetros caracterizadores desta distribuição são a e , que satisfazem a condição:

-∞ < a < b <+∞

Se a variável aleatória X tem distribuição uniforme em [a, b] então:

Elaborado por: Albertina Delgado

1.2.2- Distribuição Normal

A distribuição Normal é também chamada Gaussiana em homenagem ao matemático Carl Friederich

Distribuição Normal, é uma distribuição de probabilidade contínua, que é simétrica e a curva de

A média está no centro da curva.