Escolar Documentos
Profissional Documentos
Cultura Documentos
ÍNDICE
1. INTRODUÇÃO .............................................….................................... 4
1.1 Definições Gerais ........................................................................ 5
1.1.1. População
1.1.2. Variáveis ou atributos
1.1.3. Processo de amostragem
1.2 A Estatística Descritiva e a Estatística Indutiva .............…...... 6
2. ESTATÍSTICA DESCRITIVA 8
2.1 Variáveis Qualitativas ................................................................. 8
2.2 Variáveis Quantitativas Discretas ............................................. 10
2.3 Variáveis Quantitativas Contínuas ............................................ 11
2.4 Medidas de Localização ............................................................. 13
2.4.1. Média
2.4.2. Mediana
2.4.3. Moda
2.5 Medidas de Ordem ...................................................................... 17
2.6 Medidas de Assimetria ............................................................... 18
2.7 Medidas de Dispersão ................................................................ 19
2.7.1. Dispersão Absoluta
2.7.2. Dispersão Relativa
2.8 Análise de Concentração ........................................................... 21
2.8.1. Curva de Lorenz
2.8.2. Índice de Gini
1. INTRODUÇÃO
1.1.1. População
POPULAÇÃO
OU UNIVERSO Previsões
Amostragem Estimação
Erros
2. ESTATÍSTICA DESCRITIVA
Mod. j nj fj
Mod. n nn fn
Total n: dimensão da amostra 1
ni
fi = ; ni: nº de vezes que cada modalidade da variável foi observada.
n
Uma forma de resumir a informação contida nos dados é construir uma tabela
de frequências em que se consideram as diferentes modalidades que o sector
de actividade pode tomar:
Diagrama de barras
Para cada modalidade, desenha-se uma barra de altura igual à frequência
absoluta ou relativa (as frequências relativas são de preferir, pois permitem a
comparação de amostras de diferentes dimensões).
40%
30%
20%
10%
0%
IT COB CS F S
6% IT
28% 36% COB
CS
F
S
21% 9%
Xj nj fj
Xn nn fn
Total n: dimensão da amostra 1
Exemplo: X é o nº de defeituosos por embalagem numa amostra de 200
50%
40%
30%
20%
10%
0%
01 12 23 34 45
Como foi dito anteriormente, uma variável (ou atributo) é contínua quando
assume um número infinito não numerável de valores, isto é, podem assumir
qualquer valor dentro de um intervalo.
Classes de
Frequências absolutas Frequências relativas
valores da variável
[x1; x2[ n1 f1
[x2; x3[
[x3; x4[ nj fj
[xn-1; xn] n fn
Total n: dimensão da amostra 1
fi/hi
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6
racio
2.4.1. Média ( X )
n n
1
x = ni x i = f i xi Média ponderada dos valores de X
n i =1 i =1
Exemplo 2:
0 x80 + ... + 4 x10
x = = 1,1
200
Exemplo 3:
Dados não-classificados
Se tivermos n valores x1, x2, ... xn
Se n fôr ímpar,
Me = x n+1
2
Se n fôr par,
xn + xn
+1
Me = 2 2
2
Exemplo
Para n=5 (ímpar)
Me = x 5+1 = x3 = 13,5
2
x6 + x6
+1 x3 + x 4 11,7 + 12,5
Me = 2 2
= = = 12,1
2 2 2
Dados classificados
A mediana é o valor tal que Fi = 0,5
Variáveis discretas
Se existe um valor de xi para o qual Fi = 0,5, então fala-se em intervalo
mediano.
Se não existe nenhum valor de xi para o qual Fi = 0,5, então a mediana é
o primeiro valor para o qual Fi > 0,5.
Exemplo 2:
Mediana = 1 (com Fi = 0.7, primeiro valor que ultrapassa 0,5), o que quer
dizer que pelo menos em metade das embalagens apareceu 1 artigo
defeituoso ou menos.
Variáveis contínuas
Em geral, determina-se o valor para o qual Fi = 0,5 através de uma regra
de três simples, atendendo a que as frequências acumuladas variam
uniformemente dentro de cada classe.
Exemplo 3:
Classe mediana (classe a que corresponde frequência acumulada 0,5):
1 : Fi =0,383
1,5 : Fi = 0,765
Cálculo da mediana:
0,765 - 0,383 ------------ 1,5 - 1
0,5 – 0,383 -------------- Me – 1
Me = 1+((0,5x0,17)/0,382)= 1,15
Variáveis discretas
A moda é valor de X para o qual fi é máximo, isto é, é o valor mais
frequente da distribuição.
Exemplo 2:
Mo=0 (com fi=0,4)
Variáveis contínuas
A classe modal é a classe de valores de X para o qual fi/hi é máximo,
isto é, é a classe a que corresponde maior frequência por unidade de
amplitude.
Exemplo 3:
Classe modal: [1-1,5[
Máximo
Variável discreta
O quantil de ordem p é o primeiro valor de x para o qual
Fi>p.
Variável contínua
Calcula-se por uma regra de três simples, como a
25%
mediana. maiores
0.25 − FL inf
Q1 = L inf + xamp. classe Q1
FL sup − FL inf
Q3
0.75 − FL inf 50% mais
Q3 = L inf + xamp. classe Q3 Mediana centrais
FL sup − FL inf
Q1
25%
menores
Manual Técnico de Formando Mínimo17
Manual de Estatística Aplicada
(Q3 − Q 2) − (Q 2 − Q1)
Coeficiente de assimetria de Bowley (g’):
Q3 − Q1
Q1 Q2
Q3
Assimétrica positiva
Q1 Q2 Q3
Assimétrica negativa
Dados não-classificados
( )
2
1 n
s =
2
xi − x
n i =1
Dados classificados
Variáveis discretas
( ) ( )
2
1 n n
2
s =
2
ni xi − x = fi xi − x
n i =1 i =1
Dados classificados
Variáveis contínuas
( ) ( )
2
1 n n
2
s =
2
ni ci − x = fi ci − x
n i =1 i =1
Dispersão absoluta
Dispersão relativa =
Medida de localizaçã o em relação à qual está definida
Coeficiente de variação
s
CV = x100%
x
Outras medidas
Q3 − Q1
Q2
Quadro de dados
Os pontos (pi;qi) pertencem ao quadrado (0,1) por (0,1). A curva que os une é
a curva de Lorenz. Se houver igual distribuição, a frequência das observações
deve ter uma evolução igual à proporção do atributo correspondente, isto é,
pi=qi. Nesse caso, a curva de Lorenz coincide com a diagonal do quadrado,
que é designada de recta de igual repartição. Quanto mais a curva se afastar
da recta, maior é a concentração. A zona entre a diagonal e acurva de Lorenz
designa-se, por isso, de zona de concentração.
n −1
( pi − qi )
G= i =1
n −1
pi
i =1
Exemplo
Considere-se a seguinte amostra de dimensão 200, referente aos lucros
obtidos por empresas de um dado sector industrial, expressas numa
determinada unidade monetária.
Curva de Lorenz
0,8
0,6
0,4
0,2
0
0 0,2 0,4 0,6 0,8 1
n −1
( pi − qi )
0,546(6)
G= i =1
n −1
= = 0,243
2,25
pi
i =1
Tanto pela análise da Curva de Lorenz, como pelo valor do Índice de Gini,
conclui-se que esta amostra apresenta concentração moderada, encontrando-
se os valores razoavelmente repartidos.
Numa situação em que se observam pares de valores (xi; yj), pode ter interesse
estudar as relações porventura existentes entre os dois fenómenos,
nomeadamente relações estatísticas. Não se trata de estudar relações
funcionais (isto é, a medida em que o valor de uma variável é determinado
exactamente pela outra), mas sim de estudar a forma como a variação de uma
variável poderá afectar a variação da outra, em média. (por exemplo, o peso e
a altura normalmente estão relacionados, mas a relação não é determinística).
Duas variáveis ligadas por uma relação estatística dizem-se correlacionadas.
Se as variações ocorrem, em média ou tendencialmente, no mesmo sentido, a
correlação diz-se positiva. Se ocorrem em sentidos opostos, a correlação diz-
se negativa.
Diagrama de Dispersão
190
180
Altura (cm)
170
160
150
50 60 70 80 90
Peso (kg)
y = a + bx
Recta de Regressão
190
y = 0,9016x + 109,36
180
Altura (cm)
170
160
Manual Técnico de Formando 26
150
Manual de Estatística Aplicada
s xy n
r= , s xy = ( xi − x)( y i − y )
s xx s yy i =1
Por vezes, as variáveis vêm expressas numa escala ordinal, isto é, interessa
mais conhecer a ordenação dos valores do que os valores observados
propriamente ditos. Neste caso, em vez do coeficiente de correlação linear,
calcula-se o coeficiente de correlação ordinal:
n
2
di
x y
rs = 1 − 6 i =1
, d i = Ri − Ri
n(n − 1)2
Exemplo
Considere que 10 estudantes foram sujeitos a uma prova de avaliação no início
e no final do curso. No quadro abaixo, encontram-se as ordenações desses 10
estudantes segundo as classificações obtidas em cada uma das provas:
Como não dispomos das classificações dos alunos, mas sim das ordenações
das classificações (do 1º ao 10º classificado), para avaliar a correlação
existente entre as 2 provas é necessário calcular o coeficiente de correlação
ordinal:
n
2
di
6 x(0 + 1 + 1 + 1 + 1 + 0 + 4 + 1 + 16 + 1)
rs = 1 − 6 i =1
= 1− = 0,8424
n(n − 1)2
10 x(100 − 1)
A correlação é positiva e elevada (rs varia entre –1 e 1), isto é, os alunos que
tiveram boa nota na prova inicial tiveram, em média, igualmente boa nota na
prova final.
ESTATÍSTICA DESCRITIVA
Exercícios resolvidos
Exercício 1
Considere a distribuição de 1000 empresas de um sector de actividade
segundo os resultados líquidos (em milhares de u.m.):
Resolução
a)
fi/hi
0,2
0,18
0,16
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
0 10 20 30 40 50 60
X fi hi fi/hi Fi ci
[0; 1[ 10% 1 0.1 10% 0.5
[1; 3[ 25% 2 0.125 35% 2
[3; 5[ 35% 2 0.175 70% 4
[5; 15[ 15% 10 0.015 85% 10
[15; 25[ 10% 10 0.01 95% 20
[25; 50] 5% 25 0.002 100% 37.5
Total 1
n n
1
b) x = ni c i = f i ci = (0,5 x10%) + (2 x 25%) + ... + (37.5 x5%) = 7,325
n i =1 i =1
Fi
0,8
0,6
0,4
0,2
0
0 20 40 60 80 100 120
Classe mediana (classe a que corresponde uma frequência acumulada 0,5): [3; 5[
3 : Fi=0,35
5 : Fi = 0,7
Cálculo da mediana:
0,7 - 0,35 ------------ 5 - 3
0,5 – 0,35 -------------- Me – 3
Me = 3 + ((2x0,15)/0,35) = 3,857
50% das empresas apresentam resultados líquidos inferiores a 3857 u.m.
Cálculo do Q1:
0,35 - 0,1 ------------ 3 - 1
0,25 – 0,1 -------------- Q1 – 1
Q1 = 1 + ((2x0,15)/0,25) = 2,2
25% das empresas apresentam resultados líquidos inferiores a 2200 u.m.
Cálculo do Q3:
0,85 - 0,7 ------------ 15 - 5
0,75 – 0,7 -------------- Q3 – 5
Q3 = 1 + ((10x0,05)/0,15) = 8,333(3)
75% das empresas apresentam resultados líquidos inferiores a 8333 u.m.
e)
(Q3 − Q 2) − (Q 2 − Q1) (8,333 − 3,857) − (3,857 − 2,2)
g' = = = 0,4596 > 0
Q3 − Q1 8,333 − 2,2
f)
X fi ni ci Atributo pi (=Fi) qi
[0; 1[ 10% 1000x10%=100 0.5 100x0.5=50 0.1 0.007
[1; 3[ 25% 250 2 250x2=500 0.35 0.075 50 + 500 + 1400
[3; 5[ 35% 350 4 1400 0.7 0.266 7325
[5; 15[ 15% 150 10 1500 0.85 0.471
[15; 25[ 10% 100 20 2000 0.95 0.744
[25; 50[ 5% 50 37.5 1875 1 1
Total 1 n=1000 7325
Res.Liq.Totais
líquido.
Exercício 2
O quadro abaixo apresenta as vendas e as despesas em publicidade (ambas
em milhares de u.m.) de uma empresa no período de 7 anos:
Ano Vendas Desp. Publicidade
1 10 3
2 13 3
3 18 5
4 19 6
5 25 8
6 30 9
7 35 13
Resolução
Dados não-classificados
n n
1 1
x = xi = 21,429 y = yi = 6,714
n i =1 n i =1
(xi − x ) (yi − y )
n 2 n 2
2 1 2 1
sx = = 69,9408 sy = = 11,0651
n i =1 n i =1
sx 69,9408 sy 11,0651
CV x = = = 0,39 < CV y = = = 0,495
x 21,429 y 6,714
b)
1
s xy [(10 − 21,429)(3 − 6,714) + ... + (35 − 21,429)(13 − 6,714)]
r= = 7 = 0,98
s xx s yy 69,9408 x 11,0651
Existe uma correlação positiva linear forte entre as duas variáveis. Em média,
quando as despesas em publicidade aumentam (diminuem), as vendas
aumentam (diminuem) de forma quase exactamente proporcional.
Recta de Regressão
c)
y = 2,4649x + 4,8782
30
20
Vendas
10
0
3 8 13
Desp. Public.
ESTATÍSTICA DESCRITIVA
Exercícios para resolver
Frequência. Relativa
Remuneração
(%)
[60; 80[ 7.8
[80; 100[ 15.2
[100; 120[ 31.2
[120; 140[ 19.5
[140; 160[ 7.2
[160; 200[ 8.1
[200; 250[ 5.4
[250, 300[ 2.6
[300; 350] 3.0
Total 100
Frequência. Relativa
Peso (em gramas)
(%)
[297; 298[ 8
[298; 299[ 21
[299; 300[ 28
[300; 301[ 15
[301; 302[ 11
[302; 303[ 10
[303; 304[ 5
[304; 305[ 1
[305; 306] 1
Total 100
Ri Gi Ri Gi
125 54 144 61
127 56 147 62
130 57 150 62
131 57 152 63
133 58 154 63
135 58 160 64
140 59 162 65
143 59 165 66
169 66
3. ESTATÍSTICA INDUTIVA
Exemplo
No lançamento de uma moeda, os resultados possíveis são “cara” ou “coroa”.
Em cada lançamento não é possível prever o resultado que se irá obter,
embora ele seja determinado por causas bem definidas.
Exemplo
Em determinada população, 9,8% das pessoas adquirem a revista A, 22,9% a
revista B e 5,1% ambas.
a) Qual a probabilidade de uma pessoa adquirir pelo menos uma das revistas?
b) Qual a probabilidade de uma pessoa adquirir somente a revista A?
Resolução
a) P(A ∪ B) = P(A)+P(B)-P(A ∩ B) = 0,098+0,229-0,051 = 0,276
Após a apresentação desta definição, convém ainda referir que, numa outra
perspectiva, a da chamada teoria frequencista, a probabilidade de um
acontecimento é definida como sendo o valor para o qual tende a frequência
relativa do acontecimento quando o número de repetições da experiência
aumenta.
Exemplo:
Um grupo de pessoas é classificado de acordo com o seu peso e a incidência
de hipertensão. São as seguintes as proporções das várias categorias:
Obeso Normal Magro Total
Hipertenso 0,1 0,08 0,02 0,2
Não Hipertenso 0,15 0,45 0,2 0,8
Total 0,25 0,53 0,22 1,00
a) Qual a probabilidade de uma pessoa escolhida ao acaso ser hipertensa?
Teorema de Bayes
Seja B um acontecimento que se realiza se e só se um dos acontecimentos
mutuamente exclusivos A1, A2,…An se verifica. Aos acontecimentos A1, A2,…An
dá-se o nome de acontecimentos antecedentes. O teorema de Bayes permite
calcular a probabilidade à posteriori de A1, A2,… An, isto é, a probabilidade de
ocorrência de A1, A2,… An calculadas sob a hipótese de que B (acontecimento
consequente) se realizou. De acordo com este teorema:
P ( Ai ).P ( B / Ai )
P ( Ai / B ) = n
P ( Ai ).P ( B / Ai )
i =1
n
P ( Ai ).P ( B / Ai ) designa-se de probabilidade total de ocorrência do
i =1
Exemplo:
Considere duas urnas, A e B. A urna A contém 1 bola branca e 999 bolas
pretas e a urna B contém 1 bola preta e 999 bolas brancas. É escolhida uma
urna ao acaso, da qual é extraída uma bola. Se esta é preta, qual a
probabilidade de que a urna A tenha sido escolhida?
Resolução
Acontecimentos antecedentes
A: escolha da urna A, com probabilidade 50%
B: escolha da urna B, com probabilidade 50%
Acontecimento consequente
C extracção de bola preta, cuja probabilidade depende (está condicionada)
pela urna escolhida
P(C/A) = 999/1000 = 0,999
P(C/B) = 1/1000 = 0,001
P (C ∩ A)
Logo, pelo Teorema de Bayes, vem que P(A/C) =
P ( A) xP (C / A) + P ( B ) xP (C / B )
0,5 x0,999
Substituindo pelos respectivos valores, P(A/C) = = 0,999
0,5 x0,999 + 0,5 x0,001
Exemplo:
Se 20% das bobinas de um determinado cabo eléctrico forem defeituosas,
calcule a probabilidade de, entre as 4 bobines necessárias a um determinado
cliente, escolhidas ao acaso uma ser defeituosa.
Resolução:
X: número de bobines defeituosas no conjunto de 4 bobines necessárias a um
determinado cliente (0,1,2,3,4)
n=4 p=0,2 q=1-p=0,8
P(X=1)=C4p1q4-1 = 4*0,2*0,83 = 0,4096 = 41%
1
(λt )x e −λt
x!
dá a probabilidade de acontecerem x ocorrências no intervalo de tempo [0,t[, e
corresponde à expressão da lei de probabilidade de Poisson : Po(λt)
Exemplo:
O número médio de chamadas telefónicas a uma central, por minuto, é 5. A
central só pode atender um número máximo de 8 chamadas por minuto. Qual a
probabilidade de não serem atendidas todas as chamadas no intervalo de
tempo de 1 minuto?
Resolução:
X: número de chamadas telefónicas atendidas numa central, por minuto
(0,1,2,3,4, 5, 6, 7, 8)
λ=5 p=0,2 q=1-p=0,8
−5 x
8
e 5
P(X ≤ 8) = = 0,932 Logo P(X>8) = 1-0,932 = 0,068
x =0 x!
e − λt
A probabilidade de avariar até ao instante t é dada por
1 − e − λt
Exemplo:
O tempo de funcionamento sem avarias de uma determinada máquina de
produção contínua segue uma lei exponencial negativa com valor esperado
igual a 4,5 horas. Imagine que a máquina é (re)colocada em funcionamento no
instante t=0 horas.
Qual a probabilidade de não ocorrerem avarias antes do instante t=6 horas?
Resolução:
Seja
Logo
1
− *6
P(T ≥ 6) = P(X=0)= e 4,5
= e −1,333 = 0,264
Exemplo:
Considere que o comprimento médio de determinado fio condutor é 120, com
desvio padrão 0,5. Qual a percentagem de fio com comprimento superior a 121?
Resolução:
X: comprimento de determinado fio condutor
Calculando a variável reduzida correspondente, vem:
121 − 120
Z= =2
0,5
Consultando a tabela, verifica-se que o valor da função Z é P(X ≤ 2) = 0,9772.
Logo P(X>2) = 1-0,9772 = 2,28%.
X ∩ χ n2
X −µ σ σ
P (−c ≤ ≤ c) = δ ⇔ P( X − c ≤ µ ≤ X −c )=δ
σ n n
n
Exemplo:
Suponha-se que se tem uma população normal com média µ desconhecida e
desvio - padrão 3, N (µ, 9) e uma amostra de 121 observações. Deduza um
intervalo de confiança para a µ com 95% de confiança.
Resolução:
Para os dados deste exemplo, vem:
n=121
σ =3
c: P (−c ≤ Z ≤ c) = 95% ⇔ D (c) = 95% ⇔ c = 1,96
e logo
X −c
σ
n
;X +c
σ
n
= X−
1,96 x3
11
;X −
1,96 x3
11
[
= X − 0,535; X + 0,535 ]
[ ]
O intervalo X − 0,535; X + 0,535 contém o verdadeiro valor do parâmetro µ
com probabilidade ou confiança de 95%. Conhecida uma estimativa particular
daquele parâmetro, torna-se possível calcular entre que valores seria de
esperar que, com 95% de confiança, variasse µ .
( xi − x ) 2
ou seja, s’= , tal que:
n −1
s' s'
X −c ;X +c
n n
pˆ (1 − pˆ ) pˆ (1 − pˆ )
pˆ − c ; pˆ + c
n n
Exemplo:
Numa cidade pretende-se saber qual a proporção da população favorável a
certa modificação de trânsito. Faz-se um inquérito a 100 pessoas, e 70
declaram-se favoráveis.
Determine um intervalo de confiança a 95% para a proporção de habitantes
dessa cidade favoráveis à modificação de trânsito.
Resolução:
n=100
70
p̂ = = 0,7
100
c: P (−c ≤ Z ≤ c) = 95% ⇔ D (c) = 95% ⇔ c = 1,96
e logo
Exemplo:
Consideremos 3 afirmações de alunos que aguardam a saída das pautas de
um exame de Estatística:
INTERVALOS DE CONFIANÇA
Exercícios
1. Uma máquina fabrica cabos cuja resistência à ruptura (em kg/cm2) é uma
variável com distribuição Normal de média 100 e desvio - padrão 30. Pretende-
se testar uma nova máquina que, segundo indicações do fabricante, produz
cabos com resistência média superior. Para isso, observam-se 100 cabos
fabricados pela nova máquina, que apresentam uma resistência média de 110
kg/cm2. Admita que o novo processo não altera o desvio padrão da resistência
à ruptura dos cabos. Determine um intervalo de confiança a 95% para a
resistência média à ruptura dos cabos produzidos pela nova máquina.
3. Admita-se que a altura dos alunos de uma escola segue distribuição Normal
com variância conhecida e igual a 0,051. Admita-se ainda que foi recolhida
uma amostra aleatória com dimensão n=25 alunos e calculada a respectiva
média amostral, tendo-se obtido o valor de 1,70m. Defina um intervalo que,
com probabilidade 95%, contenha o valor esperado da altura µ.
Exemplo:
Registos efectuados durante vários anos permitiram estabelecer que o nível de
chuvas numa determinada região, em milímetros por ano, segue uma lei
normal N(600;100). Certos cientistas afirmavam poder fazer aumentar o nível
médio µ das chuvas em 50 mm. O seu processo foi posto à prova e anotaram-
se os valores referentes a 9 anos:
510 614 780 512 501 534 603 788 650
Que se pode concluir? Adopte um nível de significância de 5%.
Resolução:
Duas hipóteses se colocavam: ou o processo proposto pelos cientistas não
produzia qualquer efeito, ou este aumentava de facto o nível médio das chuvas
em 50 mm. Estas hipóteses podem formalizar-se do modo seguinte:
H0: µ=600 mm
H1: µ=650 mm
Hipótese nula Ho
Logo, sendo
P(Rejeitar Ho / Ho) = α = 5%, vem que
X −µ c − 600
P ( X > c / µ = 600) = 0,05 ⇔ P ( > ) = 0,05 ⇔
σ 100
n 9
100
⇔ c = 600 + 1,645 x = 654,83(3)
3
RA=(1-α)
RR=α
µ = 600 654,83(3) X
β β
1-β
RA RR
µ = 650 X
RA RA
RA
RR RR
RR RR
α/2 α/2
α α
1−α 1−α 1−α
Exemplo
Suponha que o director de qualidade pretende averiguar se o peso dos pacotes
de arroz produzidos corresponde ao valor assinalado na embalagem. Seja X a
variável que representa o peso de um pacote de arroz. Suponha que
X ∩ N ( µ ;0,012 ) e que se conhece a seguinte amostra:
1,02 0,98 0,97 1,01 0,97 1,02 0,99 0,98 1,00
Será que, para um nível de significância de 5% se pode dizer que o peso médio
corresponde ao peso de 1 kg assinalado na embalagem?
Resolução
Passo 1
Formular as hipóteses:
Ho: µ = 1
H1: µ < 1
Passo 2
A estatística a ser utilizada será a média amostral
Passo 3
A região crítica é formada por todos os valores menores ou iguais a c
Passo 4
Assumir um nível de significância de 5%
Passo 5
Para α=5%, determinar a região de rejeição e aceitação.
Logo, sendo
P(Rejeitar Ho / Ho) = α = 5%, vem que
X −µ c −1
P ( X < c / µ = 1) = 0,05 ⇔ P ( < ) = 0,05 ⇔
σ 0,01
n 9
0,01
⇔ c = 1 − 1,645 x = 0,9945
3
Logo, RC = ]− ∞;0,9945]
Passo 6
Potência do teste se o verdadeiro valor fôr 0,99:
A probabilidade de rejeitar H1 erradamente, isto é, de se cometer um erro de 2ª
espécie, vem então igual a:
P(Rejeitar H1 / H1)=β. Logo a potência do teste será dada por 1- β:
X −µ 0,9945 − 0,99
P ( X ≤ 0,9945 / µ = 0,99) = P ( ≤ ) = P ( N (0,1) ≤ 1,35) = 91,15%
σ 0,01
n 9
Passo 7
1
Calcular a estatística X = xi = 0,9933
9
Passo 8
Tomar a decisão
Como o valor da amostra foi 0,9933 e é menor que o valor crítico 0,9945,
rejeita-se Ho
Ou seja, considera-se que o arroz contido em cada pacote era inferior ao
indicado. No entanto, há o risco de se mandar parar a produção para revisão
do equipamento sem necessidade. Reduzindo a probabilidade de isso ocorrer
de 5% para 1%, vem:
α=1% α=5%
RA: Continuar a
produção
RR: Parar a
produção
-∞ 0 +∞
0,9922 0.9945
A única mudança será no Valor Crítico, que de 0,9945 para 0,9922. Neste
caso, aceitaremos Ho, ou seja, consideraremos que não há qualquer anomalia
na produção.
Seja (x1, x2, …, xn) uma amostra aleatória de uma população com parâmetro p
desconhecido, e considere-se que n é grande (na prática, n>100). Vamos
supor que se pretende testar o valor teórico da percentagem (parâmetro p).
Fixando-se o nível de significância, determina-se a região crítica. Sendo o
estimador a proporção amostral, a variável de decisão é
pˆ − p
Z= ∩ N (0;1)
p (1 − p )
n
Exemplo
Numa cidade, pretende-se saber se metade da população é favorável à
construção de um centro comercial. Faz-se um inquérito a 200 pessoas, e 45%
declaram-se favoráveis. Estes valores contradizem a hipótese?
Resolução
Passo 1
Formular as hipóteses:
Ho: p = 0,5
H1: p < 0,5
Passo 2
A estatística a ser utilizada será a proporção amostral, onde o cuidado deve ser
trabalhar com grandes amostras.
Passo 3
A região crítica é formada por todos os valores menores ou iguais a c
Passo 4
Assumir um nível de significância de 5%
Passo 5
Para α=5%, determinar a região de rejeição e aceitação.
Logo, sendo
P(Rejeitar Ho / Ho) = α = 5%, vem que
pˆ − p c − 0,5
P ( pˆ < c / p = 0,5) = 0,05 ⇔ P ( < ) = 0,05 ⇔
p (1 − p ) 0,5(1 − 0,5)
n 200
0,5(1 − 0,5)
⇔ c = 0,5 − 1,645 x = 0,442 Logo, RC = ]− ∞;0,442]
200
Passo 6
Potência do teste se o verdadeiro valor fôr 0,4:
P(Rejeitar H1 / H1)=β. Logo a potência do teste será dada por 1- β:
pˆ − p 0,442 − 0,4
P ( pˆ ≤ 0,442 / p = 0,4) = P ( ≤ ) = P ( N (0,1) ≤ 1,21) = 88,69%
p (1 − p ) 0,4(1 − 0,4)
n 200
Passo 7
p̂ =0,45
Passo 8
Como o valor amostral 0,45 é maior que o valor crítico 0,442, não se rejeita Ho
RR: Não
construir o α=5%
centro comercial
RA: Continuar a
produção
RR: Parar a
produção
-∞ 0 +∞
Valor amostral: 0,45
0,442
Ou seja, apesar de apenas 45% dos habitantes se terem manifestado a favor
da construção do centro comercial, essa margem não é suficiente para decidir
deixar de o construir.
TESTES DE HIPÓTESES
Exercícios
1. O peso dos pacotes de farinha de 1 kg, produzidos por uma fábrica, é uma
variável normalmente distribuída, com desvio padrão 0,01. Da produção de
determinado dia é retirada uma amostra de 49 pacotes, com peso médio de
0,998 Kg.
Pode-se afirmar, a um nível de significância de 1%, que o peso médio dos
pacotes de farinha nesse dia não está de acordo com o peso indicado?
Uma vez que os componentes são redundantes, basta apenas um para que o
sistema funcione. Considerando um sistema composto por apenas 2
componentes, se cada um dos componentes estiver no seu período de vida útil,
a fiabilidade do sistema (Rs) é dada por:
Nº mínimo de componentes
necessárias ao funcionamento do Probabilidade de o sistema funcionar
sistema
4 p4
3 p4 + 4p3q
2 p + 4p3q + 6p2q2
4
= P(funcionarem as 4) + P (funcionarem 3)
= C 44 p 4 q 4− 4 + C 34 p 3 q 4−3
= p 4 + 4 p3q
1 2 3
Rs = pn
e − λt
A probabilidade de avariar até ao instante t é dada por
1 − e − λt
Sala às
escuras
Falta de Lâmpada
energia estragada
Avaria na Actuação da
rede protecção
Ao definir uma carta de controle para a média, é necessário começar por definir
a norma para µ (µ0) e 2 níveis de controle: os de vigilância “garantida” (limites
cσ
LIC / LSC = µ0 +/-
n
(metodologia baseada na estimação por intervalos estudada atrás)
pˆ (1 − pˆ )
LIC / LSC = p0 +/-
n
(metodologia baseada na estimação por intervalos estudada atrás)
As cartas de controlo são instrumentos fáceis e simples de aplicar pelos
executantes, no sentido de se obter o controlo contínuo do processo. Podem
ser traçadas nos próprios locais de trabalho, dando informações preciosas
sobre os momentos em que são necessárias acções correctivas.
Desde que o processo esteja sob controlo estatístico, as cartas de controlo
permitem prever de forma adequada o comportamento do processo, e melhorar
os processos, com base na informação disponível nas cartas, no sentido de
reduzir a sua variabilidade.
Exemplo
Uma empresa fabrica e comercializa condutores eléctricos cujas condições de
controlo da produção e aceitabilidade a seguir se indicam (relativos à
resistência de um componente em Ω):
- Característica sob controlo: µ
- LIC: 49,8775
- LSC: 50,1225
- n=16
- σ=0,25
- Proceder-se-á à paragem da produção sempre que os limites de controlo
sejam desrespeitados
- Um condutor é considerado não defeituoso se a sua resistência em Ω
estiver compreendida entre [49,530; 50, 470]
Resolução
X: resistência de um componente em Ω
X ∩ N ( µ ; (0,25) 2 )
cσ
a) LIC = µ − = 49,8775
n
cσ
LSC = µ + = 50,1225
n
cσ cσ
Como LIC + LSC = 100 vem que µ − + µ+ = 2 µ = 100
n n
Logo µ=100/2 = 50 Ω
b)
P (parar indevidamente o processo produtivo) =
P( X cair fora dos limites de controlo quando µ=µ0) =
1- P(-1,96 ≤ X ≤ 1,96) =
1 - P(-1,88 ≤ X ≤ 1,88) =
Pode ser mantido um registo das médias amostrais por meio de uma carta
como a representada na figura abaixo, denominada carta de controle de
qualidade.
Média
Amostral Segunda-feira Terça-feira Quarta-feira Quinta-feira Sexta-feira
(cm)
50,1225
• • •
• •
• • •
• •
• • •
50 • • •
• •
• • •
• •
• •
49,8775 •
Cada vez que for calculada uma média amostral, ela será representada por um
ponto particular. Enquanto eles caírem entre o limite inferior, 49,8775 Ω , e o
superior, 50,1225 Ω, o processo está sob controle. Quando um ponto estiver
fora desses limites de controle (como ocorreu com a terceira amostra tomada
na quinta-feira), há a possibilidade de haver alguma anomalia, o que justifica
uma investigação.
Os limites de controlo especificados são denominados de limites de confiança.
A escolha, em cada caso, depende das circunstâncias particulares de cada
processo.
De uma maneira geral, pode dizer-se que dois grupos se comportam de modo
semelhante se as diferenças entre as frequências observadas e as esperadas
em cada categoria forem muito pequenas ou próximas de zero.
Exemplo:
Um pesquisador deseja verificar se há associação entre três cursos de uma
universidade e dependência de drogas. Entrevistou 120 alunos, sendo 25 de
Medicina, 35 de Farmácia e 60 de Biologia, perguntando sobre o uso de
drogas, admitindo somente duas respostas: sim ou não. Após o processamento
dos dados, chegou-se à seguinte tabela de distribuição de frequências:
onde
nij: frequência observada na célula ij
n.j: frequência marginal observada na modalidade j
ni.: frequência marginal observada na modalidade i
n: dimensão da amostra
tabela.
Resolução:
Como pode ser observado, entre os 120 alunos incluídos no estudo há um
número igual (60) que afirma usar e não usar drogas. No entanto, a distribuição
entre os vários cursos não ocorre de forma homogénea.
Os dados são do tipo qualitativo, pois cada aluno entrevistado foi classificado
sob uma determinada categoria. Neste caso, pode usar-se o teste do qui-
quadrado com duas hipóteses de trabalho:
Ho: Não há associação entre tipo de curso e dependência de drogas
H1: Há associação entre tipo de curso e dependência de droga
n i . * n. j
1. Calcular as frequências esperadas eij =
n
Por exemplo, se as duas variáveis fossem independentes, seria de esperar que
o número de estudantes de Medicina a admitir usar drogas fosse de:
ni. * n. j 25 * 60
eij = = = 12,5
n 120
2. As frequências esperadas deverão ser anotadas nas correspondentes
células:
Medicina Farmácia Biologia Total
Usa drogas nij 10 20 30 60
eij 12,5 17,5 30,0
Não usa drogas nij 15 15 30 60
eij 12,5 17,5 30,0
Total 25 35 60 120
(nij − eij ) 2
3. A seguir aplica-se a fórmula = = …=1,7
i j eij
Vem que o obsv.=1,7 é menor do que o valor obtido a partir da tabela, que
é 5,991 (cruzamento da linha 2 com a coluna 0,05). Assim sendo, a hipótese Ho
não pode ser rejeitada, concluindo-se que, no grupo estudado, não há
associação entre as variáveis. Em média, a proporção de alunos que usam ou
não drogas não varia entre os cursos.
Observação:
Caso 20% ou mais das células tenham frequências esperadas menores que 5,
ou haja uma ou mais frequências esperadas com valores menores ou igual a 1,
não se deve usar o teste do . Uma boa alternativa para estes casos é o
agrupamento de linhas e colunas adjacentes, desde que tenha algum sentido
lógico.
Exemplo
A empresa BrasFruta Lda está a instalar-se em Portugal com um produto
inovador, um concentrado de fruta semelhante a um sumo de fruta natural. A
intenção é vender o produto em cafés, esplanadas e bares que passariam a
dispor de uma imitação perfeita de um sumo acabado de fazerva um preço
vantajoso.
Através de um estudo qualitativo com consumidores, conseguiu-se apurar que
existia uma grande sensibilidade ao preço. Apesar de haver uma preferência
generalizada por sumos naturais face a refrigerantes, os consumidores
mostravam-se cépticos em relação à qualidade quando se falav em preços
baixos.
Entendeu-se então levantar a seguinte questão: “a sensibilidade ao preço é
afectada pelo poder de compra dos clientes?” Numa sondagem efectuada a
1973 clientes potenciais, confrontaram-se os inquiridos com três alternativas:
adquirir sumo natural a preço elevado, adquirir sumo natural a preço baixo ou
adquirir refrigerantes. A sondagem revelou que, dos clientes classes A/B/C1,
598 pagariam um preço mais elevado pelo sumo natural, enquanto 212 não
estariam dispostos a gastar tanto. Em relação aos 977 clientes das classes
C2/D/E, 164 só consumiriam sumo natural se o preço fosse baixo e 285
preferiam refrigerante.
observado = 31,141
! " ! #$&%'($ )"*+, -
./0120
0.995 0.975 0.9 0.5 0.1 0.05 0.025 0.01 0.005 0.001
1 0.000 0.001 0.016 0.455 2.706 3.841 5.024 6.635 7.879 10.827
2 0.010 0.051 0.211 1.386 4.605 5.991 7.378 9.210 10.597 13.815
3 0.072 0.216 0.584 2.366 6.251 7.815 9.348 11.345 12.838 16.266
4 0.207 0.484 1.064 3.357 7.779 9.488 11.143 13.277 14.860 18.466
5 0.412 0.831 1.610 4.351 9.236 11.070 12.832 15.086 16.750 20.515
6 0.676 1.237 2.204 5.348 10.645 12.592 14.449 16.812 18.548 22.457
7 0.989 1.690 2.833 6.346 12.017 14.067 16.013 18.475 20.278 24.321
8 1.344 2.180 3.490 7.344 13.362 15.507 17.535 20.090 21.955 26.124
9 1.735 2.700 4.168 8.343 14.684 16.919 19.023 21.666 23.589 27.877
10 2.156 3.247 4.865 9.342 15.987 18.307 20.483 23.209 25.188 29.588
11 2.603 3.816 5.578 10.341 17.275 19.675 21.920 24.725 26.757 31.264
12 3.074 4.404 6.304 11.340 18.549 21.026 23.337 26.217 28.300 32.909
13 3.565 5.009 7.041 12.340 19.812 22.362 24.736 27.688 29.819 34.527
14 4.075 5.629 7.790 13.339 21.064 23.685 26.119 29.141 31.319 36.124
15 4.601 6.262 8.547 14.339 22.307 24.996 27.488 30.578 32.801 37.698
16 5.142 6.908 9.312 15.338 23.542 26.296 28.845 32.000 34.267 39.252
17 5.697 7.564 10.085 16.338 24.769 27.587 30.191 33.409 35.718 40.791
18 6.265 8.231 10.865 17.338 25.989 28.869 31.526 34.805 37.156 42.312
19 6.844 8.907 11.651 18.338 27.204 30.144 32.852 36.191 38.582 43.819
20 7.434 9.591 12.443 19.337 28.412 31.410 34.170 37.566 39.997 45.314
21 8.034 10.283 13.240 20.337 29.615 32.671 35.479 38.932 41.401 46.796
22 8.643 10.982 14.041 21.337 30.813 33.924 36.781 40.289 42.796 48.268
23 9.260 11.689 14.848 22.337 32.007 35.172 38.076 41.638 44.181 49.728
24 9.886 12.401 15.659 23.337 33.196 36.415 39.364 42.980 45.558 51.179
25 10.520 13.120 16.473 24.337 34.382 37.652 40.646 44.314 46.928 52.619
26 11.160 13.844 17.292 25.336 35.563 38.885 41.923 45.642 48.290 54.051
27 11.808 14.573 18.114 26.336 36.741 40.113 43.195 46.963 49.645 55.475
28 12.461 15.308 18.939 27.336 37.916 41.337 44.461 48.278 50.994 56.892
29 13.121 16.047 19.768 28.336 39.087 42.557 45.722 49.588 52.335 58.301
30 13.787 16.791 20.599 29.336 40.256 43.773 46.979 50.892 53.672 59.702
FIABILIDADE
Exercícios
B
A D
C
[983,55; 1016,45]
Formação
Gerente Média Superior
Vol. Negócios
Baixo 44 52
Médio 55 43
Elevado 51 55
Grupo de
Tipo estudantes A B C
de atitude
Atitude negativa 30 30 10
Atitude positiva 10 20 40
BIBLIOGRAFIA