Você está na página 1de 84

UNIVERSIDADE FEDERAL DA BAHIA

INSTITUTO DE MATEMTICA
DEPARTAMENTO DE ESTATSTICA









NOTAS DE AULA
MAT236 MTODOS ESTATSTICOS
2 UNIDADE









Elaborada pelas professoras:
Giovana Silva, Lia Moraes,
Rosana Castro e Rosemeire Fiaccone

Revisada em 2010.2
Monitora: Tatiana Felix da Matta

Revisada em 2010.2 pelas professoras:
Gecynalda e Silvia Regina




1

5. INTRODUO

A Estatstica constitui-se num conjunto de tcnicas e mtodos cientficos que tratam da
coleta, anlise e interpretao de informaes numricas, cujo objetivo principal auxiliar na
tomada de decises ou tirar concluses em situaes de incerteza, a partir de informaes
numricas.
A Teoria Estatstica moderna se divide em dois grandes campos:
Estatstica Descritiva - consiste num conjunto de mtodos que ensinam a reduzir uma
quantidade de dados bastante numerosa por um nmero pequeno de medidas, substitutas e
representantes daquela massa de dados.

Estatstica Indutiva ou Inferncia Estatstica - consiste em inferir (deduzir ou tirar
concluses a respeito das) propriedades de um universo a partir de uma amostra. O processo
de generalizao, que caracterstico do mtodo indutivo, est associado a uma margem de
incerteza. A medida da incerteza tratada mediante tcnicas e mtodos que se fundamentam
na Teoria das Probabilidades.
Na maioria das vezes no podemos investigar o fenmeno que estamos interessados em
estudar em todos os elementos da populao por diversos fatores. Para resolver o problema
devemos trabalhar com um subconjunto da populao, chamado de AMOSTRA. A inferncia
estatstica procura com base nos dados amostrais tirar concluses sobre a populao. Considere o
exemplo abaixo para ilustrar as definies dadas.

O esquema a seguir resume as etapas de um trabalho estatstico:


















Populao

Amostra
Tcnicas de Amostragem
Anlise
Descritiva
Concluses
sobre as
caractersticas
da populao
Informaes contidas
nos dados
Inferncia
Estatstica
2

5.1. Populao e amostra


Populao - Conjunto de indivduos, objetos ou informaes que apresentam pelo
menos uma caracterstica comum, cujo comportamento interessa-nos analisar. Ou, em outras
palavras, conjunto de todas as medidas, observaes relativas ao estudo de determinado
fenmeno.
i) Deseja-se conhecer o consumo total de energia eltrica em MWH nas residncias da
cidade de Salvador no ano de 1998.
Populao ou universo: todas as residncias que estavam ligadas a rede eltrica em Salvador,
em 1998.
Caractersticas: X = consumo anual de energia eltrica em MWH.
ii) Deseja-se saber se nas indstrias situadas no Estado da Bahia, em 1997, existia algum tipo
de controle ambiental.
Populao ou universo: indstrias situadas no Estado da Bahia em1997.
Caracterstica: X = existncia ou no de algum tipo de controle ambiental na indstria.
iii) Estudo sobre a precipitao pluviomtrica na Regio Nordeste no ano 1997.
Populao ou universo: rea referente Regio Nordeste.
Caracterstica: X = precipitao pluviomtrica.

Populaes finitas e infinitas: Quanto ao nmero de elementos, as populaes podem ser
classificadas em finita ou infinita, dependendo do nmero de elementos que a compe.
Exemplos :
i) Populao finita: empresas do Plo Petroqumico de Camaari.
ii) Populao infinita: as presses atmosfricas ocorridas nos diversos pontos do Continente
em determinado momento.

Em geral, como os universos so grandes, investigar todos os elementos populacionais para
determinarmos a caracterstica necessita muito tempo, e/ou o custo elevado, e/ou o processo de
investigao leva a destruio do elemento observado, ou, como no caso de populaes infinitas,
impossvel observar a totalidade da populao. Assim, estudar parte da populao constitui-se
um aspecto fundamental da Estatstica.

Amostra: qualquer subconjunto da populao.

3

5.2. Tipos de variveis

As caractersticas da populao que nos interessa analisar recebem o nome de variveis.
As caractersticas ou variveis podem ser divididas em dois tipos: qualitativas e quantitativas.
Variveis qualitativas - quando o resultado da observao apresentado na forma de
qualidade ou atributo. Exemplos: sexo; estado civil; grau de escolaridade; etc.

Variveis quantitativas - quando o resultado da observao um nmero, decorrente de
um processo de mensurao ou contagem. Exemplos: nmero de filhos; salrio mensal; altura;
peso; idade; tamanho da famlia; etc.

As variveis qualitativas so divididas em dois tipos: nominal, para a qual no existe
nenhuma ordenao nas possveis respostas da referida varivel, e ordinal, para a qual existe uma
ordenao. Por exemplo,

Qualitativa Nominal (sexo, cor dos olhos, tipos de defeitos...)
Ordinal (classe social, grau de instruo, porte de empresa...)

As variveis quantitativas so divididas em: discretas, que assumem valores em um conjunto
finito ou enumervel de nmeros, contnuas, que assumem valores em um intervalo nmeros reais.

Quantitativa Contnua (peso, altura, vida til de bateria...)
Discreta (nmero de filhos, nmero de carros, nmero de defeitos...)

Para resumir as informaes levantadas durante uma pesquisa usaremos a tcnica e a
representao mais apropriada, a depender do tipo de varivel que estamos analisando.


6. APRESENTAO DOS DADOS

Esta seo apresenta alguns procedimentos que podem ser utilizados para organizar e
descrever um conjunto de dados, tanto em uma populao como em uma amostra.
O conjunto de informaes disponveis, aps a tabulao do questionrio ou pesquisa de
campo, denominado de tabela de dados brutos. Apesar de conter muita informao, a tabela
de dados brutos pode no ser prtica para respondermos s questes de interesse.
4


Exemplo: Banco de dados (dados brutos)
Foi realizada uma pesquisa por amostragem junto s indstrias de matrias plsticas nas
principais regies metropolitanas do Brasil e investigou-se as seguintes variveis: constituio
jurdica; porte; nmero total de empregados em 1999; faturamento anual em 1998 e 1999; tempo
de existncia; regio metropolitana; e setor de atividade. As observaes referentes s 106
empresas amostradas encontram-se no arquivo Empresa.xls.
Dado um conjunto de dados o modo de condensao ou apresentao das informaes
pode ser na forma de tabelas de frequncias ou de grficos que facilitam a visualizao do
fenmeno, permitem a comparao com outros elementos ou, ainda, fazer previses.

6.1. Tabela ou Distribuio de Frequncias

O fenmeno considerado uma varivel qualitativa ou quantitativa (discreta ou contnua)
e seus valores observados so descritos considerando o nmero de vezes que ocorreram na tabela
de dados brutos (frequncia).
Algumas definies:

Frequncia simples absoluta( f
i
): o nmero de ocorrncias ou repeties de um valor
individual ou um intervalo de valores.

Frequncia simples relativa(fr
i
): a razo entre a frequncia simples absoluta e o nmero total
de dados (soma de todas as frequncias simples absolutas).

Agora vamos exemplificar distribuies de frequncia para cada tipo de varivel.

a) Varivel qualitativa Nominal ou Ordinal

As variveis qualitativas obtidas em uma pesquisa podem ser organizadas em formas de tabelas
para facilitar a visualizao e anlise dos dados.

Exemplo 6.1: Considere a planilha de dados empresa.xls. Para a varivel porte de empresa
construa uma tabela:


5


Tabela 6.1: Porte das indstrias de matrias plsticas nas principais regies metropolitanas do
Brasil 1999

Porte da Indstria Nmeros de indstrias % (100xfr
i
)


Grande 23 21,7
Mdia 70 66,0
Pequena 13 12,3
Total geral 106 100,0
Fonte: Dados fictcios

b) Varivel Quantitativa Discreta

Exemplo 6.2: Foi observado o nmero de defeitos apresentados por uma mquina industrial
durante o perodo de 30 dias. Os resultados foram os seguintes:
1 1 1 0 1 1
0 2 1 3 1 0
1 1 1 2 0 1
1 1 4 1 0 3
2 2 1 1 0 1

Tabela 6.2: Nmero de defeitos em uma mquina industrial durante o perodo de 30 dias.

Nmero de defeitos Quantidade (fi) % (100xfr
i
)
0 6 20,0
1 17 56,7
2 4 13,3
3 2 6,67
4 1 3,33
Total 30 100,0
Fonte: Dados fictcios

c) Varivel Quantitativa Contnua

Para certo conjunto de dados, vamos adotar a seguinte nomenclatura:
1. Mximo (max): maior valor do conjunto.
2. Mnimo (min): menor valor do conjunto.
3. Amplitude total (AT): a diferena entre o valor mximo e mnimo.
AT = MAX MIN
4. Classe: cada um dos intervalos em que se subdivide a amplitude total.
Representao: k = nmero de classes
5. Limite superior ( l
sup
): a cota superior para os valores da classe.
6. Limite inferior ( l
inf
): a cota inferior para os valores da classe.
6

7. Amplitude do intervalo de classe (h
i
): o comprimento da classe, definida como a diferena
entre o limite superior e inferior.
8. Ponto mdio (X
i
): a mdia entre os limites superior e inferior da classe i.

Determinao do nmero de classes e amplitude do intervalo de classes:
No existem regras gerais, universalmente aceitas, para a determinao do nmero de
classes. Existem, no entanto, algumas regras propostas por diferentes autores, que do ideia
aproximada do nmero de classes em funo do nmero de dados.
Um dos mtodos utilizado chamado de regra de Sturges ou regra do logaritmo. Ele estabelece
que

em que k o nmero de classes e n o nmero de dados. Outra maneira para obter o nmero de
classes

Mesmo conhecendo alguns mtodos para a determinao do k, deve-se saber que a
escolha depender antes da natureza dos dados, da unidade de medida e da experincia e do bom
senso de quem far a organizao dos dados da pesquisa.
Uma vez encontrado o nmero de classes, determina-se a amplitude do intervalo de
classes atravs da frmula:

Exemplo 6.3: (Werkema, vol.2) Os dados abaixo representam o rendimento em porcentagem de
uma reao para fabricao de uma substncia qumica, em 80 bateladas produzidas por uma
indstria. A empresa decidiu construir uma tabela de frequncia para obter um resumo do
conjunto de dados.
70,7 71,8 73,9 74,4 75,9 76,0 76,6 76,7 77,4 78,0 78,1 78,1 78,2
78,4 78,4 79,7 79,8 79,9 79,9 80,1 80,2 80,4 80,4 80,5 80,7 80,7
80,7 80,9 81,3 81,4 81,6 81,8 81,9 82,0 82,0 82,1 82,3 82,5 82,7
82,9 83,0 83,0 83,2 83,4 83,5 83,6 83,6 83,7 83,8 84,3 84,5 84,5
84,5 84,6 85,2 85,5 85,5 85,7 86,4 86,5 86,8 86,8 86,8 87,1 87,1
87,1 87,1 87,3 88,5 90,0
. n k
.
k
AT
h =
, log 3 , 3 1
10
n k +
7


Procedimento para construir uma tabela de distribuio de frequncias com intervalos de classes.
Soluo: Neste caso, n = 80 k = (80)
1/2
9
A amplitude total ser dada por AT = 90 70,7 = 19,3.
Assim, a amplitude de cada intervalo de classe ser: h 2,2
Dessa forma, a tabela de distribuio de frequncias para dados agrupados em classes fica da
seguinte maneira:
Dessa forma, a tabela de distribuio de frequncias para dados agrupados em classes fica da
seguinte maneira:

Tabela 6.3: Rendimento, em porcentagem, de uma reao para fabricao de uma substncia
qumica.

Rendimento Nmero de
substncia (fi)
% (100xfr
i
)
70,5 | 72,7 2 2,50
72,7 | 74,9 2 2,50
74,9 | 77,1 4 5,00
77,1 | 79,3 14 17,50
79,3 | 81,5 19 23,75
81,5 | 83,7 17 21,25
83,7 | 85,9 11 13,75
85,9 | 88,1 9 11,25
88,1 | 90,3 2 2,50
Total 80 100,00
Fonte: Dados fictcios

6.1.1. Tabela de Mltipla Entrada

Em alguns casos necessrio apresentar mais de uma varivel em uma nica tabela.
Quando so utilizadas apenas duas variveis tem-se uma tabela de dupla entrada.
Tabela 6.4: Porte das indstrias de matrias plsticas por regio metropolitana do Brasil 1999.
Regio
Metropolitana

Porte da empresa

Total

Grande Mdia Pequena

Belo Horizonte 2 9 3 14
Curitiba 1 4 0 5
Porto Alegre 0 7 1 8
Rio de Janeiro 3 13 2 18
Salvador 8 18 4 30
So Paulo 9 19 3 31
Total 23 70 13 106
Fonte: Dados fictcios.
8

6.2. Representao Grfica

Sero apresentados alguns tipos de grfico: setor ou pizza, barra, colunas, Pareto e
histograma.

1) Grfico em barras

Utilizado para representao de variveis qualitativas e quantitativas discretas

Exemplo 6.4:
Tabela 6.5: Tipo de fraude nos cartes de crdito da Mastercard Internacional no
Brasil 2000.
Tipo de fraude Quantidade
Carto roubado 243
Carto falsificado 85
Pedido por correio/telefone 52
Outros 46
Fonte: Triola, Mario F.

Figura 6.1: Tipo de fraude nos cartes de crdito da Mastercard Internacional no Brasil 2000.


Fonte: Triola, Mario F.


9

2) Grfico em colunas

Utilizado para representao de variveis qualitativas e quantitativas discretas.

Exemplo 6.5:
Tabela 6.6: Nmero de crianas de baixa renda, segundo o bairro de residncia, que
participaram do ensino de msica na Escola XYZ, em Salvador 1998.

Bairro Nmero de crianas
Paripe 11
Periperi 39
Plataforma 45
Praia Grande 25
Total 120
Fonte: Escola de Msica XYZ, Salvador.


Figura 6.2: Nmero de crianas de baixa renda, segundo o bairro de residncia, que
participaram do ensino de msica na Escola XYZ, em Salvador 2008.

Fonte: Escola de Msica XYZ, Salvador

Exemplo 6.6: Tabela 2.7: Estudantes da Universidade XYZ Segundo rea de estudo e ano de
ingresso.

rea

Ano

Total

1998 1999 2000

Exatas 120 156 68 344
Humanas 72 85 112 269
Biolgicas 169 145 73 387
Fonte: Dados Fictcios
10


Figura 6.3: Estudantes da Universidade XYZ Segundo rea de estudo e ano de ingresso.


Fonte: Dados Fictcios

Exemplo 6.7: Grfico para o exemplo 6.2
Figura 6.4: Nmero de defeitos em uma mquina industrial durante o perodo de 30 dias.




3) Grfico de Pareto

O grfico de Pareto composto por colunas e por uma curva representando a percentagem
acumulada. As barras esto disponveis em ordem decrescente, tornando evidente a priorizao
de temas. Este grfico muito utilizado na rea de Controle de Qualidade.

11

Exemplo 6.8: (Werkema, vol. 2): Uma indstria fabricante de lentes tem como objetivo resolver
o seguinte problema: aumento do nmero de lentes defeituosas produzidas pela empresa a partir
de fevereiro de 1995. A empresa classificou uma amostra de lentes fabricadas durante uma
semana de produo de acordo com os tipos de defeitos detectados. O resultado est na tabela a
seguir:

Tabela 6.8: Defeitos encontrados em uma amostra de lentes fabricadas durante uma semana de
produo de uma indstria em 1200 lentes inspecionada.
Tipo de Defeito Quantidade
Arranho 12
Trinca 41
Revestimento Inadequado 55
Muito Fina ou Muito Grossa 11
No Acabada 05
Outros 03
Total 127
Fonte: Dados fictcios

Uma maneira de representarmos graficamente estes dados atravs do grfico de Pareto, para
que seja possvel identificar com mais facilidade o defeito que apareceu com maior frequncia.
Para construirmos o grfico de Pareto necessrio obtermos a planilha de dados mostrada na
tabela a seguir.

Tabela 6.9: Planilha de dados para construo de grfico de Pareto.

Tipo de defeito Quantidade de
defeito
Total
acumulado
Percentagem do
total geral (%)
Percentagem
acumulada
Revest. Inadeq. 55 55 43,3 43,3
Trinca 41 96 32,3 75,6
Arranho 12 108 9,4 85,0
Fina ou Grosa 11 119 8,7 93,7
No- Acabada 5 124 3,9 97,6
Outros 3 127 2,4 100,0
Total 127 / 100 /
Fonte: Dados fictcios

Na Tabela 6.9 os tipos de defeitos foram listados em ordem decrescente de quantidade na coluna
1, a quantidade de defeitos aparece na coluna 2 e o total acumulado est na coluna 3. Nas colunas
4 e 5 esto as percentagens totais e as percentagens acumuladas respectivamente. As barras do
grfico de Pareto foram construdas a partir dos dados da coluna 2 e a curva acumulada conhecida
como curva de Pareto, foi traada a partir dos nmeros da coluna 5.

12

O
u
tro
s
N
o
A
c
a
b
a
d
a
M
u
ito
F
in
a
o
u
M
u
ito
G
ro
s
s
a
A
rra
n
h
o
T
rin
c
a
R
e
v
e
s
tim
e
n
to
In
a
d
e
q
u
a
d
o
3 5 11 12 41 55
2.4 3.9 8.7 9.4 32.3 43.3
100.0 97.6 93.7 85.0 75.6 43.3
100
50
0
100
80
60
40
20
0
Defeitos
Quantidade
Percentagem
Perc. Acumulada
A
c
u
m
u
l
a
d
a
P
e
r
c
e
n
t
a
g
e
m
C
o
n
t
r
o
l
e
Grfico de Pareto para os defeitos de lentes

Observando a Figura 6.5, foi imediato para indstria perceber que os dois tipos de defeitos
mais frequentes, Revestimento inadequado e trinca, representavam 75,6% dos defeitos
detectados nas lentes produzidas pela empresa. Portanto, Revestimento inadequado e trinca
foram considerados os defeitos mais importantes, que devem ser eliminados em primeiro lugar
esse tipo de defeito chamado de poucos defeitos vitais, enquanto que os outros representam
apenas os muitos defeitos triviais, pois representam a minoria das observaes.

4) Grfico em linhas ou curvas
Utilizado para descrever sries temporais que so dados observados em instantes ordenados do
tempo.

Exemplo 6.9:
Tabela 6.10: ndice de Produto Industrial Brasil 1979.

Meses IPI
Janeiro 18.633
Fevereiro 17.497
Maro 19.470
Abril 18.884
Maio 20.308
Junho 20.146
Julho 20.258
Agosto 21.614
Setembro 19.717
Outubro 22.133
Novembro 20.503
Dezembro 18.800
Fonte: FIBGE
Figura 6.5:
13

Figura 6.6: ndice de Produto Industrial Brasil 1979.


Fonte: FIBGE

5) Grfico em setores

Exemplo 6.10:
Tabela 2.11: Percentual de funcionrios da Companhia Milsa segundo regio de procedncia

Procedncia Percentual
Interior 33,30
Capital 30,60
Outro 36,10
Fonte: Bussab e Morettin (2002)

Figura 6.7: Percentual de funcionrios da Companhia Milsa segundo regio de procedncia.


Fonte: Bussab e Morettin (2002)


14

6) Histograma

Quando os dados esto agrupados em intervalos de classes, o grfico mais apropriado
o histograma. No caso de classes de mesma amplitude, construdo um retngulo para cada
classe, com base igual amplitude do intervalo classe e altura proporcional a frequncia da
classe. Neste caso,
altura ~ frequncia (absoluta ou relativa)

Quando temos classes com amplitudes diferentes, devemos construir um retngulo para
cada classe, com base igual amplitude do intervalo de classe e altura dada por:


Note que, neste caso, a rea do retngulo igual a frequncia da classe. A altura d definida acima
chamada de densidade de frequncia.

Exemplo 6.11: Histograma para a distribuio de frequncia do exemplo 6.3.

Figura 6.8: Rendimento, em porcentagem, de uma Reao para Produo de uma Substncia
Qumica.















Fonte: Dados fictcios


Exerccio: As especificaes estabelecem um limite inferior para o rendimento igual a 78%. A
partir de um histograma, voc acredita que o processo est satisfazendo a especificao?
Justifique.


classe da amplitude
frequncia
d

=
15

6.2.1. Cuidados na representao grfica


Fonte: Dados fictcios

H vrios problemas com este grfico. Ele impressiona mais pela tecnologia utilizada do
que pela informao que passa para o leitor. Os dados no so tridimensionais. As grades do
fundo mais o efeito tridimensional distraem a viso e dificultam comparaes entre trimestre e
regies. Uma forma de melhorar o grfico dar-lhe a dimenso correta. As linhas de grade.
No utilize faixas horizontais, verticais ou similares, que s atrapalham a viso do leitor. Faa
mais de um grfico at encontrar um que seja informativo, claro, e que no possua objetos
desnecessrios.




16

No apresente grficos suprfluos. Se retirarmos a figura abaixo, toda a informao
poder ser transmitida textualmente, com uma simples frase: 20% das respostas foram
positivas e 80% negativas.



Observe que o efeito 3-D dificulta o julgamento das porcentagens relativas de cada
categoria da varivel. A retirada do efeito 3-D ajudar o leitor a julgar melhor as propores
relativas observadas em cada amostra.


7. MEDIDAS DE POSIO CENTRAL

As distribuies de frequncias e os grficos fornecem mais informaes sobre o
comportamento de uma varivel do que a prpria srie original de dados. Mas, queremos
resumir ainda mais esses dados. Com esse objetivo usaremos mtodos da Estatstica Descritiva
que ensinam a reduzir a informao contida em uma grande quantidade de dados a um
pequeno nmero de medidas, substitutas e representantes daquela massa de dados. Vamos
agora estudar as medidas da Estatstica Descritiva, agrupadas em medidas de posio (ou de
locao ou de localizao) central: mdia, mediana e moda.

Exemplo de aplicao: (Azulejos)
Uma fbrica de azulejos nos ltimos meses passou a receber reclamaes de seus clientes.
A maioria das reclamaes era relativa aos seguintes problemas:
17

Os azulejos, ao serem manuseados, quebravam-se facilmente.
O assentamento dos azulejos, quando era utilizada argamassa, no produzia um resultado
uniforme em relao ao nvel da parede.

Em vista dessa situao, a indstria decidiu formar um grupo de trabalho para resolver
esses problemas. Na etapa de identificao do problema, o grupo de trabalho concluiu que a
produo de azulejos com espessura no adequada poderia estar provocando as reclamaes
dos clientes. Esta concluso resultou do conhecimento dos seguintes fatos:
Azulejos com espessura muito fina quebram-se facilmente.
A falta de uniformidade na espessura dos azulejos provoca dificuldades durante o seu
assentamento.
Para avaliar se estavam ocorrendo problemas com a espessura dos azulejos produzidos, o
grupo decidiu retirar uma amostra aleatria dos azulejos fabricados pela empresa, medir a
espessura destes azulejos e comparar os resultados obtidos com as especificaes. Como a
empresa empregava duas turmas de trabalho (turmas A e B) e poderia haver diferena na
qualidade dos azulejos produzidos por cada turma, foi utilizada uma estratificao, sendo ento
retirada uma amostra de 80 azulejos produzidos pela turma A e 80 fabricados pela turma B. Os
dados coletados, j ordenados, esto na Tabela 7.1.
Ao observarmos o conjunto de dados j fazemos alguma ideia sobre o comportamento das
duas turmas de trabalho, em termos da espessura dos azulejos que produzem. Entretanto,
claramente necessitamos calcular algumas medidas que resumam a informao contida nos
dados. Vamos comear tentando responder: Qual o valor tpico da turma A? E da turma B? A
primeira ideia para obter um valor tpico a de calcular uma mdia.

Tabela 7.1: Medidas da Espessura (mm) de 160 Azulejos do Estoque (dados ordenados).

TURMA A TURMA B
2,3 3,1 3,8 4,5 4,9 5,6 5,8 6,2
2,4 3,1 3,9 4,5 4,9 5,6 5,8 6,2
2,4 3,3 3,9 4,5 5,0 5,6 5,8 6,3
2,4 3,3 3,9 4,5 5,1 5,7 5,8 6,3
2,6 3,4 4,0 4,5 5,1 5,7 5,9 6,4
2,7 3,4 4,0 4,6 5,1 5,7 5,9 6,4
2,7 3,5 4,0 4,6 5,3 5,7 5,9 6,4
2,8 3,5 4,0 4,7 5,3 5,7 5,9 6,4
2,8 3,5 4,0 4,7 5,3 5,7 5,9 6,4
2,8 3,5 4,1 4,9 5,3 5,7 5,9 6,5
2,9 3,5 4,1 4,9 5,3 5,7 6,0 6,5
18

2,9 3,5 4,1 5,1 5,3 5,7 6,0 6,5
2,9 3,6 4,2 5,2 5,3 5,7 6,0 6,5
3,0 3,6 4,2 5,4 5,4 5,7 6,1 6,6
3,0 3,7 4,2 5,4 5,4 5,7 6,1 6,7
3,0 3,7 4,3 5,5 5,4 5,7 6,1 6,7
3,1 3,7 4,3 5,6 5,4 5,8 6,1 6,7
3,1 3,7 4,3 5,6 5,4 5,8 6,1 6,8
3,1 3,8 4,4 5,7 5,5 5,8 6,2 6,9
3,1 3,8 4,4 5,9 5,5 5,8 6,2 7,0
Fonte: Dados fictcios

7.1. Mdia aritmtica simples

A mdia aritmtica simples de n nmeros
n
x x x ,..., ,
2 1
um valor x tal que

x n x ... x x x ... x x
n
= + + + = + + +
2 1

logo temos que,
n
x
n
x x x
x
n
i
i
n

=
=
+ + +
=
1 2 1
...


Podemos pensar na mdia aritmtica como o valor tpico do conjunto de dados e considerada
a principal medida de posio central. Algumas das razes que fazem com que seja a medida de
posio mais recomendada so:
definida rigorosamente e pode ser interpretada sem ambigidades;
Leva em considerao todas as observaes efetuadas;
Calcula-se com facilidade.
Entretanto, esta medida apresenta alguns inconvenientes como o fato de ser muito sensvel a
valores extremos, isto , a valores excessivamente pequenos ou excessivamente grandes, em
relao s demais observaes do conjunto de dados.

Exemplo 7.1 Estamos interessados em conhecer o salrio mdio mensal de certa empresa com
cinco funcionrios. Temos o seguinte conjunto de salrios mensais, em reais: 123 - 145 - 210 -
225 - 2.500. Podemos observar que quatro dos cinco salrios apresentam valores entre 123 e 225
reais, porm a mdia salarial de 640,6 reais bastante distinta desse conjunto pela influncia do
salrio de 2.500 que puxou o valor mdio para cima.
Em algumas situaes, os nmeros que queremos sintetizar tm graus de importncia
diferentes. Utiliza-se ento uma mdia ponderada. Vamos ver a seguir a definio da mdia
aritmtica ponderada.

19

A mdia aritmtica ponderada dos nmeros
n
x x x ,..., ,
2 1
, n com pesos p
1
, p
2
, ..., p
n

definida por

=
=
=
n
i
i
n
i
i i
p
p
.p x
x
1
1
, ou simplesmente por

=
p
x.p
x p .

Obs: Quando os dados esto agrupados por frequncias (absolutas ou relativas) os ponderadores
sero as frequncias.

Exemplo 7.2: Em um grupo de pessoas, 70% so adultos e 30% so crianas. O peso mdio dos
adultos 70 kg e o peso mdio das crianas 40 kg. Qual o peso mdio do grupo?
Soluo: a mdia aritmtica ponderada dos dois subgrupos. A resposta
kg 61
3 0 7 0
3 0 40 7 0 70
=
+
+
=
, ,
, ,
x
p


Exemplo de aplicao: (Azulejos)
Para responder questo do valor tpico da espessura dos azulejos produzidos pelas Turmas A e
B calculamos ento as mdias aritmticas, pois o desejado obter a espessura mdia M tal que se
a espessura de cada azulejo fosse sempre igual a M a soma total seria a mesma.

Resumindo em uma tabela as mdias aritmticas (em mm), temos:
Tabela 7.2: Valor da mdia aritmtica por turma para dados da espessura dos azulejos

Turma Mdia aritmtica
A 3,8575
B 5,8725

Observando as mdias aritmticas das amostras observadas, parece existir diferena, em termos
mdios, entre as espessuras dos azulejos que esto sendo continuamente produzidos pelas turmas
A e B.

7.2. Moda

A moda outra medida de locao, mas diferentemente da mdia, no utiliza em seu clculo
todos os valores do conjunto de dados analisado.

20

A moda o valor que ocorre com maior frequncia no conjunto de dados.
Notao: Mo = moda
Exemplo 7.3:
a) X = {2, 3, 3, 5, 5, 5, 6, 7} Mo = 5
b) Y = {10, 12, 17, 21, 32} Mo = no existe, a distribuio amodal.
c) Z = {2, 2, 5, 5, 7, 7} Mo = no existe
d) W = {10, 12, 12, 12, 13, 13, 15, 18, 18, 18, 21} A distribuio apresenta dois valores
modais: 12 e 18 (distribuio bimodal).
Obs: A moda a nica medida de posio central que pode ser usada em tabelas com
variveis qualitativas.
Quando o conjunto de dados apresenta mais de uma moda damos o nome de distribuio
plurimodal.

A moda uma medida mais adequada ao caso de dados agrupados. Quando a distribuio de
frequncias est organizada por classes de valores, devemos identificar a classe modal (classe em
que observamos a maior frequncia). O ponto mdio da classe modal ser o valor estimado para a
moda que denominada moda bruta.


2
i
nf i
h
l Mo + =
em que: l
inf
= limite inferior da classe modal;
h
i
= amplitude da classe modal;
No caso de dados no agrupados, a moda nem sempre tem utilidade com elemento representativo
ou sintetizador do conjunto. Consideremos por exemplo o seguinte conjunto de dados:
Tabela 7.3: Quantidade de operrios das empresas de telemarketing na cidade de Salvador - 2010.
Quantidade de operrios Quantidade de empresas
7 1
11 1
15 1
17 2
19 1
21 1
25 3
Fonte: Dados fictcios
21


De acordo com a definio a moda 25, entretanto este valor no representativo do
conjunto de dados e, portanto a moda no uma boa medida de locao neste caso.

Exemplo de aplicao: (Azulejos)

Para obtermos a moda bruta necessrio construir uma distribuio de frequncia.
(nmero de classes definido arbitrariamente)
Tabela 7.4: Espessura (em mm) dos azulejos fabricados pela Turma A

Espessura Nmero de azulejos
2,25 2,75 7
2,75 3,25 15
3,25 3,75 16
3,75 4,25 17
4,25 4,75 14
4,75 5,25 4
5,25 5,75 6
5,75 6,25 1
Fonte: Dados fictcios
Tabela 7.5: Espessura (em mm) dos azulejos fabricados pela Turma B.

Espessura Nmero de azulejos
4,75 5,25 6
5,25 5,75 30
5,75 6,25 26
6,25 6,75 15
6,75 7,25 3
Fonte: Dados fictcios

Resumindo em uma tabela os valores modais (em mm), temos:

Tabela 7.6: Valor da moda por turma para dados da espessura dos azulejos.

Turma Moda
A 4,0
B 5,5

7.3. Mediana
Definio: Chamamos de mediana o elemento do conjunto que ocupa a posio central na
distribuio ordenada (crescente ou decrescente). Isto , divide a distribuio em duas partes
22

iguais de modo que 50% dos valores observados so inferiores ao valor mediano e 50%
superiores a esse valor. A notao usada ser Md = mediana.

Notao: X
(i)
= elemento que ocupa a i-sima posio da srie ordenada.
n =nmero de elementos da srie.

1)
2
X X
Md
1
2
n
2
n
|

\
|
+ |

\
|
+
= , n par

2)
|
|

\
| +
=
2
1 n
X Md , n mpar

A mediana uma medida de posio resistente, pois pouco afetada por mudanas de pequena
poro dos dados, ao contrrio da mdia aritmtica que sensvel a valores atpicos.

Exemplo 7.4: Comparao entre a mdia aritmtica e a mediana para os conjuntos de salrios
(em reais) dados.
X = { 200, 250, 250, 300, 450, 460, 510} X = 345,7; Md
X
= 300.
Y = { 200, 250, 250, 300, 450, 460, 2.300} Y = 601,0; Md
Y
= 300.
Podemos observar que no caso do conjunto Y a mdia no sintetiza adequadamente o conjunto
de dados, pois apenas um valor superior a ela.

Exemplo de aplicao: (Azulejos)
As mesmas comparaes feitas para a mdia podem ser feitas para a mediana para o nosso
conjunto de dados. Resumindo em uma mesma tabela as mdias e as medianas (em mm), temos:
Tabela 7.7: Medidas- resumo por turma para dados da espessura dos azulejos
Turma Mdia aritmtica Mediana
A 3,857 3,8
B 5,865 5,8
Fonte: Dados fictcios
Para ambas as turmas, a mdia aritmtica e a mediana apresentam valores semelhantes. A
mediana indica que 50% dos azulejos produzidos pela turma A esto com espessura inferior a
3,8mm e 50% dos produzidos pela turma B apresentam espessuras superior a 5,8mm.

23

7.4. Indicaes para utilizao das trs principais medidas de posio
central

Vimos que as trs principais medidas de posio - a mdia aritmtica, a mediana e a moda -
tm o mesmo objetivo: determinar um valor tpico do conjunto de dados. Surge, ento, a seguinte
questo: quando deveremos utilizar cada uma dessas medidas?

De maneira geral, a moda a menos empregada e a mais difcil de calcular satisfatoriamente. No
entanto, adequada para caracterizar situaes onde estejam em causa os casos ou valores mais
usuais. Por exemplo, em estudos de mercado, o empresrio pode estar interessado nas medidas
que mais se vendem.

Correntemente a escolha feita entre a mdia e a mediana, dependendo da natureza do problema
a estudar e de outros fatores, muitos dos quais no podem abordar-se a nvel elementar.

A mediana tem vantagem: mais resistente do que a mdia, isto , a alterao drstica de um s
valor do conjunto de dados reflete-se substancialmente no valor da mdia e pode no refletir-se,
ou refletir-se muito pouco, no valor da mediana.

A mdia tem vantagens: quando a curva de frequncias tem forma de sino, mais ou menos
simtrica, com abas decaindo rapidamente (valores errticos muito improvveis), a mdia mais
eficiente do que a mediana; a mdia uma funo linear das observaes, propriedade que
tambm pode pesar na sua adoo.

Por fim, uma vantagem da mediana e da moda em relao mdia aritmtica que esta ltima
no pode ser calculada quando ocorrem classes de frequncias com limites indefinidos (classes
abertas). Entretanto, nesta situao, a moda e a mediana podem ser encontradas sem qualquer
dificuldade.

8. SEPARATRIZES

As separatrizes so medidas que permitem calcularmos valores da varivel que dividem ou
separam a distribuio em partes iguais. Temos trs tipos de separatrizes, tambm chamadas de
quantis: os quartis; os decis; e os percentis.
24

As medidas de posio denominadas quartis, decis e percentis tm construo anloga a da
mediana. Enquanto a mediana separa a distribuio em duas partes iguais, a caracterstica
principal de cada uma dessas medidas :
Quartis: dividem a distribuio em quatro partes iguais;
Decis: dividem em dez partes iguais;
Percentis: dividem em cem partes iguais.
Notaes:
Q
i
= quartil de ordem i;
D
i

= decil de ordem i;
P
i

= percentil de ordem i

Observaes:
i) Temos a seguinte igualdade: C
50
= D
5
= Q
2
= Md
ii) O clculo para os decis e os percentis anlogo ao dos quartis.
iii) O intervalo interquartil ou interquartlico, definido por (Q
1
; Q
3
), contm 50% do total de
observaes localizadas mais ao centro da distribuio.
iv) Podemos tambm ter idia sobre a forma da distribuio utilizando apenas seus quartis:

Se (Md - Q
1
) < (Q
3
- Md) => assimetria direita ou positiva;
Se (Md - Q
1
) > (Q
3
- Md) => assimetria esquerda ou negativa;
Se (Md - Q
1
) = (Q
3
- Md) => distribuio simtrica;
As Figuras a seguir ilustram uma distribuio simtrica e distribuies assimtricas,
respectivamente.
Figura 7.1: Distribuio Simtrica: X
=Md=Mo

Fonte: Bussab e Morettin (2002)
25

Figura 7.2: Distribuies Assimtricas:


Mo Md
X

X
Md Mo


Fonte: Bussab e Morettin (2002)

Clculo dos percentis
A posio do percentil de ordem i no conjunto de dados ordenado ser definida como:
100
n
. i Pos
i
= , em que Pos
i
= posio do percentil de ordem i; e n = nmero de elementos da srie
1) Se Pos
i
= valor inteiro, ento o percentil definido como a mdia dos valores que ocupam a
posio Pos
i
e Pos
i
+ 1.
2) Se Pos
i
= valor no inteiro, ento o percentil definido como o valor que ocupa a posio u
+ 1 , em que u = inteiro mais prximo que seja menor que Pos
i
.
Exemplo 8.1: Calcule Q
1
para o seguinte conjunto de dados:
21 23 18 25 24 28
Resoluo: Lembrar que Q
1
corresponde ao percentil de ordem 25.
1. Ordenar os valores: 18 21 23 24 25 28
2. Pos
25
= 25 (6/100) = 1,5 (valor no inteiro) u = 1 e portanto o Q
1
o valor que ocupa a 2


posio na srie ordenada. Portanto, Q
1
= 21

Exemplo de aplicao: (Azulejos)
Verificar por meio dos quartis o tipo de assimetria para os dados de espessura de azulejos.
Medidas Turma A Turma B
Q
1
3,10 5,55
Md 3,80 5,80
Q
3
4,45 6,20
Md Q
1
0,70 0,25
Q
3
Md 0,65 0,40
Assimetria

Negativa Positiva


9. MEDIDAS DE DISPERSO

Exemplo 9.1: Duas mquinas foram reguladas para encher cada pacote de caf com 500g. Com o
objetivo de verificar a regulagem dessas mquinas, um fiscal de rea anotou o peso dos 5
26

primeiros pacotes produzidos por cada mquina e calculou o peso mdio dos pacotes. Os
resultados encontram-se abaixo:

Mquinas
Peso dos pacotes Peso mdio

1 2 3 4 5
A 500 497 498 500 495 498
B 490 500 505 510 495 500

Observando apenas o peso mdio dos pacotes, poderamos concluir que a mquina B
apresentou melhor desempenho do que A. Porm, quando observamos cada informao
separadamente, verificamos que o peso dos pacotes vindos da mquina A variou entre 495 e
500g, enquanto que o da B variou entre 490 e 510g. Isto quer dizer que a mquina A enche os
pacotes mais uniformemente que a mquina B.

As medidas de disperso servem para avaliar o grau de variabilidade dos valores de um
conjunto de dados. Estas medidas permitem estabelecer comparaes entre fenmenos de mesma
natureza ou de natureza distinta e, em geral, essa variabilidade observada em torno de uma
medida de posio central. Essas medidas podem ser absolutas ou relativas.

9.1. Amplitude total ( medida de disperso absoluta)

Definio: A amplitude total de um conjunto de nmeros a diferena entre os valores
extremos do conjunto.
Notao: AT = Amplitude Total
Exemplo 9.2: Calcular as amplitudes totais do exemplo anterior e identificar qual a mquina que
apresentou a menor disperso no peso dos pacotes de caf.
Resoluo: A : AT = 500 - 495 = 5 gramas;
B: AT = 510 - 490 = 20 gramas;
A mquina A apresentou uma menor variabilidade nos pesos dos pacotes de caf.
Observaes:
1) A amplitude total a medida mais simples de disperso.
2) A desvantagem desta medida de disperso que leva em conta apenas os valores mnimo e
mximo do conjunto. Se ocorrer qualquer variao no interior do conjunto de dados, a
amplitude total no nos d qualquer indicao dessa mudana.
3) A amplitude total tambm sofre a influncia de um valor "atpico" na distribuio (um valor
muito elevado ou muito baixo em relao ao conjunto).
27

Exemplo de aplicao: (Azulejos)
Vamos observar no nosso conjunto de dados as mdias aritmticas e as amplitudes totais (ranges)
para termos uma primeira ideia sobre a variabilidade das espessuras dos azulejos para as
diferentes turmas.
Tabela 9.1: Medidas-resumo para dados da espessura dos azulejos.

Turma Mdia aritmtica Amplitude total
A 3,8575 3,6
B 5,8725 2,1

Podemos observar que a amplitude total para a turma B menor que a da turma A.

9.2. Desvio-padro amostral (medida de disperso absoluta)

Vejamos a seguinte ilustrao: Cinco pessoas so levadas a um laboratrio para medir suas
respectivas taxas de colesterol. O laboratrio sugere utilizar dois mtodos diferentes de medio
para efeitos de controle. Os resultados so dados abaixo:
X =200

* * * * *
177 193 195 209 226

* * * * *
192 196 201204 207


Pode-se observar que em mdia os mtodos de medio do colesterol so iguais porm, se
analisarmos melhor os dados percebemos que no mtodo A os valores esto mais afastados da
mdia do que no mtodo B. Este fato, nos leva a pensar numa medida que possa avaliar a
disperso dos dados em torno de sua mdia. Tal medida conhecida como desvio padro e
veremos sua definio a seguir.
Notao: s = desvio-padro

Definio: Sejam x x x
n 1 2
, ,..., , n valores que a varivel X assume. O desvio padro amostral
definido como:
( )
1
1
2

=
n
x x
S
n
i
i

Exerccio: Calcule o desvio padro para as taxas de colesterol: mtodo A e mtodo B.
S
A
= 18,43909 S
B
= 6,041523
Exemplo de aplicao: (Azulejos)
Mtodo A
Mtodo B
28

Da mesma maneira que trabalhamos com a amplitude total, vamos observar no nosso
conjunto de dados as mdias aritmticas e os desvios padres (S) para termos uma primeira idia
sobre a variabilidade nas espessuras dos azulejos produzidos pelas turmas A e B.
Tabela 9.2: Medidas-Resumo para dados da espessura dos azulejos.
Turma Mdia Aritmtica Desvio Padro
A 3,8575 0,8706
B 5,8725 0,4802

Podemos observar que a Turma B apresenta maior mdia que a da turma A e alm disso a sua
variabilidade menor. Parece que esta turma atinge mais os objetivos, ou seja, uniformidade na
espessura (menor disperso) e azulejos com espessura mais grossa.

9.3. Varincia ( medida de disperso absoluta)

Definio: A varincia o quadrado do desvio padro.
Notao: s
2
Observaes:
i) O desvio padro tem a unidade de medida igual a unidade de medida original da varivel,
enquanto que a varincia apresentar a unidade de medida elevada ao quadrado.
ii) Ao trabalharmos com os dados de toda a populao calculamos a varincia e o desvio padro
populacional dividindo por N (tamanho da populao) e no por N-1.

9.4. Coeficiente de variao de pearson (medida de disperso relativa)

Quando se deseja comparar a variabilidade de duas ou mais distribuies, mesmo quando essas se
referem a diferentes fenmenos e sejam expressas em unidades de medida distintas, podemos
utilizar o coeficiente de variao de Pearson (medida de disperso relativa).
Notao: CV = coeficiente de variao de Pearson ou apenas coeficiente de variao.

Definio: O coeficiente de variao para um conjunto de n observaes definido como o
quociente entre o desvio padro e a mdia aritmtica da distribuio.
CV =
S
X
,
29

em que S = desvio padro amostral. Observe que esta uma medida adimensional. Normalmente
expressa em porcentagem.
Exemplo de aplicao:(Azulejos)
Considerando o exemplo anterior para calcularmos o coeficiente de variao:
Tabela 9.3: Medidas-Resumo para dados da espessura dos azulejos.

Turma Mdia Aritmtica Desvio Padro Coeficiente de Variao (%)
A 3,8575 0,8706 22,57
B 5,8650 0,4855 08,28

Os azulejos produzidos pela turma B so mais homogneos quanto a espessura.

10. Box-plot

O Box-plot um mtodo alternativo para representar os dados e est ilustrado na Figura 10.1.
O Box-plot fornece informaes sobre as seguintes caractersticas de um conjunto de dados:
locao, disperso, assimetria e outliers (observaes discrepantes).

O centro da distribuio indicado pela linha da mediana. A disperso representada pela
altura do retngulo (Q
3
-Q
1
), o qual contm 50% dos valores do conjunto de dados. A posio da
linha mediana no retngulo informa sobre a assimetria da distribuio. Uma distribuio
Mediana
Quartil 3
Quartil 1
Ponto exterior
Mximo
Mnimo

Figura 10.1 Box Plot
30

simtrica teria mediana no centro do retngulo. Se a mediana prxima de Q
1
ento os dados so
positivamente assimtricos. Se a mediana prxima de Q
3
os dados so negativamente
assimtricos.
Os valores fora de Q
1
1,5(Q
3
-Q
1
), denotado por limite inferior, e Q
3
+1,5(Q
3
-Q
1
),
denotado por limite superior, geralmente so chamados de pontos exteriores e devem ser
investigados como possveis outliers ou valores atpicos. Pontos exteriores no so
necessariamente outliers, mas um outlier usualmente aparece no grfico como um ponto exterior.

Exerccio de aplicao: (Azulejos) Observemos os Box plots para as turmas A e B. Temos que
para turma A, o limite inferior Q
1
1,5(Q
3
-Q
1
)= 3,1-1,5(4,45-3,1)= 1,075 e o limite superior
Q
3
+1,5(Q
3
-Q
1
)= 4,45+1,5(4,45-3,1)=6,475. E para a turma B, o limite inferior 5,55-1,5(6,2-
5,55)=4,575 e o superior 6,2+1,5(6,2-5,55)=7,175. Ento, no h pontos exteriores. Os Box-
plots correspondentes as turmas A e B esto na Figura 6.2. Podemos perceber que a distribuio
da espessura dos azulejos fabricados pela turma A aparentemente apresenta assimetria negativa.
Enquanto que para a turma B observa-se assimetria positiva.

Figura 10.2: Box-plot para as espessuras (mm) dos azulejos por turma



31

Observaes sobre a construo e interpretao de Box-plots:

1. Quando a distribuio dos dados simtrica, a linha que representa a mediana estar
localizada mais ou menos no centro do retngulo e as duas linhas que partem das
extremidades do retngulo tero aproximadamente os mesmos comprimentos.
2. De modo geral, quando a distribuio dos dados assimtrica direita, a linha que representa
a mediana estar mais prxima de Q
1
do que de Q
3
. Isto acontece porque a metade inferior
dos dados est dispersa em uma faixa de comprimento menor que o comprimento da regio
ocupada pela metade superior do conjunto de dados.
3. Quando a distribuio dos dados assimtrica esquerda, a linha que representa a mediana
estar mais prxima de Q
3
do que de Q
1
. Isto acontece porque a metade superior dos dados
est dispersa em uma faixa de comprimento menor que o comprimento da regio ocupada
pela metade inferior do conjunto de dados.
4. O Box-plot tambm pode ser desenhado na posio vertical.
5. Os Box-plots so muito teis para a comparao de dois ou mais conjuntos de dados.

Exerccio de aplicao: (Azulejos). Utilizando agora todos os novos conhecimentos que voc
adquiriu, responda:
a) Sabendo que os limites de especificao para a espessura dos azulejos so (5,0 1,5) mm,
voc considera que a espessura no adequada dos azulejos pode estar provocando as
reclamaes dos clientes? Por que?
b) forma do histograma construdo para todos os dados considerados em conjunto est
indicando que pode haver diferena na qualidade dos azulejos produzidos em diferentes
nveis dos fatores de manufatura do processo de fabricao dos azulejos? Por qu?
c) Voc considera que as duas turmas trabalham do mesmo modo ou existe diferena entre a
qualidade dos azulejos produzidos pelas duas turmas? Justifique sua resposta.
d) O problema de quebra dos azulejos parece ser comum aos azulejos produzidos por ambas as
turmas de trabalho da empresa ou parece estar associado a uma turma especfica? Por que?
e) O problema de falta de uniformidade no assentamento dos azulejos parece ser comum aos
azulejos fabricados por ambas as turmas de trabalho da empresa ou parece estar associado a
uma turma especfica? Por que?







32

5 LISTA DE EXERCCIOS

Elaborada pelos professores: Giovana Silva, Maurcio Lordelo, Rosana Castro
Revisada: Giovana Silva

1) Classifique cada uma das variveis abaixo em qualitativa (nominal/ordinal) ou quantitativa
(discreta/contnua):
a) Ocorrncia de hipertenso arterial em grvidas com mais de 35 anos (sim ou no so possveis
respostas para esta varivel).
b) Inteno de voto para presidente (possveis respostas so os nomes dos candidatos, alm de
indeciso).
c) Perda de peso de maratonistas na Corrida de So Silvestre, em quilos.
d) Intensidade da perda de peso de maratonistas na Corrida de So Silvestre (leve, moderada, forte).
e) Grau de satisfao da populao brasileira com relao ao trabalho de seu presidente (valores de 0 a 5,
com 0 indicando totalmente insatisfeito e 5 totalmente satisfeito).

2) Um questionrio foi aplicado aos dez funcionrios do setor de contabilidade de uma empresa
fornecendo os dados apresentados na tabela:
Funcionrio Sexo
Curso
(completo)
Idade Salrio (R$)
Anos de
empresa
1 masculino superior 34 1100,00 5
2 feminino superior 43 1450,00 8
3 feminino mdio 31 960,00 6
4 masculino mdio 37 960,00 8
5 masculino mdio 24 600,00 3
6 feminino mdio 25 600,00 2
7 masculino mdio 27 600,00 5
8 feminino mdio 22 450,00 2
9 masculino fundamental 21 450,00 3
10 feminino fundamental 26 450,00 3
a) Classifique cada uma das variveis;
b) Faa uma representao grfica para a varivel curso;
c) Faa uma tabela para a varivel curso por sexo.

3) Uma empresa do ramo automobilstico apresentou nos ltimos anos os seguintes dados:

Ano Veculos Vendidos Gastos com propaganda (R$) Renda per capita
(US$)
1990 116002 1713 429
1991 154972 2835 455
1992 178179 3585 482
1993 233011 5566 514
1994 295725 7251 556
1995 343533 8146 596
1996 379370 9148 632
Fonte: Dados fictcios
a) represente graficamente cada srie separadamente;
33

b) analisando essas tabelas e grficos pode-se concluir que os gastos com propaganda foram
compensados com o aumento da quantidade de veculos vendidos? Justifique.

4) Uma indstria automobilstica verificou que, nos ltimos meses, ocorreu um aumento no nmero de
reclamaes sobre a ocorrncia de defeitos no suporte da lanterna traseira de um modelo de automvel
por ela fabricado. A empresa desejava eliminar esta situao indesejvel e para isto iniciou estudos
para melhorar resultados. Na etapa de identificao do problema, os tcnicos da indstria
classificaram o nmero total de peas defeituosas encontradas em uma amostra de peas produzidas
durante uma semana de trabalho, segundo os tipos de defeitos que foram detectados. Os dados obtidos
so apresentados na tabela abaixo.
Defeitos encontrados em uma amostra de suportes da lanterna traseira de um modelo de automvel
durante uma semana de produo de uma indstria.
Tipo de defeito
Quantidade de
defeitos
Moldagem solta 14
Solda quebrada 01
Centro da moldagem deslocado 04
Lateral da moldagem deslocada 24
Moldagem arranhada 01
Moldagem dentada 44
Plstico arranhado 07
Limpeza incompleta 79
Orifcio deslocado 01
Pino deslocado 05
Total 180

a) Construa um grfico adequado para esta srie.
b) Identifique os tipos de defeitos que os tcnicos da empresa deveriam atacar em primeiro lugar, com
o objetivo de melhorar os resultados que vinham sendo obtidos pela indstria. Justifique sua resposta.

5) De acordo com uma pesquisa, v-se que dos 36 empregados da seo de oramentos da Cia. Milsa, 12
tm o primeiro grau de educao, 18 o segundo e 6 possuem ttulo universitrio. Apresente esta
distribuio em uma tabela (com as propores) e em um grfico.

6) Uma empresa procurou estudar a ocorrncia de acidentes com seus empregados, tendo, para isso,
realizado um levantamento abrangendo um perodo de 36 meses, onde foi observado o nmero de
operrios acidentados para cada ms. Os dados correspondentes so:
1 2 2 3 3 3 3 4 4 4 4 4
5 5 5 5 5 5 5 6 6 6 6 6
6 7 7 7 7 7 8 8 8 9 9 10

a) Construa uma distribuio de freqncia adequada;
b) Represente graficamente a distribuio do item a;
34

c) Em qual porcentagem de meses houve, exatamente, seis acidentes?
d) Em qual porcentagem de meses houve at quatro acidentes?

7) Contou-se o nmero de erros de impresso da primeira pgina de um jornal durante 50 dias, obtendo-
se os resultados abaixo:
08 11 08 12 14 13 11 14 14 05 06 10
14 13 06 12 07 05 08 08 10 16 10 12
12 08 11 06 07 12 07 10 14 05 12 07
09 12 11 09 14 08 14 08 12 10 12 13
07 15

a) Construa uma distribuio de freqncia adequada;
b) Represente a distribuio graficamente;
c) Calcule o nmero mdio de erros de impresso por primeira pgina;
d) Calcule a mediana;
e) Determine a moda.

8) A distribuio de freqncias do salrio anual dos moradores do bairro A que tm alguma forma de
rendimento apresentada na tabela abaixo:
Faixa Salarial (x10 S.M.) fi
0 2 10.000
2 4 3.900
4 6 2.000
6 8 1.100
8 10 800
10 12 700
12 14 2.000

a) Construa um histograma da distribuio e identifique o tipo de assimetria;
b) A mdia uma boa medida para representar estes dados? Justifique sua resposta.

9) Os dados abaixo se referem ao dimetro, em polegadas, de uma amostra de 40 rolamentos de esferas
produzidas por uma companhia:
0,738 0,729 0,743 0,740 0,736 0,741 0,735 0,731 0,726 0,737 0,728 0,737
0,736 0,735 0,724 0,733 0,742 0,736 0,739 0,735 0,745 0,736 0,742 0,740
0,728 0,738 0,725 0,733 0,734 0,732 0,733 0,730 0,732 0,730 0,739 0,734
0,738 0,739 0,727 0,735

a) construa uma tabela de distribuio de frequncia por intervalos de classe;
b) represente graficamente a distribuio do item a.
10) Coloque V(verdadeiro) e F(falso) e justifique:
a) ( ) 50% dos dados de qualquer amostra situam-se acima da mdia;
35

b) ( ) Numa turma de 50 alunos onde todos tiraram a nota mxima, o desvio padro zero;
c) ( ) Quando queremos verificar a questo de uma prova que apresentou maior nmero de erros,
utilizamos a mdia;
d) ( ) Somando-se (ou subtraindo-se) um valor constante e arbitrrio a cada um dos elementos de um
conjunto de dados, a mdia aritmtica fica adicionada (ou subtrada) dessa constante.
e) ( ) Multiplicando-se (ou dividindo-se) um valor constante e arbitrrio a cada um dos elementos de
um conjunto de dados, a mdia aritmtica fica multiplicada (ou dividida) por essa constante.
f) ( ) Somando-se (ou subtraindo-se) um valor constante e arbitrrio a cada um dos elementos de um
conjunto de dados, o desvio padro fica adicionado (ou subtrado) dessa constante.
g) ( ) Multiplicando-se (ou dividindo-se) um valor constante e arbitrrio a cada um dos elementos de
um conjunto de dados, o desvio padro fica multiplicado (ou dividido) por essa constante.

11) Na companhia A, a mdia dos salrios 10.000 unidades e o 75
0
percentil 5.000. Justifique.
a) Se voc se apresentasse como candidato a essa firma e se o seu salrio fosse escolhido ao acaso entre
todos os possveis salrios, o que seria mais provvel: ganhar mais ou menos que 5.000 unidades?
b) Suponha que na companhia B a mdia dos salrios 7.000 unidades e a varincia praticamente zero,
e l o seu salrio tambm seria escolhido ao acaso. Em qual companhia voc se apresentaria para
procurar emprego?

12) Uma indstria de alimentos estava interessada em analisar seu processo de produo de determinado
alimento. Existem nesta indstria duas mquinas responsveis pelo controle do processo de
desidratao do alimento. Um importante item de controle do processo a umidade do produto final,
que segundo as especificaes, deve estar na faixa de 8,0% a 12%. Foi detectado incapacidade do
processo em atender s especificaes. A equipe tcnica suspeitava de que podia haver diferenas na
forma de funcionamento das duas mquinas de desidratao. Com o objetivo de observar o
funcionamento das mquinas foram feitas medidas do teor de umidade do produto final, estratificadas
por mquina de desidratao. Os resultados esto apresentados a seguir:
Mquina 1
11,7 11,8 12,1 10,7 11,7 10,9 10,7 11,6 12,5 10,7 11,5 11,1
11,2 11,2 11,8 11,2 11,0 11,7 11,1 11,3 11,0 12,2 10,7 12,2
11,9 11,1 11,4 10,7 11,2 11,6 11,0 10,9 11,2 11,2 11,3 12,1
10,9 11,7 11,3 11,5



Mquina 2
11,4 11,5 11,5 10,4 11,0 9,9 10,5 10,8 11,4 11,5 10,9 10,2
11,1 11,0 10,2 11,2 11,9 10,8 11,2 11,0 10,2 11,5 10,9 10,1
11,2 10,7 11,8 11,1 10,4 11,8 11,9 10,7 10,8 10,8 10,4 10,8
11,2 10,8 10,6


Para cada mquina, calcule a mdia, a mediana, o desvio padro, o coeficiente de variao e o intervalo
interquartil da varivel teor de umidade e construa o histograma e box plot. A partir das medidas
36

descritivas e dos histogramas e box plots, compare o desempenho das duas mquinas comentando os
aspectos de posio e variabilidade dos dados.

13) Construa a planilha e em seguida o grfico de Pareto para a tabela abaixo:

Tipo de Defeito Quantidade de Defeito
Moldagem Solta 14
Solda Quebrada 01
Centro de Moldagem Deslocado 04
Lateral de moldagem deslocado 24
Moldagem Arranhada 01
Plstico Arranhado 08
Limpeza Imcompleta 28
Total 80


Gabarito da 5 lista de exerccios

1) a)Qualitativa Nominal b) Qualitativa Nominal c)Quantitativa Contnua
d)Qualitativa Ordinal e) Qualitativa Ordinal

2) a)sexo- qualitativa nominal curso- qualitativa ordinal idade- quantitativa continua
salario- quantitativa continua anos de empresa- quantitativa continua

b)grafico colunas , barras , setor
c) Tabela: Funcionrios do setor de contabilidade de uma empresa por sexo e grau de instruo.
Grau de Instruo
Sexo
Fundamental Medio Superior Total
Feminino

Masculino
1

1
3

3
1

1
5

5
Total 2 6 2 10
Fonte: exercicio

3) a) Grfico em colunas ou barras ou linhas.
b) sim. Quanto mais gasto com propaganda, maior foi o nmero de carros vendindos e teve
aumento na renda.
4) a)grafico em colunas ou barras ou pareto (preferncia).
b)limpeza incompleta, moldagem dentada. Prioridade para os que apresentam maior ocorrncia.

5) Tabela: Grau de instruo empregados da seo de oramentos da cia. Milsa.
Grau de
instruo
Frequncia
simples absoluta
Frequncia
simples relativa
1 grau

2 grau

3 grau
12

18

6
0,33

0,50

0,17
Total 36 1,00
Fonte: exercicio
37

b) grafico barra ou coluna
6) Tabela: N de acidentes ocorridos, por ms, com empregados da empresa no periodo de trinta
e seis meses.
N de acidentes
Nmeros de meses
(fi)
fr
i

1
2
3
4
5
6
7
8
9
10
1
2
4
5
7
6
5
3
2
1
0,028
0,055
0,111
0,139
0,195
0,167
0,139
0,083
0,055
0,028
Total 36 1,00
Fonte: exercicio
b) colunas c)1/6 d)1/3
7) Tabela: Nmero de erros de impresso da primeira pgina do jornal.
N de erros Nmeros de
pginas(fi)
%
(100xfr
i
)
5
6
7
8
9
10
11
12
13
14
15
16
3
3
5
7
2
5
4
9
3
7
1
1
6
6
10
14
4
10
8
18
6
14
2
2
Total 50 100
Fonte: exercicio
b) grafico barras ou colunas. c)10,24 d)10,5 e)12
8) a) positiva ou direita b) no. Devido a assimetria.
9) a) n= 40 k= 6,32 AT = 0,021 h=0,004
Tabela: Dimetro (mm) de rolamentos de esferas produzidas por uma companhia.
Diametro
rolamentos
Nmeros de
rolamentos(fi)
%
(100xfr
i
)
0,724 0,728
0,728 0,732
0,732 0,736
0,736 0,740
0,740 0,744
0,744 0,748
4
6
11
12
6
1
10
15
27,5
30
15
2,5
Total 40 100,0
Fonte: exercicio
c) histograma

38

10) F,V,F,V,V,F,V 11) a) ganhar menos. b) B
12)
Maquina 1 Maquina 2
Mdia=11,365
Mediana=11,25
Desvio Padro=0,4715
CV=0,0415
Quartil 1: 11,0
Quartil 3: 11,7

Mdia=10,95
Mediana=10,9
Desvio Padro=0,5109
CV=0,0467
Quartil 1: 10,7
Quartil 3: 11,3





























39

11. Noes de Inferncia Estatstica

11.1. Introduo

O objetivo principal da inferncia estatstica fazer afirmaes sobre caractersticas de uma
populao, baseando-se em resultados de uma amostra.
Na inferncia estatstica a incerteza est sempre presente. No entanto, se o experimento foi
feito de acordo com certos princpios, essa incerteza pode ser medida.
Uma funo da estatstica fornecer um conjunto de tcnicas para fazer inferncias e medir o
grau de incerteza destas inferncias. Esta incerteza medida em termos de probabilidades.

Exemplo 1:
Flores brancas
Sementes
(10.000.000)
(POPULAO) Flores vermelhas

Suponha que em um celeiro existam 10 milhes de sementes de flores que podem
produzir flores brancas ou flores vermelhas. Deseja-se a seguinte informao: que proporo,
dessas 10 milhes de sementes, produzir flores brancas?
No de interesse plantar todas as sementes para verificar a cor das flores produzidas. Vamos
plantar algumas poucas e com base nas cores dessas poucas, fazer alguma afirmao sobre a
proporo (das 10 milhes) que produzir flores brancas. No podemos fazer esta generalizao
com certeza, mas podemos fazer uma afirmao probabilstica, se selecionarmos as sementes
que pertencero amostra de forma adequada.
Suponha que foi retirada uma amostra aleatria (ao acaso) composta de 200 sementes da
populao acima. Observou-se que dessas sementes 120 eram de flores brancas e 80 de flores
vermelhas. A proporo de flores brancas encontrada na amostra foi ento de 60% .
Como poderamos utilizar o resultado de uma amostra para estimar a verdadeira
proporo de sementes de flores brancas?
Analisando o problema em questo com auxlio da teoria das probabilidades, pode-se
encontrar um intervalo em torno da proporo observada na amostra (60%) e afirmar com
bastante segurana que a proporo populacional de sementes de flores brancas estar contida
neste intervalo. Por exemplo, no problema acima, se admitssemos uma chance de erro de 5%,
com o tamanho de amostra utilizado (n=200), a teoria estatstica permite afirmar que a proporo
populacional de flores brancas est entre 53% e 67%. Se os mtodos estatsticos forem
40

corretamente utilizados podemos garantir que de apenas 5% a probabilidade de estarmos
fornecendo um intervalo que no contenha a verdadeira proporo populacional. Mais tarde
veremos como calcular este tipo de intervalo.

11.2. Estatsticas, Parmetros e Estimadores

Alguns conceitos bsicos so necessrios para o desenvolvimento da Inferncia Estatstica:
Parmetro: qualquer valor calculado com base em todos os elementos da populao.
Estatstica: qualquer valor calculado com base (apenas) nos elementos da amostra.
Estimador: uma estatstica destinada a estimar um parmetro populacional.
Estimativa: o valor numrico do estimador com base nas observaes amostrais.

Alguns exemplos de estatsticas que so tambm estimadores:

n
X ... X X
X
n
+ + +
=
2 1
(mdia amostral)
(varincia amostral)
Smbolos mais comuns









11.3. Introduo Amostragem

Usualmente impraticvel observar toda uma populao, seja pelo alto custo, seja por
dificuldades diversas. Examina-se ento uma amostra da populao. Se essa amostra for
bastante representativa, os resultados obtidos podero ser generalizados para toda a populao.
Uma amostra muito grande pode implicar em custos desnecessrios enquanto que uma
amostra pequena pode tornar a pesquisa inconclusiva. Assim, deve-se procurar dentro das
restries impostas pelo oramento, desenhar uma amostra que atinja os objetivos,
produzindo estimativas com menor impreciso possvel.
Estimador Parmetro
Mdia
X

Varincia S
2

2

Propores
p
p ou
41

A experincia com amostragem fato corrente no cotidiano. Basta lembrar como um
cozinheiro verifica o tempero de um prato que est preparando, como algum testa a
temperatura de um prato de sopa, ou ainda como um mdico detecta as condies de um
paciente atravs de exames de sangue. Porm, o uso inadequado de um procedimento amostral
pode levar a um vis de interpretao do resultado. Por exemplo, no mexer bem a sopa antes
de retirar uma colher para experimentar, pode levar a sub-avaliao da temperatura do prato
todo, com consequncias desagradveis para o experimentador.
O uso de amostras que produzam resultados confiveis e livres de vieses o ideal. Assim, a
maneira de se obter a amostra to importante que constitui uma especialidade dentro da
Estatstica, conhecida como Amostragem. Os vrios procedimentos de se escolher uma amostra
podem ser agrupados em dois grandes grupos: os chamados planos probabilsticos e planos
no-probabilsticos. O primeiro grupo rene todas as tcnicas que usam mecanismos aleatrios
de seleo dos elementos da amostra, atribuindo a cada um deles uma probabilidade, conhecida a
priori, de pertencer amostra. No segundo grupo esto os demais procedimentos, tais como:
amostras intencionais, onde os elementos so selecionados com auxlio de especialistas, e
amostras de voluntrios, como ocorre em alguns testes sobre novos remdios.
Ambos os procedimentos tm suas vantagens e desvantagens. Os estatsticos preferem
trabalhar com as amostras probabilsticas pois, tm toda teoria de probabilidade e de inferncia
estatstica para dar suporte s concluses. Dessa forma, possvel medir a preciso dos
resultados, baseando-se na informao contida da prpria amostra. Planos de amostragem
probabilsticos podem ser exemplificados pela amostragem aleatria simples e pela amostragem
estratificada.
Amostragem Aleatria Simples
Quando o sistema de referncia (lista ou descrio das unidades da populao)
perfeito, isto , quando ele lista uma a uma todas as unidades da populao, possvel ento
usar um procedimento onde cada unidade sorteada diretamente, com igual probabilidade de
pertencer a amostra. A melhor maneira para definir este plano descrevendo o processo de
sorteio, que seria o seguinte: - da relao de unidades do sistema de referncia sorteie, com igual
probabilidade o primeiro elemento da amostra, repita o processo para o segundo, e assim
sucessivamente at sortear o ltimo elemento programado para a amostra. As amostras assim
obtidas definem o plano de Amostragem Aleatria Simples que pode ser concebido com ou sem
reposio.


42


Amostragem Estratificada
Informaes adicionais podem aprimorar um desenho amostral. Por exemplo, em uma
pesquisa sobre renda familiar mdia, conhece-se de antemo as regies da cidade onde
predominam moradias de diferentes classes de renda. Este conhecimento pode ser usado para
definir sub-populaes homogneas segundo a renda, e a ento sortear amostras dentro de cada
uma dessas regies. Este procedimento conhecido como a diviso da populao em estratos, e
consequentemente, definem os planos de Amostragem Estratificada.

11.4. Erros amostrais e No-amostrais

O uso de um levantamento amostral introduz um tipo de erro, que pode ser resumido na
diferena entre o valor de certa caracterstica na amostra e o parmetro de interesse na populao.
Esta diferena pode ocorrer apenas devido particular amostra selecionada, ou ento devido a
fatores externos ao plano amostral. Quando o erro devido amostra selecionada chamado de
erro amostral e quando devido fatores independentes do plano amostral (erros de medida,
digitao, etc) chamado de erro no-amostral.
Considera-se um erro amostral aquele desvio que aparece porque o pesquisador no
levantou a populao toda. Cada amostra possvel de um plano acarreta em um desvio. Vejamos
o esquema que se segue que considera a mdia como a caracterstica de interesse. Vamos denotar
por e X

a mdia populacional e a mdia amostral da varivel, respectivamente.

Populao ou Amostras possveis
Universo de tamanho n

1 A
1
=>
1
X
2
3
A
2
=> 2 X
.
. | X - | = E = erro
.
A
i
=>
i
X
N


A
k
=> k X


43


No caso da mdia, o estudo do erro amostral consiste basicamente em estudar o
comportamento da diferena ( X- ) quando X percorre todas as possveis amostras que
poderiam ser formadas atravs do plano amostral escolhido. Conhecendo-se a distribuio
amostral de X pode-se avaliar sua mdia e seu desvio padro. Neste caso particular o desvio
padro recebe o nome de erro padro de X.

11.5. Distribuies Amostrais

Diferentes amostras extradas da populao iro originar valores distintos para a estatstica
considerada. Por este motivo, dizemos que as estatsticas so variveis aleatrias, j que seu valor
no pode ser predito com certeza antes da amostra ter sido extrada. Alm disso, as estatsticas,
como funes de variveis aleatrias, so tambm variveis aleatrias, e, portanto, tm uma
distribuio de probabilidade, esperana e varincia.
A distribuio de probabilidade de uma estatstica quando consideramos todas as amostras
possveis de tamanho n denominada de distribuio amostral.

11.5.1. Distribuio Amostral da Mdia

A distribuio amostral da mdia X , de amostras aleatrias simples de tamanho n,
extrada de uma populao que tem mdia e desvio padro , tem as seguintes caractersticas:
E( X) =
V( X) =
2
/n
Caso a populao tenha distribuio normal com mdia e desvio padro , a
distribuio amostral da mdia X , normal com mdia e desvio padro / n .
A distribuio amostral da mdia X , de amostras aleatrias simples de tamanho n
extrada de uma populao no-normal, com mdia e desvio padro , aproximadamente
normal com mdia e desvio padro / n , quando n suficientemente grande. Este resultado
uma aplicao de um importante teorema de probabilidade, chamado Teorema Central do
Limite. Para a utilizao deste resultado, usual considerar que o tamanho n da amostra
suficientemente grande quando n pelo menos 30.



44

Exerccios:
1) A mquina de empacotar um determinado produto o faz segundo uma distribuio normal,
com mdia e desvio padro de 10g.
a) Em quanto deve ser regulado o peso mdio para que apenas 10% dos pacotes tenham
menos do que 500g. Resp.:512,8 g
b) Com a mquina assim regulada, qual a probabilidade de que o peso total de 4 pacotes
escolhidos ao acaso seja inferior a 2 Kg? Resp.:0,0052
2) No exemplo anterior, e aps a mquina estar regulada, programou-se uma carta de controle.
De hora em hora, ser retirada uma amostra de 4 pacotes, e estes sero pesados. Se a mdia da
amostra for inferior a 495g ou superior a 520g para-se a produo para reajustar a mquina,
isto reajustar o peso mdio.
a) Qual a probabilidade de ser feita uma parada desnecessria? Resp.: 0,0749
b) Se o peso mdio da mquina desregulou-se para 500g, qual a probabilidade de continuar-se a
produo fora dos padres desejados? Resp.: 0,8413
3) Para uma populao com desvio padro igual a 10, qual deve se o tamanho da amostra para
que a diferena da mdia amostral para a mdia populacional, em valor absoluto, seja menor
que 1, com probabilidade igual a 0.99 ? Resp.: 666

11.5.2. Distribuio Amostral da Proporo

Considere que a proporo de elementos numa populao com determinada caracterstica
p. Assim, para cada elemento da populao podemos definir uma varivel X, tal que
X =

tica caracters da portador no elemento o se 0,


tica caracters da portador elemento o se , 1


Isto , X ~Bernoulli(p) = Binomial (1; p) , e portanto E(X) = p e V(X) = p(1-p).
Seja X
1
, X
2
, ... , X
n
uma amostra aleatria simples retirada dessa populao, e seja

=
n
i n
X
1
S o total de elementos portadores da caracterstica na amostra. Tem-se que
S
n
~ Binomial (n,p).

Defina como p a proporo de elementos portadores da caracterstica na amostra, isto ,
X
n
X
n
i
= = =

1 n
n
S
p
.
45

Utilizando o Teorema Central do Limite, tem-se que a distribuio amostral de p
aproximadamente
|

\
|
n
p) p(1
p, N , quando n suficientemente grande (np 5 e n(1-p) 5 ).

Exerccios

1) Um procedimento de controle de qualidade foi planejado para garantir um mximo de 10% de
itens defeituosos na produo. A cada 60 minutos sorteia-se uma amostra de 50 peas, e,
havendo mais de 15% de defeituosos, pra-se a produo para verificaes. Qual a
probabilidade de uma parada desnecessria? Resp.: 0,119

2) Suponha que uma indstria farmacutica deseja saber quantos voluntrios se deva aplicar uma
vacina, de modo que a proporo de indivduos imunizados na amostra difira de menos de 2%
da proporo verdadeira de imunizados na populao, com probabilidade de 90%. Qual
tamanho da amostra a escolher? Resp: 1702

11.5.3. Distribuio Amostral de S
2


Considere uma amostra aleatria de tamanho n que retirada de uma populao normal
com mdia e varincia
2
, e seja S
2
a varincia amostral. Ento a estatstica tem
distribuio qui-quadrado com =n-1 graus de liberdade. A varivel aleatria Z tem funo de
densidade dada por:
( )

>

=
|

\
|
rio casocontr 0,
0 z ,
2 z -
e
z
1 2
2
2
2
1
f(z)



diz-se que Z segue uma distribuio qui-quadrado com graus de liberdade, denotada por A
mdia e a varincia para a distribuio so, respectivamente, e 2.
A distribuio qui-quadrado contnua e assimtrica e como a distribuio normal
padronizada, tambm tabelada. A tabela fornece os valores de para vrios graus de
liberdade sendo . A seguir, mostrado como usar a tabela da distribuio qui-
quadrado:

.


46




A tabela completa fornecida no final da apostila.

Exerccios
1) Para uma distribuio qui-quadrado, determine:
a) b) c) Resp: 20,48; 18,48 e 36,42

2) Determine a probabilidade de que uma amostra aleatria de 25 observaes, de uma populao
normal com varincia
2
=6, ter uma varincia amostral S
2
:
a) maior que 9,1; Resp: 0,05
b) entre 3,642 e 10,745. Resp.: 0,94

11.5.4. Outra distribuio amostral

Em muitas situaes, o conhecimento do valor de no razovel Frequentemente, uma
estimativa para fornecida pela amostra. Suponha que X
1
, ..., X
n
seja uma amostra aleatria de
uma populao normal, com mdia e varincia
2
, e sejam e S
2
a mdia e a varincia
amostrais, respectivamente. Ento ) segue uma distribuio t ou t de Student,
com =n-1 graus de liberdade A funo de densidade de T dada por:


A mdia e a varincia da distribuio t so 0 e /(+2) para < 2, respectivamente.




Graus de
liberdade
Probabilidade de ser maior que
determinado valor
47

Figura 1: Grficos da funo densidade da distribuio t de Student para alguns valores
de graus de liberdade.

A distribuio t de Student contnua e simtrica com mdia igual a zero. Sua aparncia
bastante parecida com a normal padro, veja Figura 1. Ambas as distribuies tem forma de
sino, mas a distribuio t tem mais probabilidade nos extremos. A qualificao com n-1 graus de
liberdade necessria, porque para cada valor diferente do tamanho da amostra n existe uma
distribuio t de Student especfica. O nmero de graus de liberdade (gl) o parmetro da
distribuio t de Student.
Assim como a distribuio normal padro a distribuio t de Student tambm tabelada.
A tabela fornece valores de para vrios graus de liberdade sendo . A seguir,
mostrado como usar a tabela da distribuio t de Student:




A tabela completa fornecida no final da apostila.



Graus de
liberdade
Probabilidade de T ser maior
que determinado valor
48

Exerccios
1) Para uma distribuio T, determine:
a) P(T<2,365) quando = 7 b) P(-1,356<T<2,179) quando = 12 Resp: 0,975 e 0,875

2) Um engenheiro qumico afirma que a mdia populacional do rendimento de certo lote do
processo 500 gramas por mililitro de matria-prima. Para verificar essa afirmao, ele amostra
25 lotes a cada ms. Se o valor t calculado ficar entre t
0,05;24
e t
0,05;24
, ele fica satisfeito com sua
afirmao. A que concluso ele deveria chegar em relao a uma amostra que tem mdia
gramas por mililitro e desvio padro 40 gramas? Assuma que a distribuio dos
rendimentos aproximadamente normal.

12. Estimao

Os parmetros em geral so desconhecidos. A inferncia estatstica consiste em, atravs
de uma amostra, estimar os valores dos parmetros, ou tambm testar se algumas hipteses so
vlidas sobre determinados parmetros. Estes so os problemas da inferncia paramtrica
conhecidos como problemas de estimao e testes de hipteses, respectivamente.

Exemplos:
Problemas de estimao
1) Estimar a proporo de peas defeituosas num lote.
2) Estimar o peso mdio de um determinado produto de uma linha de produo.

Problemas de testes de hipteses
1) Testar a afirmao de que o peso mdio de um determinado produto de uma linha de
produo 500 g.
2) Testar a afirmao de que a proporo de peas defeituosas menor que 4% do lote.

Exemplo 12.1: Queremos investigar a durao de vida de um novo tipo de lmpada, pois
acreditamos que ela tenha durao maior do que as fabricadas atualmente.
Cem lmpadas so deixadas acesas at queimarem. A durao em horas de cada lmpada
(T) registrada.

POPULAO: todas as lmpadas fabricadas ou que venham a ser fabricadas por esta
fbrica.
AMOSTRA: cem lmpadas selecionadas.
49

Em geral, neste tipo de problema adotada a funo de densidade exponencial para
durao T ~ exp ().

Objetivo: Fazer inferncia sobre . Vale lembrar que E(T) = 1/ .

Existem dois tipos de estimao de um parmetro populacional: estimao pontual e a
estimao intervalar.

12.1. Estimao Pontual

Procura encontrar um valor numrico nico que esteja bastante prximo do verdadeiro
valor do parmetro. Este procedimento no permite julgar a magnitude do erro que podemos estar
cometendo.
Estimadores pontuais razoveis dos principais parmetros populacionais.
Parmetro Estimador
Mdia ()

=
=
n
1 i
i
X
n
1
X
Varincia (
2
)

Desvio padro

Proporo (p)
n
X
p = em que
X = nmero de elementos da amostra que possuem a caracterstica
n = tamanho da amostra

Podem existir outros estimadores pontuais para esses parmetros. Assim, necessrio definir
propriedades desejveis para os estimadores de maneira que se possa escolher qual estimador
pontual de um determinado parmetro o melhor a ser usado. Este assunto no ser abordado
nesta apostila.
Muito provavelmente uma estimativa pontual no coincide exatamente com o valor verdadeiro do
parmetro populacional que est sendo estimado e, alm disto, esta estimativa no traz associada
a ela uma medida de sua preciso. A estimao intervalar que ser apresentada a seguir ajuda a
resolver este tipo de dvida.

12.2. Estimao Intervalar

Procura determinar um intervalo que abranja o valor do parmetro, com certa margem de
segurana. Este procedimento permite julgar a magnitude do erro que podemos estar cometendo.
50

Como mencionado anteriormente, os estimadores pontuais especificam um nico valor
para o estimador e este procedimento no permite julgar qual a possvel magnitude do erro. Da
surge idia de construirmos os intervalos de confiana. De um modo geral, nos basearemos na
amostra para construir um intervalo que com alto grau (ou nvel) de confiana contenha o
verdadeiro valor do parmetro.
Grau de confiana a probabilidade do intervalo de confiana conter o verdadeiro valor do
parmetro. tambm chamado de nvel de confiana e geralmente expresso em porcentagem.
Formalizando um pouco, se denotarmos o parmetro de interesse por , desejamos obter
um intervalo com limite inferior I e limite superior S tal que
P(I < < S) = 1 - ,
em que um valor pequeno, ou seja 1- prximo de 1. Os limites deste intervalo so
variveis aleatrias pois dependem da amostra selecionada. Um intervalo deste tipo
denominado intervalo de 1- ( 100)% confiana para o parmetro .
Valores de mais comumente usados so:
= 0,10 1 = 0,90 ou 90%
= 0,05 1 = 0,95 ou 95%
= 0,01 1 = 0,99 ou 99%
A preciso com que se conhece depende da amplitude deste intervalo dada por S I.
Quanto menor esta amplitude melhor determinado estar o valor do parmetro.
Para esclarecer o conceito de intervalo de confiana, suponha que retiremos um grande
nmero de amostras de tamanho n (fixo) da populao em estudo e para cada amostra,
construamos um intervalo. Os limites dos intervalos resultantes variaro de amostra para amostra.
Por exemplo, ao desejar um intervalo de confiana de 90% para estimar a mdia de uma
populao, uma pessoa pode retirar uma amostra que d um intervalo entre 48,5 e 51,5. Por outro
lado, uma segunda pessoa, baseada em outra amostra retirada da mesma populao, calculou o
intervalo entre 47,9 e 52,9, aparentemente gerando uma dvida sobre qual dos intervalos contm
o verdadeiro valor da mdia. Ocorre que se 100 desses intervalos fossem calculados a partir de
100 amostras diferentes, deve-se esperar que em torno de 90 desses intervalos contenham o valor
da verdadeira mdia, embora no se saiba quais so estes intervalos, uma vez que a mdia
desconhecida. Na prtica trabalhamos em geral com apenas uma amostra e obtemos um nico
intervalo.

51

A figura a seguir ilustra bem o conceito de intervalo de confiana.

O verdadeiro valor do parmetro estar contido em 1- ( 100)% desses intervalos.
Observe que algumas estimativas intervalares incluem e outras no incluem o verdadeiro valor do
parmetro da populao. Quando se retira uma amostra e se calcula um intervalo de confiana,
no se sabe na verdade, se o parmetro da populao se encontra naquele intervalo calculado. O
importante saber que se est utilizando um mtodo com 1- ( 100)% de probabilidade de
sucesso.
Os intervalos de confiana so construdos a partir da distribuio amostral de uma estatstica. A
seguir so descritos alguns intervalos.
12.2.1. Intervalo de Confiana para a Mdia de uma Populao

A mdia uma importante caracterstica da populao. Vejamos como obter intervalos
de confiana para este parmetro populacional. Temos que distinguir algumas situaes que
podem surgir na prtica:
1. Amostras pequenas (n < 30)
Populao Normal
Populao no Normal
2. Amostras grandes (n 30)
Populao Normal
Populao no Normal
Para pequenas amostras os procedimentos estatsticos de inferncia paramtrica exigem
que se verifique a normalidade da populao e outras distribuies de probabilidade (por
exemplo a distribuio t de Student) devem ser estudadas a fim de utilizar os procedimentos
52

adequados. Alm disso, se a normalidade no for aceitvel, no caso de amostras pequenas,
devemos utilizar procedimentos alternativos, por exemplo, inferncia no-paramtrica.
Para amostras suficientemente grandes os procedimentos simplificam bastante e
mesmo sem conhecermos a distribuio da populao, as inferncias podem ser feitas com
base na distribuio normal mesmo que a populao no seja normal.

Amostras pequenas
1) Distribuio normal,
2
=
o
2
(conhecido)
Esta situao um tanto quanto rara na prtica, pois embora a hiptese de normalidade
seja razovel em muitos casos, dificilmente se conhece a varincia de uma populao quando sua
mdia desconhecida. Algumas vezes o conhecimento de pode provir de dados histricos
sobre a populao de interesse ou de resultados obtidos em estudos similares ao que est sendo
realizado.
Sabemos que segue uma distribuio normal padro. Assim,


=
|
|

\
|
<

< =
|

\
|
< < 1
/
2 2 2 2
z
n
X
z P z Z z P


Neste caso o Intervalo de Confiana de 1-(100)% para dado por:
(

+
n
z X
n
z X
o o


2 2
,

Ilustrao do nvel de confiana de 95%.
0
0,95
0,025 0,025
Distribuio Normal (0,1)
-1,96
1,96

53

Exemplo 12.2: Um pesquisador est estudando a resistncia mdia de um determinado material.
Ele sabe que esta varivel normalmente distribuda com desvio padro de 2 unidades.
Utilizando os valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8; 7,2; 5,7; 6,2 unidades obtidos de uma amostra de
tamanho 9, determine o intervalo de confiana para a resistncia mdia com um nvel de
confiana de 95%.
Temos que 2 , 6 = X , n=9,
0
=2 e para obtermos um intervalo de 95% de confiana
z
/2
= 1,96. Substituindo estes valores na frmula acima, obtemos
[6,222 1,96
9
2
; 6,222 + 1,96
9
2
] = [4,915 , 7,529]
Ento podemos afirmar com 95% de confiana que a resistncia mdia () do material est entre
4,915 e 7,529 unidades.

2) Distribuio normal,
2
desconhecido

Neste caso, utilizamos que a distribuio amostral da estatstica ) a
distribuio t com n-1 graus de liberdade. O intervalo de confiana para a mdia obtido de


=
|
|

\
|
<

< =
|
|

\
|
< <

1
1 ,
2
1 ,
2
1 ,
2
1 ,
2
n n n n
t
n S
X
t P t T t P

Neste caso o Intervalo de Confiana de 1-(100)% para dado por:

(
(

+

n
s
t X
n
s
t X
n n 1 ,
2
1 ,
2
;



Exemplo 12.3: O consumo dirio de alimentos observado em certa amostra da populao , em
calorias (x100), igual a: 10; 11; 11; 12; 13; 13; 13; 13; 13; 14; 14; 14; 15; 15; 16; 16. Construir
um intervalo de confiana para a mdia com um nvel de confiana de 90%.

Soluo:
(
(

+

n
s
t X
n
s
t X
n n 1 ,
2
1 ,
2
;

= [13,3125 1,753
4
7404 , 1
; 13,3125 + 1,753
4
7404 , 1
]
= [ 12,543 ; 14,073 ]

54

Com 90% podemos afirmar que o consumo mdio de calorias, na populao da qual essa amostra
foi retirada, est entre 12,543 e 14,073.

Amostras Grandes - Populao normal ou no-normal

Se n suficientemente grande (em geral, n > 30), mesmo sem conhecermos a
distribuio da populao, os limites do Intervalo de Confiana para a mdia () podero ser
calculados com base na distribuio Normal padro. Da mesma forma podemos utilizar o desvio
padro amostral s no lugar de (desvio-padro populacional). Neste caso o Intervalo de
Confiana para a mdia dado por:
(
(

+
n
s
z X
n
s
z X
2 2
;



Exemplo 12.4: Resistncia trao de 31 corpos de prova (ordenados).
131; 132; 134; 135; 136; 135; 138; 139; 140; 142; 143; 144; 144; 145; 146; 146; 147; 147; 148;
149; 150; 150; 151; 151; 152; 152; 153; 153; 154; 160; 160.
Estabelecer um intervalo de confiana de 95% para a mdia populacional.
Soluo:
Temos que, X = 145,39 e s = 7,75
Como o tamanho da amostra j pode ser considerado suficientemente grande para uma
aproximao normal, o intervalo de confiana para a mdia populacional :
(
(

+
n
s
z X
n
s
z X
2 2
;

= [145,39 1,96
31
75 , 7
; 145,39 + 1,96
31
75 , 7
] =
= [ 142,66 ; 148,12 ]

Podemos ento afirmar que com nvel de confiana de aproximadamente de 95% a resistncia
mdia do concreto est entre 142,66 e 148,12 kg/cm
2
.

Exemplo 12.5 (Werkema, 1996): Um dos principais produtos de uma empresa siderrgica a
folha-de-flandes com tmpera T4 RC, que uma folha de ao de baixo teor de carbono, revestida
em ambas as faces com uma camada de estanho, empregada principalmente na fabricao de
recipientes utilizados para o acondicionamento de alimentos.
Os limites de especificao para a dureza final das folhas-de-flandres so:
55

LIE = 58,0 HR e LSE = 64,0 HR,
em que LIE e LSE representam os limites inferior e superior de especificao, respectivamente, e
HR representa a unidade de dureza definida como ndice de dureza Rockwell.
Nos ltimos meses ocorreu um aumento da produo de folhas-de-flandres com dureza final fora
da faixa de especificao. A empresa concentrou sua ateno no processo de RECOZIMENTO
CONTNUO (RC), por ser este o principal processo responsvel pela dureza das folhas-de-
flandres. Como foi verificado que o processo estava sob controle estatstico, a indstria decidiu
estimar a dureza mdia das folhas-de-flandres (), a variabilidade das medidas de dureza (), a
proporo de folhas-de-flandres com dureza fora da faixa de especificao. Com este objetivo,
foram coletados 50 observaes da dureza das folhas-de-flandres produzidas pela empresa, que
esto listadas abaixo:
Medidas de dureza (HR) das folhas-de-flandres fabricadas pela indstria siderrgica
61,0 61,0 60,3 60,2 58,7 60,0 60,0 60,9 61,2 59,1
60,0 59,3 59,8 60,1 58,6 59,6 60,5 60,5 60,2 60,5
60,5 60,1 60,7 60,3 60,8 59,9 60,1 60,2 60,6 61,0
60,0 61,1 59,8 60,1 60,8 60,7 60,0 59,8 59,0 60,0
60,2 60,8 61,6 59,8 60,4 60,2 59,7 60,3 60,4 60,2

Dureza mdia das folhas-de-flandres:

=
=
n
1 i
i
x
n
1
x = 60,212 HR
Desvio padro: = 0,6107 HR
Proporo amostral de folhas-de-flandres com dureza fora da faixa de especificao
(58,0 64,0 HR): 00 , 0 p =

A equipe de trabalho da empresa suspeita que a dureza mdia da folha-de-flandres (),
resultante do processo de recozimento contnuo, diferente do valor nominal da especificao
(61,0 HR).
A equipe tcnica da indstria passou a ter a seguinte dvida: a obteno do resultado
61,0 60,2 x < = j era suficiente para que se pudesse concluir, com bastante segurana, que o
processo de recozimento contnuo estava centrado abaixo do valor nominal da especificao ?
Essa dvida pode ser solucionada por meio da construo de um intervalo de confiana para a
dureza mdia () das folhas-de-flandres produzidas pelo processo:

60,21 1,96 x
50
61 , 0
[60,04 ; 60,38] HR
56

O intervalo de confiana no contm o valor nominal da especificao (61,0 HR). Portanto, a
equipe tcnica da indstria pode concluir, com 95% de confiana, que o processo estava centrado
abaixo do valor nominal e ento, deve-se passar a estudar o processo de recozimento contnuo
para descobrir as causas deste deslocamento.

12.2.2. Intervalo de Confiana para uma Proporo Populacional

Em muitas situaes pode ser de interesse construir um intervalo de confiana para a
proporo de elementos da populao que possuem alguma caracterstica de interesse (p).
Seja X o no de elementos de uma amostra de tamanho n que apresenta a caracterstica de
interesse. J vimos que um estimador de p :
n
X
p

=

Se o tamanho da amostra for suficientemente grande, possvel construir um intervalo
de (1-)100% de confiana para p, baseado em que segue uma distribuio
normal padro. Portanto, temos que


=
|
|

\
|
<

< =
|

\
|
< < 1
) 1 (
) (
2 / 2 /
2 2
z
p p
p p n
z P z Z z P
)

Como o valor de p no conhecido, uma soluo substituir por .
Assim, o intervalo de confiana de 1-(100)% para a proporo populacional p dado por:
(


n
) p 1 ( p
z p ;
n
) p 1 ( p
z p
2 2
.

Exemplo 12.6: Examinam-se 98 animais, encontrando-se 53 infectados com determinado vrus.
Construir um intervalo de 95% de confiana para a proporo p de animai infectados.
Soluo:
n = 98 (pode ser considerada grande)
541 , 0
98
53
= = p 459 , 0 ) 1 ( = p
= 0,05 e 96 , 1
2
=

z

57




12.2.3. Intervalo de Confiana para a Varincia e o Desvio Padro
de uma Populao Normal

Suponha que a populao de interesse tenha distribuio normal com mdia e varincia
2
e que desta populao foi extrada uma amostra aleatria de tamanho n. A partir do resultado
que a distribuio amostral da estatstica a distribuio qui-quadrado com n-1
graus de liberdade. Temos que,

.

Neste contexto, um intervalo de confiana para
2
de 100(1-)% de confiana



O intervalo de confiana para o desvio padro obtido extraindo a raiz quadrada dos limites
de confiana do intervalo para a varincia.

Exemplo 12.7: Voltando ao exemplo 12.5. Construa um intervalo de confiana para o desvio
padro da dureza de folhas-de-flandres. Suponha que a dureza siga uma distribuio normal.
(=5%)
Soluo: Intervalo de confiana para a varincia

HR
2
.
Ento, o intervalo de confiana para o desvio padro. Assim, podemos
afirmar com 95% de confiana que o desvio padro da dureza est entre e HR.

Observao: No gerenciamento de processos so muito comuns as situaes em que desejamos
comparar dois grupos de interesse, mantendo o controle dos riscos associados ao
58

estabelecimento de concluses incorretas. Consideremos por exemplo uma indstria que opera
duas linhas de produo. Muito provavelmente os tcnicos da empresa tero interesse em
comparar as duas linhas, com o objetivo de verificar se esto trabalhando de forma similar. As
comparaes de dois grupos geralmente podem ser traduzidas, na linguagem estatstica, em
comparaes de duas mdias, duas varincias ou duas propores. Este assunto no ser
abordado nesta apostila.

13. Noes de Testes de Hipteses

Outro tipo de problema da Inferncia Estatstica o de testar se uma conjectura sobre
determinada caracterstica de uma ou mais populaes , ou no, apoiada pela evidncia obtida de
dados amostrais.
Conjectura hiptese estatstica
Regra de deciso teste de hipteses
Alguns exemplos:
1. Testar se um novo tipo de fertilizante melhor que o fertilizante padro.
2. Testar se um novo mtodo de fabricao de lmpadas aumentar o tempo mdio de vida
das lmpadas.
3. Testar se um mtodo de preservar alimentos melhor que outro, no que diz respeito
reteno de vitaminas.
4. Determinar qual de dois tratamentos mais eficiente (problema de duas amostras)
Consideremos o exemplo das lmpadas. Suponha que no processo padro o tempo de
vida mdio conhecido de 1400 horas.
Objetivo: testar o novo processo de fabricao.
Modelo:
Duas populaes de lmpadas:
POP1 lmpadas fabricadas pelo processo padro;
POP2 lmpadas fabricadas pelo novo processo.
Informao anterior: Tempo de vida mdio das lmpadas fabricadas pelo processo padro de
1400 horas.
Pergunta: O tempo de vida mdio das lmpadas fabricadas pelo novo processo maior que 1400
horas?
Procedimento:
1. Estabelecer duas hipteses:
H
0
) o novo processo no melhor que o padro;
59

H
1
) o novo processo melhor que o padro.

2. Selecionar lmpadas fabricadas pelo procedimento novo, medir seus tempos de vida e
calcular o tempo de vida mdio, X , observado na amostra.
3. Suponha que a mdia da amostra selecionada 1550 X = horas. O resultado parece indicar
que o novo procedimento melhor.
Calculando-se o intervalo de confiana de 95% para o tempo de vida mdio do processo novo
obteve-se:
(1300; 1800)
Ou seja, no temos evidncia de que o novo processo melhor, uma vez que a mdia1 400 um
valor possvel para a mdia do novo processo (est contido no intervalo). Logo, tomaramos a
deciso de no rejeitar a hiptese H
0
.
Vamos supor agora, que o intervalo de confiana de 95% tivesse os seguintes limites: (1500;
1600). Neste caso, teramos forte evidncia para rejeitar H
0
e afirmar que o novo processo
superior.
Obs: Note que os testes de hipteses so muito relacionados com o problema de estimao por
intervalo.
13.1. Hiptese nula e hiptese alternativa

Em geral devemos decidir entre duas hipteses. Denominaremos essas hipteses de
H
0
hiptese nula
H
1
hiptese alternativa
No exemplo das lmpadas se a mdia do tempo de vida das lmpadas fabricadas pelo novo
processo, ento:
H
0
) 1400
H
1
) > 1400

13.2. Erro tipo I e Erro tipo II

Qualquer que seja a deciso tomada em um teste de hipteses, estamos sujeitos a cometer
erros, devido presena da incerteza.
Concluso do teste
Situao da populao
H
0
verdadeira H
0
falsa
No rejeitar H
0
Correto Erro tipo II
Rejeitar H
0
Erro tipo I Correto
60


fundamental que, em cada caso, se saiba qual so os erros possveis e que se decida a priori
qual o mais srio. No possvel controlar ambos os erros ao mesmo tempo. Quando
diminumos muita a probabilidade de erro tipo I, aumentamos a probabilidade do erro tipo II e
vice-versa.

Assim, a deciso de rejeitar H
0
equivalente opinio H
0
falsa e a deciso de aceitar H
0
no
equivalente opinio H
0
verdadeira. Neste caso a opinio adequada a de que os dados no
contm evidncia suficientemente forte contra H
0
.

Exemplo 13.1: No caso das lmpadas, o erro tipo I seria aprovar o novo processo de fabricao
quando na realidade ele no superior. O erro tipo II seria rejeitar o novo processo de fabricao
quando , de fato, melhor.

13.3. Nvel de significncia e Poder

O valor de fixado pelo pesquisador. Esta probabilidade recebe o nome de nvel de
significncia do teste. Usualmente, esses valores so fixados em 5%, 1% ou 0,1%. O valor 1-
chamado poder do teste. O poder do teste a capacidade deste de detectar que H
0
falsa quando
de fato esta hiptese falsa. No caso das lmpadas, o poder do teste seria a probabilidade deste
aceitar o novo processo de fabricao (rejeitar H
0
) quando este for realmente melhor.
Como a probabilidade do erro tipo I () fixada em valores pequenos, este deveria ser o
tipo de erro mais grave.

13.4. Estatstica de teste e regio crtica

A deciso entre as hipteses tomada com base nos dados de uma amostra extrada da
populao. No nosso exemplo, suspeitamos que o tempo de vida mdio das lmpadas maior que
1400. Colhe-se uma amostra aleatria de 100 lmpadas e determina-se o valor da mdia amostral
para, atravs dela, comprovar ou refutar tal hiptese.
Suponha que o pesquisador decide adotar a seguinte regra de deciso:
Rejeitar Ho se X for maior que 1800
Neste exemplo, X est sendo usada como estatstica de teste e a regio crtica ou regio de
rejeio aos valores que forem maiores que 1800.

61

13.5. Nvel Descritivo ou p-valor

O procedimento descrito anteriormente conhecido como procedimento clssico de testes
de hipteses. Um outro procedimento que vem sendo muito adotado consiste em
apresentar o p-valor do teste. A diferena bsica entre esses dois procedimentos que,
trabalhando-se com o p-valor no necessrio construir a regio crtica. Vejamos o seguinte
exemplo:
Suponha que no caso das lmpadas foi obtido X = 1550 para uma amostra de 100 lmpadas. O
pesquisador calcula a seguinte probabilidade:
1400) | 1550 ( = X P .
O valor desta probabilidade chamado de p-valor e neste exemplo, indica a probabilidade
de uma populao com mdia 1400 gerar uma amostra de tamanho 100 que tenha mdia igual ou
maior que o resultado observado. Caso esta probabilidade seja muito pequena devemos suspeitar
da veracidade da hiptese e portanto rejeitar que = 1400.
Procedimento para a deciso com o p-valor
1. Escolher o mximo valor de tolervel para o erro do tipo I ( ).
2. Se o p-valor for menor que o adotado, ento deve-se rejeitar a hiptese nula .

Regra de deciso
p-valor > no rejeitar
0 00 0
p-valor rejeitar
0 00 0

A sada dos pacotes estatsticos apresenta o p-valor.

13.6. Testes de Hipteses para Mdia Populacional

A mdia de uma populao uma de suas caractersticas mais importantes e frequentemente
temos que tomar decises a seu respeito. Vamos denotar um valor fixo qualquer por
0
.
Consideremos as diversas hipteses que podem ocorrer num teste de hipteses para mdias:

Hipteses unilaterais

0
)
0
(ou =
0
)

versus H
1
) >
0

0
)
0
(ou =
0
) versus H
1
) <
0

62

Hiptese Bilateral

0
) =
0
versus H
1
)
0


Distribuio normal,
2
desconhecido
Neste caso, como vimos em Intervalo de Confiana precisamos usar o desvio padro amostral s
para estimar , e utilizaremos a distribuio t de Student para encontrar a regio crtica do teste
ou calcular o p-valor. A estatstica de teste :
n
s
x
0



Vejamos as regras de deciso para cada tipo de hiptese considerada:


1.
0 00 0
) ) ) )
0 0 0 0
( ( ( (u = = = =
0 00 0
) ) ) ) versus H
1
) > > > >
0 00 0
. . . .

Rejeitar H
0
se
1 - n ,
0
t
n
s
x
>



2. 2. 2. 2.
0 00 0
) ) ) )
0 00 0
( (( (ou = = = =
0 0 0 0
) ) ) ) versus H
1
) < < < <
0 00 0


Rejeitar H
0
se
1 - n ,
0
t
n
s
x
<



3. 3. 3. 3.
0 00 0
) = ) = ) = ) =
0 00 0
versus H
1
)
0 00 0


Rejeitar H
0
se
1 ;
2
0
t
n
s
x

>




Exemplo 13.2: O tempo mdio, por operrio, para executar uma tarefa, tem sido 100 minutos.
Introduziu-se uma modificao para diminuir esse tempo, e, aps certo perodo, sorteou-se uma
amostra de 16 operrios, medindo-se o tempo de execuo de cada um. O tempo mdio da
amostra foi 85 minutos, e o desvio padro foi 12 minutos. Estes resultados trazem evidncias
estatsticas da melhora desejada? Apresente as suposies tericas usadas para resolver problema.
Soluo: As hipteses a serem testadas so

0
) 100 versus H
1
) < 100
63

Vejamos as estatsticas descritivas da amostra: mdia 85 e desvio padro 12.
Temos que = 0,05 e n = 16. Portanto
1 ,
t
n
= 1,753. A regio crtica
Rejeitar H
0
se
1 ,
0
t
n
s
x

<

n

Vamos substituir os valores:

Rejeitar H
0
se -1,753
16
12
00 1 85
<



Como o valor observado foi -5 e pertence regio crtica, a deciso deve ser de rejeitar H
0
, e
conclumos que existe evidncia de que o tempo mdio de execuo menor que 100 minutos.
Suposio: Varivel tempo segue distribuio Normal.

Tamanho da amostra suficientemente grande

Assim como vimos no caso dos Intervalos de Confiana, podemos utilizar a distribuio
normal para encontrar a regio crtica do teste ou calcular o p-valor. Vejamos as regras de deciso
para cada tipo de hiptese considerada:

1. 1. 1. 1.
0 00 0
) ) ) )
0 0 0 0
( ( ( (u = = = =
0 00 0
) ) ) ) versus H
1
) > > > >
0 00 0


Rejeitar H
0
se

0
z
n
s
x
>



2. 2. 2. 2.
0 00 0
) ) ) )
0 00 0
( (( (ou = = = =
0 0 0 0
) )) ) versus H
1
) < < < <
0 00 0


Rejeitar H
0
se

0
z
n
s
x
<



3. 3. 3. 3.
0 00 0
) = ) = ) = ) =
0 00 0
versus H
1
)
0 00 0


Rejeitar H
0
se
2
0
z
n
s
x

>


64


Exemplo 13.3: Uma rede de pizzarias deseja testar com nvel de 5% de significncia se o teor
mdio de gordura em peas de salame produzidas por determinada indstria de alimentos igual
a 15%. De um grande lote retirou uma amostra de 50 peas de salame e os resultados esto a
seguir:
19,8 23,4 13,6 6,6 13,7 5,2 14,3 13,3 12,2 14,3 8,5 15,8 16,0
18,3 28,7 11,6 16,4 14,4 26,2 17,0 6,5 10,0 24,5 34,9 19,1 6,9
19,5 11,0 8,9 10,6 9,5 14,0 6,0 18,0 10,8 16,7 18,4 10,1 12,3
6,5 25,4 15,3 12,1 13,1 7,7 17,4 10,7 24,1 14,0 21,4

As hipteses a serem testadas so

0
) = 15 versus H
1
) 15

Vejamos as estatsticas descritivas da amostra:

Teor de Gordura
Mdia 14,894
Desvio padro 6,3871

Temos que = 0,05 e portanto
2

z = 1,96. A regio crtica


Rejeitar H
0
se
2
0
z
n
s
x

>



Vamos substituir os valores:
Rejeitar H
0
se
2
z
50
6,3871
15 894 , 14

>



Assim, rejeitaremos H
0
se
2
z 1174 , 0

>

Como o valor observado foi 0,1174, que no pertence regio crtica, a deciso deve ser de no rejeitar
H
0
, e conclumos que no existe evidncia de que o teor de gordura nas peas de salame produzidas pela
indstria seja diferente de 15%.
65


Usando um pacote estatstico:

Varivel n Mdia Erro padro t p-valor
Teor de Gordura 50 14,894 0,903 -0,12 0,91


Exemplo 13.4: Iremos utilizar teste de hiptese para solucionar a dvida da equipe tcnica da
indstria siderrgica: pode-se concluir, com bastante segurana, que o processo de recozimento
contnuo estava centrado abaixo do valor nominal da especificao (61,0 HR)? Essa dvida pode
ser solucionada por meio da realizao de teste de hiptese para a dureza mdia () das folhas-
de-flandres produzidas pelo processo:

As hipteses a serem testadas so

0
) 61 versus H
1
) <61

Temos que = 0,05 e portanto

z = 1,65. A regio crtica


Rejeitar H
0
se

0
z
n
s
x
<


Vamos substituir os valores:

z <

50
0,611
1 6 212 , 0 6

Assim, rejeitaremos H
0
se

z 12 , 9 <

Como o valor observado foi -9,12, que pertence regio crtica, a deciso deve ser de rejeitar H
0
,
e conclumos que existe evidncia de que a dureza mdia nas peas produzidas pela indstria seja
inferior a 61.

13.7. Teste para Propores

Quando trabalhamos com grandes amostras vimos que a distribuio amostral das
propores se aproxima da distribuio normal. Se p a proporo populacional e p
0
um valor
fixo. A estatstica de teste :
66

n
q p
p p
0 0
0


Vamos considerar os seguintes testes:

1.
0 00 0
) ) ) ) p p
0 0 0 0
( (( ( p = == =p
0 00 0
) )) )

versus H
1
) p > > > > p

Rejeitar H
0
se

0 0
0
z
n
q p
p p
>


2.
0 00 0
) ) ) ) p p
0 0 0 0
( ( ( (u p = == =p
0 00 0
) )) )

versus H
1
) p < < < < p
0 00 0


Rejeitar H
0
se

0 0
0
z
n
q p
p p
<


3.
0 00 0
) ) ) ) p = = = = p
0 0 0 0


versus H
1
) p p
0 00 0


Rejeitar H
0
se
/2
0 0
0
z
n
q p
p p
>



Exemplo 13.5: A fbrica A de automveis afirma que 60% dos consumidores compram carros
produzidos por ela. Uma fbrica concorrente deseja testar a veracidade desta afirmao. Para isso
decide realizar uma pesquisa por amostragem com 300 proprietrios de veculos.
Soluo: Hipteses a serem testadas
H
0
) p = 0,60
H
1
) p < 0,60

p = proporo de consumidores que compram carros produzidos pela fbrica A.

A hiptese alternativa foi definida desta forma, pois se espera uma proporo menor,
nunca maior. Observe que a hiptese alternativa no foi influenciada pelo resultado da pesquisa.
Vamos fixar = 5% e como a amostra grande podemos utilizar aproximao normal e o
teste 2 dado acima.
67

Suponha agora que os resultados da pesquisa apontaram 165 proprietrios de carros da
fbrica A, isto equivale a uma proporo amostral ( p ) de 55% pois
p = 55 0
300
165
, =
Portanto devemos rejeitar H
0
se

0 0
0
z
n
q p
p p
<

.
Como = 5%, z

= 1,645 e 645 , 1 77 , 1
300
40 , 0 60 , 0
60 , 0 55 , 0
n
q p
p p
0 0
0
<


logo rejeitamos H
0
e conclumos que h evidncias de que a proporo de consumidores da
fbrica A inferior a 60% com 95% de confiana.


13.8. Teste de Hipteses para a varincia de uma Populao

Considere que uma amostra aleatria de tamanho n tenha sido extrada de uma populao
com distribuio normal com mdia e varincia
2
. O interesse testar uma hiptese sobre a
varincia
2
, que estimada por:

Suponha as seguintes hipteses do tipo bilateral

1.
0 00 0
) ) ) ) versus H
1
)

A estatstica de teste a ser usada :



em que tem distribuio Qui-Quadrado com (n-1) graus de liberdade, supondo que a hiptese
nula seja verdadeira.

Para um nvel de significncia , a regra de deciso dada por:

Rejeitar
0 00 0
se


Para a realizao dos testes unilaterais anlogo ao que foi apresentado para o teste bilateral.
68


2.
0 00 0
) ) ) ) versus H
1
)

Rejeitar H
0
se


3.
0 00 0
) ) ) ) versus H
1
)

Rejeitar H
0
se


Exemplo 13.8: Uma linha de montagem produz peas cujos pesos, em gramas, obedecem ao
modelo normal com varincia de 30 g
2
. Os equipamentos foram modernizados e, para verificar se
o processo continua sob controle, foi tomada uma amostra de 23 peas, que forneceu uma
varincia de 40 g
2
. Existem evidncias indicando que a varincia mudou, considerando =5%?

As hipteses a serem testadas so:

0
)
2
= 30 g
2
versus H
1
)
2
30 g
2
.
Temos que,
.

Usando = 5% obtido a partir da tabela da distribuio qui-quadradro os seguintes resultados:



Portanto
0
deve ser rejeitada se

ou


Como o valor observado foi 29,33, que no pertence regio crtica, a deciso deve ser de no
rejeitar H
0
, e conclumos que no existem evidncias de que a varincia do peso das peas mudou
para um valor diferente de 30 g
2
.





69

6
a
LISTA DE EXERCICIOS

1) De sua opinio sobre os tipos de problemas que surgiro no seguinte plano de amostragem.
Para investigar a proporo de estudantes da UFU, favorveis mudana do incio das
atividades das 7:10 h para as 8:00 h, decidiu-se entrevistar os 30 primeiros estudantes que
chegassem no bloco 4K, na segunda feira.
2) Uma populao encontra-se dividida em 3 estratos, com tamanhos, respectivamente, N
1
= 80,
N
2
=120 e N
3
= 60. Pretende-se retirar uma amostra de 50 elementos da populao. Por que
no recomendada uma amostra aleatria simples?
3) Para se ajustar uma mquina, a correia deve ter entre 60 e 62 cm de comprimento. Tendo em
vista o processo de fabricao, o comprimento destas correias pode ser considerado como
uma varivel aleatria com distribuio normal, de mdia 60,7 e desvio padro 0,8 cm. Um
grande revendedor dessas correias estabelece um controle de qualidade nos lotes que compra
da fbrica: ele sorteia 4 correias do lote e s aceita o lote se o comprimento mdio estiver
dentro do tamanho aceito pela mquina. Calcule a probabilidade de aceitao do lote.
4) Um processo de encher garrafas de vinho fornece 10% de garrafas com volume abaixo do
especificado. Extrada uma amostra aleatria de 400 garrafas enchidas por esse processo, qual
a probabilidade de a proporo amostral de garrafas com volume abaixo do especificado
esteja entre 9% e 11%?
5) Para uma distribuio qui-quadrado, determine , de modo que:
a) )=0,99
b) )=0,045
6) Dada uma amostra de tamanho 24 de uma distribuio normal, determine k de modo que:
a) P(-2,069<T<k)=0,965
b) P(k<T<2,807)=0,095
c) P(-k<T<k)=0,90
7) Se recolhesse 200 amostras de dimenso 40 a partir da mesma populao, de modo que com
elas construsse 200 intervalos de confiana a 99%, quantos destes intervalos esperariam que
contivessem o verdadeiro valor da proporo de estudantes em anlise?
8) Interprete e comente as afirmaes abaixo:
a) A mdia de salrio inicial para recmformados em Engenharia est entre 7 e 9 salrios
mnimos, com confiana de 95%
b) Quanto maior for o tamanho da amostra, maior a probabilidade de a mdia amostral
est prxima da verdadeira mdia populacional.
70

9) Num estudo de mercado foi encontrado o seguinte intervalo de confiana a 95% para a
proporo de pessoas receptivas a um novo tipo de espuma de banho a lanar em breve no
mercado: ]52%; 61%[ . Comente as seguintes afirmaes, indicando se estas lhe parecem
corretas ou incorretas:
a) 95% das pessoas vo passar a usar a nova espuma de banho.
b) A probabilidade da nova espuma de banho alcanar uma quota de mercado de 50% de
0.95.
c) A quota de mercado poder ser, com 95% de confiana, de 56.5% (valor intermdio do
intervalo);
d) O resultado obtido indica apenas que oportuno proceder ao lanamento da nova espuma
de banho.
10) Um provedor de acesso Internet est monitorando a durao do tempo das conexes de seus
clientes, com o objetivo de dimensionar seus equipamentos. Mais especificamente, deseja
estimar a proporo P de usurios que demoram 60 minutos ou mais para realizarem suas
operaes. Uma amostra aleatria de clientes que utilizam esse provedor foi coletada e o
tempo de utilizao de cada um foi registrado, fornecendo as seguintes medidas desse tempo
(em minutos):
25 28 28 40 52 15 120 34 65 78 42 16 44
27 22 36 50 80 15 45 23 34 14 58 32 90
133 48 19 17 28 39 15 40 33 68 27 37 42
59 62 73 24 28 40 70 19 46 43 31 60

a) D uma estimativa pontual para proporo de usurios que demoram 60 minutos ou mais
para realizarem suas operaes.
b) Construa uma estimativa intervalar com 95% de confiana para proporo de usurios
que demoram 60 minutos ou mais para realizarem suas operaes.
11) O consumo de combustvel uma varivel aleatria com parmetros dependendo do tipo de
veculo. Suponha que, para certo automvel, o desvio padro do consumo seja conhecido e
igual a 2 km/l. Porm, precisamos de informaes sobre o consumo mdio. Para tal coletamos
uma amostra de 40 automveis desse modelo e observamos o seu consumo.
a) Quem seria um estimador do consumo mdio para todos dos automveis desse modelo?
b) Se a amostra forneceu um consumo mdio de 9,3 km/l. Construa um intervalo de
confiana de 94% para a mdia de consumo desses carros.
71

c) Se a amplitude de um intervalo de confiana, construdo a partir dessa amostra, de 1,5
km/l; qual teria sido o coeficiente de confiana.
12) Uma empresa fabricante de pastilhas para freios efetua um teste para controle de qualidade de
seus produtos. Selecionou-se uma amostra de 600 pastilhas, das quais 18 apresentaram nveis
de desgaste acima do tolerado. Construir um intervalo de confiana para a proporo de
pastilhas com desgaste acima do tolerado, do atual processo industrial, com nvel de
confiana de 95%.
13) Um fabricante sabe que a vida til das lmpadas que fabrica tem distribuio
aproximadamente normal com desvio padro de 200 horas. Para estimar a vida mdia das
lmpadas, tomou uma amostra de 400 delas, obtendo vida mdia de 1.000 horas.
a) Construir um intervalo de confiana para ao nvel de 1%;
b) Qual o valor do erro de estimao cometida em a?
c) Qual o tamanho da amostra necessria para se obter um erro de 5 horas, com 99% de
probabilidade de acerto?
14) Uma amostra de 10.000 itens de uma produo foi inspecionada e o nmero de defeitos por
pea foi registrado na tabela abaixo:
Nmero de Defeitos 0 1 2 3 4
Frequncia Absoluta 6000 3200 600 150 50

a) Chamando de p a proporo de itens defeituosos nessa produo, determinar os limites de
confiana de 98% de p.
b) Qual o erro de estimao cometido em a?
15) De 50.000 vlvulas fabricadas por uma companhia retirou-se uma amostra aleatria de 400
vlvulas, obtm-se o tempo de vida til das vlvulas, em horas. Os resultados esto adiante.
Tempo de vida til das vlvulas Nmero de vlvulas
500 |-- 600 27
600 |-- 700 94
700 |-- 800 151
800 |-- 900 97
900 |-- 1000 31
Total 400

a) Qual o intervalo de confiana de 99% para a vida mdia da populao?
b) Que tamanho deve ter a amostra para que seja de 95% a confiana na estimativa 752,75
7,84?

72

16) Uma unidade fabril da Intel produziu 500.000 chips Pentium IV em certo perodo. So
selecionados, aleatoriamente, 400 chips para teste.
a) Supondo que 20 chips no tenham a velocidade de processamento adequada, construir o
intervalo de confiana par a proporo de chips adequados. Use um nvel de confiana de
95%.
b) Verifique se essa amostra suficiente para obter um intervalo de 99% de confiana, com
erro mximo de 0,5%, para proporo de chips adequada. Caso contrrio, qual deveria ser
o tamanho da amostra?
17) Uma amostra de 28 peas forneceu os seguintes pesos:
250 265 267 269 271 275 277 281 283 284
287 289 291 293 293 298 301 303 306 307
307 309 311 315 319 322 324 328
Considere que a varivel peso seja normalmente distribuda. Por meio da construo do Intervalo
de Confiana, responder se esta amostra satisfaz a especificao pela qual o peso mdio deve ser
300 Kg. Adote = 2,5%.
18) Suponha uma amostra aleatria de 10 contas correntes em uma grande loja de uma cadeia,
com um saldo devedor mdio de 27,60 dlares. Admita que o desvio padro de todos os
saldos de 12,00 dlares.
a) Calcule o intervalo de 95% de confiana para a mdia de todos os saldos. Suponha
normalidade.
b) Explicar ao vice-presidente da firma o significado de sua resposta (a), em termos to
simples quanto possveis.
19) Uma empresa de embalagens que presta o servio de envelopamento de revistas, decidiu
reduzir a proporo de embalagens defeituosas produzidas.
A empresa tomou como meta reduzir para menos de 2% a proporo de embalagens defeituosas
at o final do ano. Para alcanar esta meta foram adotadas aes corretivas.
Foram coletadas 2000 revistas embaladas, para confirmar a efetividade das aes. Dentre estas
revistas 50 foram consideradas defeituosas. Construa um intervalo de 99% de confiana para a
proporo de defeituosas (p). A partir da interpretao do intervalo, a empresa pode concluir que
a meta de melhoria foi alcanada?
20) Uma companhia de seguros decidiu avaliar qual era a proporo de formulrios de aplices de
seguro preenchidos incorretamente (p) pelos operadores responsveis por esta tarefa. A
empresa considerava um resultado indesejvel descobrir que p 5%, o que implicaria na
necessidade de ser iniciado um trabalho para melhorar o nvel de qualidade que vinha sendo
73

alcanado. De uma amostra de 200 formulrios examinados, foram encontrados 9 que
apresentavam erros no preenchimento. A partir deste resultado, os tcnicos da empresa
desejam tomar uma deciso. Construa um intervalo de confiana para p e diga qual a deciso.
( = 5%) .
21) Para avaliar a dureza de um material plstico recolheu-se uma amostra aleatria de oito
elementos. Os resultados obtidos foram:


Supondo normalidade para a varivel de estudo, responda os itens adiante.
a) Determine uma estimativa pontual para a mdia e para o desvio padro da dureza do
material plstico.
b) Encontre um intervalo a 95% de confiana para a mdia.
c) Encontre um intervalo a 90% de confiana para o desvio padro.
22) A cadeia de hotis American Resort d um teste de aptido aos candidatos a emprego, e
considera fcil uma questo do tipo mltipla escolha se ao menos 80% das respostas so
corretas. Uma amostra aleatria de 6503 respostas a determinada questo apresenta 84% de
respostas corretas. Construa o intervalo de confiana de 99% para a verdadeira percentagem
de respostas corretas. admissvel que a questo seja realmente fcil? Justifique.
23) Uma lei estadual exige um valor mdio superior a cinco ppm de oxignio dissolvido na gua,
cujo contedo seja suficiente para manter a vida aqutica. Oito amostras aleatrias de gua
foram retiradas de um rio e revelaram os seguintes ndices de oxignio dissolvidos:
4,9 5,1 4,9 5,0 5,0 4,7 5,8 5,2
a) Supondo que a populao tenha distribuio normal, construa o intervalo com 90% de
confiana para a verdadeira mdia de oxignio dissolvido no rio.
b) Supondo que a populao tenha distribuio normal, construa o intervalo com 90% de
confiana para o desvio padro do oxignio dissolvido no rio.
24) Os Lderes estudantis de uma faculdade querem conduzir uma pesquisa para determinar a
proporo p de estudantes a favor de uma mudana no horrio de aulas. Como impossvel
entrevistar todos os 2000 estudantes em um tempo razovel, decide-se fazer uma amostragem
aleatria simples dos estudantes:
a) Determinar o tamanho de amostra (nmero de estudantes a serem entrevistados)
necessrio para estimar p com um erro mximo de 0,05 e nvel de conana de 95%.
Assumir que no h nenhuma informao a priori disponvel para estimar p.
74

b) Os lderes estudantis tambm querem estimar a proporo de p de estudantes que sentem
que a representao estudantil atende adequadamente as suas necessidades. Com um erro
mximo de 7% e nvel de conana de 95%, determinar o tamanho de amostra para
estimar p. Utilizar a informao de uma pesquisa similar conduzida a alguns anos, quando
60% dos estudantes acreditavam que estavam bem representados.
c) Qual o tamanho de amostra adequado para atingir ambos os objetivos da pesquisa?
25) Um gerente de uma filial de uma cadeia de livrarias deseja estudar as caractersticas dos
clientes de sua loja, que se localiza perto do campus de uma Universidade Federal. Ele
decidiu concentrar seu estudo em duas variveis: o valor gasto pelos clientes e se os clientes
esto interessados em adquirir vdeos educativos relacionados s reas de interesses (vdeos
sobre economia, estatstica, pesquisa operacional, etc.). Foi selecionada uma amostra aleatria
de 70 clientes e os resultados foram os seguintes: o valor gasto, em mdia, por cliente foi de
R$28,52 com desvio-padro de R$11,39 e 28 clientes declararam interesse em adquirir os
vdeos.
a) Determine o intervalo de confiana de 95% para o verdadeiro valor mdio gasto por
cliente.
b) Determine o intervalo de confiana de 99% para a verdadeira proporo de clientes que
declararam interesse em adquirir os vdeos educativos.
c) Para o nvel de confiana de 95%, qual deve ser o tamanho da amostra necessrio para
que o erro cometido na estimao da proporo de clientes que declararam interesse em
adquirir vdeos educativos seja de, no mximo, 5%?
d) Para um nvel de confiana de 99%, qual deve ser o tamanho da amostra para que o erro
cometido na estimao do valor mdio gasto por cliente seja de, no mximo, R$4,00?
26) A associao dos proprietrios de industrias metalrgicas est muito preocupada com o tempo
perdido com acidentes de trabalho, cuja mdia, nos ltimos tempo, tem sido da ordem de 60
h/homem por ano e desvio padro de 20 h/homem. Tentou-se um programa de preveno de
acidentes e aps o mesmo, tomou-se uma amostra de 9 indstrias e mediu-se o nmero de
horas/homens perdidas por acidentes que foi 50 horas. Voc diria, ao nvel de 5%, que h
evidncia de melhoria?
27) O rtulo de uma caixa de sementes informa que a taxa de germinao de 90%. Entretanto,
como a data de validade est vencida, acredita-se que a taxa de germinao seja inferior a este
nmero. Foi realizado um experimento e de 400 sementes, tomadas ao acaso, 350
germinaram. Qual a concluso do teste ao nvel de 1% de significncia?


75

28) A fora de compresso de concreto est sendo testada por um engenheiro civil. Ele testa 12
amostras e obtm os seguintes dados:
2216 2237 2249 2204 2225 2301 2281 2263 2318 2255 2275 2295
Suponha normalidade para a populao de estudo, responda os itens a seguir:
a) Construir o intervalo de 95% para a fora mdia;
b) Construir o intervalo de 99% para a fora mdia;
c) Ao nvel de 5% de significncia, verificar se a verdadeira mdia da fora de compresso
difere de 2280.
d) Repetir o item c, usando =1%.
e) Repetir o item c, porm verificando se a verdadeira mdia da fora de compresso difere
de 2300.
f) Compare as concluses obtidas usando Intervalo de Confiana e teste de hipteses.
29) Um jornal afirma que 40% dos seus leitores tm curso superior. Um jornal concorrente afirma
que essa proporo menor. Para verificar sua suspeita, o concorrente sorteou 200 leitores
daquele jornal e observou os seguintes resultados:









a) Formule esse problema como um problema de teste de hipteses.
b) Quais os tipos de erros que podem cometidos ao testar as hipteses estabelecidas no item a?
Explique cada um deles.
c) Para um nvel de significncia de 10%, qual foi a concluso do concorrente?
30) Numa linha de produo importante que o tempo gasto numa determinada operao no
varie muito de empregado para empregado. Em operrios bem treinados a variabilidade fica
em 100 segundos
2
. A empresa colocou 11 novos funcionrios para trabalhar na linha de
produo, supostamente bem treinados, e observou as seguintes informaes, em segundos:

Testar se a tempo despendido por estes funcionrios pode ser considerado mais varivel do que
os demais funcionrios. Suponha que a populao seja normalmente distribuda e utilize 5% de
significncia. Para um nvel de significncia de 10%, qual foi a concluso?

Apresenta nvel
superior
Nmero de
leitores
Sim 70
No 105
Total 200
76

31) Um representante de um grupo comunitrio informa a uma construtora de shoppings que a
renda familiar mdia nessa rea igual a R$ 4500,00. Com base em estudos anteriores, a
renda familiar, para o tipo de rea envolvida, pode ser assumida como tendo uma distribuio
normal. A construtora considera um fator importante para decidir a localizao do shopping
que a renda familiar mdia da populao da rea no esteja abaixo do valor R$ 4500,00
informado pelo representante. Para verificar a informao do representante, uma amostra de
26 residncias selecionadas aleatoriamente foi obtida e a renda familiar mdia encontrada foi
igual a R$ 4150,00, com desvio padro igual a R$ 1200,00.
a) Realize o teste e apresente qual a concluso do construtor de shopping, ao nvel de
significncia de 10%.
b) A deciso do construtor de shopping seria a mesma do item b se o nvel de significncia
adotado fosse de 5%? Justifique sua resposta.
32) Um restaurante alega que a varincia para a durao do intervalo entre um atendimento e
outro inferior a 8,41 minutos
2
. Uma amostra aleatria de 23 intervalos de tempo at o
servio tem uma varincia de 4,41 minutos
2
. Sendo =10%, h evidncia suficiente que
sustente a alegao do restaurante? Suponha que a populao seja normalmente distribuda.
33) Avaliou-se em 240 kg o desvio padro das tenses de ruptura de certos cabos produzidos por
uma fbrica. Depois de ter sido introduzida uma mudana no processo de fabricao desses
cabos, as tenses de ruptura de uma amostra de 8 cabos apresentaram o desvio padro de 300
kg. Verifique se houve aumento aparente da varincia, ao nvel de significncia de 5%.
Suponha que a populao seja normalmente distribuda.
34) Um estudo foi desenvolvido para avaliar o salrio de empregados de nvel mdio na cidade de
Salvador. Foram sorteados e entrevistados 200 trabalhadores. Admita que o desvio padro
dessa cidade de 0,80 salrios mnimos.
a) Voc conhece a distribuio do estimador de ? Se no, possvel fazer alguma
suposio?
b) Deseja-se testar se a mdia igual a 3 salrios mnimos ou menor. Formule as hipteses
adequadas.
c) Se a amostra forneceu mdia de 2,5 salrios mnimos, qual seria a concluso?

35) Um comprador, ao receber de um fornecedor um grande lote de peas, decidiu inspecionar
200 delas. Decidiu, tambm, que o lote ser rejeitado se ficar convencido, ao nvel de 5% de
significncia, de que a proporo de peas defeituosas no lote superior a 4%.
77

A partir das informaes do texto acima e da sada do programa computacional R defina as
hipteses e tome a deciso (no rejeitar ou rejeitar o lote).
Exact binomial test
data: 12 and 200
number of successes = 12, number of trials = 200, p-value = 0.1075
alternative hypothesis: true probability of success is greater than 0.04
95 percent confidence interval:
0.03498213 1.00000000
sample estimates:
probability of success 0.06

36) Uma mquina de refrigerantes considerada fora de controle se a varincia dos contedos
exceder 1,15 decilitros
2
. Se uma amostra aleatria de 25 copos de bebidas dessa mquina
apresentou uma varincia de 2,03 decilitros
2
. Assuma que a varivel de estudo tenha
distribuio aproximadamente normal. Para um nvel de significncia de 10%, h evidncias
de que a mquina est fora de controle?
37) A fim de acelerar o tempo que um analgsico leva para penetrar na corrente sangunea, um
qumico analista acrescentou certo componente frmula original, que acusava um tempo
mdio de 43 minutos. O pesquisador obteve 26 observaes atravs de um experimento com
a nova frmula. A partir da sada do programa R, o que analista pode concluir, ao nvel de 5%
de significncia, sobre a eficincia do novo componente? (Suponha que a populao tenha
distribuio Normal)

One Sample t-test
data: Tempo
t = -1.6709, df= 25, p-value = 0.0536
alternative hypothesis: true mean is less than 43
95 percent confidence interval:
-Inf 43.03842
sample estimates:
mean of x
41.27431


78

38) Para verificar as hipteses de seu trabalho, um pesquisador fez vrios testes estatsticos (um
para cada hiptese de pesquisa), adotando para cada teste o nvel de significncia de 5%.
Responda os seguintes itens adiante:
a) Num dado teste, o p-valor=0,0001. Qual deve ser a concluso (decide-se pela hiptese
nula ou pela hiptese alternativa)? Qual o risco de o pesquisador estar tomando a deciso
incorreta?
b) Em outro teste, o p-valor=0,25. Qual deve ser a concluso? Nesse caso, voc consegue
avaliar o risco de o pesquisador estar tomando a deciso incorreta?
c) Em outros dois testes, os p-valores forams de 0,0001 e 0,01, respectivamente. Em qual
dos testes o pesquisador deve estar mais convicto na deciso de qual hiptese deve ser
escolhida? Por qu?
39) Os seguintes dados vm de um estudo que examina a eficcia da cotinina na saliva como um
indicador para a exposio fumaa do tabaco. Em uma parte do estudo, sete indivduos
nenhum dos quais grandes fumantes e todos eles se abstiveram de fumar pelo menos uma
semana antes do estudo foi solicitado fumar um nico cigarro. Foram tomadas amostras da
saliva de todos os indivduos 12 e 24 horas depois de terem fumado o cigarro. Os nveis de
cotinina obtidos so mostrados adiante*:
Indivduo
Nveis de Cotinina (mmol/l)
Depois de 12 horas Depois de 24 horas
1 73 24
2 58 27
3 67 49
4 93 59
5 33 0
6 18 11
7 147 43
*DIGIUSTO, E. e ECKHARD, I. Some Properties of Saliva Continine Measurements in Indicating Exposure To Tobacco
Smoking, American Journal of Public Health, v. 76, out., 1986, p. 1245-1246.

A partir da sada de um programa computacional a seguir, teste a hiptese nula de que as mdias
da populao sejam idnticas ao nvel de significncia de 5%. O que voc conclui?

Paired T-Test

N Mean StDev SE Mean
Doze 7 69.8571 42.2154 15.9559
VinteQuatro 7 30.4286 21.1176 7.9817
Difference 7 39.4286 31.3946 11.8660
95% CI for mean difference: (10.3934, 68.4637)
T-Test of mean difference = 0 (vs not = 0):
T-Value = 3.32
P-Value = 0.016



79




Gabarito

1) No representa a populao. Somente um
dia, em um prdio e nico horrio.
2) Populao no homognea.
3) 0,9593 4) 0,516
5) a) 0,297 b) 46,928 6) a) 2,5 b) 1,319 c) 1,7139 8) 198
7) 198

8) a)O intervalo, acompanhado da confiana, a forma correta de apresentar a informao. A
verdadeira mdia est contida no intervalo com 95% de confiana. No confundir confiana com
probabilidade.
b) A afirmao est correta.
9) a) incorreta; b) incorreta ; c) incorreta d) correta
10) a) 0,22; b) [0,105; 0,335] 11) a) Mdia amostral; b)[8,71; 9,89], c)98%
12) [1,64%; 4,36%] 13) a)[972,4 ; 1025,8 ] ; b) 25,8 hs; c) 10651

14) a) [38,86% ; 41,14% ] b) 1,14% 15) a) [739,5 ; 766,0] , b) 663
16) a) [92,9%; 97,1%] b)12.298 17) a)[286,23; 301,27]
18) [20,16 ; 35,04] 19) [ 0,016 ; 0,034]
20) [ 0,016; 0,0737]

21) a) = 4,89, s=0,181; b)[4,76; 5,02]
22) [ 82,8% ; 85,2%] . Sim. 23) [4,88; 5,27] ; b)[0,23; 0,59]
24) a)385; b)189; c) Para atingir ambos os objetivos da pesquisa deveram considerar a maior
amostra, que a de 385 estudantes.
25) a)[24,30; 32,74]; b)[0,249; 0,551];
c)369; d)54
26) No. Regio crtica (-;-1,645]
27) A taxa de germinao no inferior a 90%. Regio crtica (-; -2,58]
28) a) [2237,32 ; 2282,52] b) [ 2228,02; 2291,89 ] c) No. A verdadeira mdia da fora de
compresso no difere de 2280, com 95% de confiana. d) No. A verdadeira mdia da fora de
compresso no difere de 2280, com 99% de confiana e) com 95% de confiana difere de
2300.
29) a) P=0,40 vs P<0,40; b) Erro tipo I- Dizer que a proporo de leitores menor do que 40%
quando na verdade proporo igual a 40%. Erro tipo II- Dizer que a proporo de leitores
igual a 40% quando na verdade a proporo menor. C)No rejeita a hiptese nula. Regio crtica
80

(-; -1,44]
30) No. Regio crtica [18,3070; )
31) a)No construir o shopping. Regio crtica [1,28; ) b) No.
32) Rejeita se Ho , pois
33) No se Rejeita Ho, pois
34) a)No conhecemos e supomos n grande para aplicar o Teorema Central do Limite
b) H
0
: =3 vs H
1
: <3. Rejeita H
0
, regio crtica (-; 2,86]
36) Rejeita Ho, pois
38) a) Decide-se por H
1
, pois o p-valor menor que o nvel de significncia adotado. Dada a
evidncia da amostra, o risco dele estar tomando a deciso incorreta de 0,0001.
b) Decide-se por H
0
, pois p-valor maior do que o nvel de significncia adotado. Dada a
evidncia da amostra, quando se no rejeita H
0
o p-valor no oferece qualquer informao sobre
o risco de se estar tomando a deciso incorreta.
c) Quanto menor o p-valor existe maior evidncia para a rejeio de H
0
.


Bibliografia:

1) MAGALHES, Marcos Nascimento; LIMA, Antonio Carlos Pedroso de. Noes de probabilidade e
estatstica. 6. ed., rev So Paulo, SP: EDUSP, 2005 392 p.
2) MONTGOMERY, Douglas C.; RUNGER, George C.; HUBELE, Norma Faris. Estatstica aplicada
engenharia. Rio de Janeiro: LTC, 2004. 335 p.
3) MORETTIN, Pedro Alberto; BUSSAB, Wilton de Oliveira. Estatstica bsica. 5. ed. So Paulo: Saraiva, 2006.
526 p.
4) WERKEMA, Maria Cristina Catarino. Como estabelecer concluses com confiana: entendendo inferncia
estatstica. Belo Horizonte, MG: UFMG. Escola de Engenharia, [1996]. 309 p. (Ferramentas da qualidade 4) .











81






82








83

Você também pode gostar