Explorar E-books
Categorias
Explorar Audiolivros
Categorias
Explorar Revistas
Categorias
Explorar Documentos
Categorias
Probabilidade e
Inferência
Este material não pode ser copiado, reproduzido, reimpresso, utilizado em filmes ou gravações de vídeo
ou armazenado em dispositivos eletrônicos sem a permissão escrita dos detentores dos direitos de co-
pyright. O material não pode ser incorporado em programas de treinamento com exceção da supervisão
de algum instrutor da EDTI Consultoria e Treinamento LTDA.
Autor:
Impresso no Brasil
3
Sumário
Capítulo 1. Estatística Descritiva ............................................................................................................. 6
Distribuições .............................................................................................................................. 10
Box Plot...................................................................................................................................... 34
Introdução .................................................................................................................................. 49
Variância .................................................................................................................................... 62
População e Amostra.................................................................................................................. 95
População ................................................................................................................................... 99
Amostra ...................................................................................................................................... 99
Procedimentos gráficos para verificar a condição de amostra aleatória simples ..................... 102
Variabilidade e Estatística
A Estatística é um conjunto de conceitos e técnicas utilizadas no planejamento da coleta de dados e na sua
análise, visando resolver problemas reais. Claramente, cientistas, engenheiros, economistas e outros pro-
fissionais estão envolvidos com essas atividades, e, portanto, necessitam utilizar a Estatística. Além disso,
de uma forma ou de outra, todas as pessoas são afetadas pelo uso da Estatística. Cada vez mais órgãos
governamentais e empresas baseiam suas decisões, as quais afetam o dia a dia das pessoas, em análises
estatísticas, o que faz com que não só profissionais tenham de adquirir algum conhecimento dessa técni-
ca.
O que torna essa disciplina de grande utilidade, e única, é que sua aplicação ocorre em situações ou pro-
cessos onde a incerteza e variabilidade estão presentes.
Para avaliar a utilidade de um produto para o consumidor, características de qualidade são medi-
das no produto. Dois itens produzidos nas mesmas condições não são, em geral, idênticos, com respeito
às características de qualidade consideradas. Existe uma variabilidade inerente em cada processo Os mé-
todos estatísticos são desenvolvidos para lidar com a incerteza e a variabilidade. Eles são fundamentais
para se fazer inferências sobre processos a partir de uma amostra de uma população.
Em todas as situações descritas acima o que obtemos são respostas, as quais podem assumir dife-
rentes características: podem ser resultados numéricos (renda familiar, tempo de sobrevivência) ou sim-
plesmente resultados qualitativos (opção partidária, local de nascimento, sobrevivência ou não de um
animal, etc.).
Para avaliar a performance do processo e a qualidade do que se está produzindo é necessário cole-
tar dados sobre o processo ou produto. Os dados devem ser analisados e decisões devem ser feitas com
respeito ao processo, e essas decisões devem ser tomadas na presença de variabilidade. A Estatística é a
ferramenta adequada para se planejar a coleta de dados que sejam relevantes para o problema em estudo,
bem como para analisá-las.
Existem muitas razões para a presença dessa variabilidade. Por exemplo, a variabilidade pode
surgir porque as condições em que um produto é fabricado variam ao longo do tempo. Essa variabilidade
pode se originar por variações na matéria prima, diferenças entre as máquinas, entre operadores, entre
condições de operações (temperatura, umidade, pressão). Parte da variabilidade pode ser originária do
próprio sistema de medição utilizado. Instrumentos de medição de baixa precisão ou entrevistadores mal
treinados são alguns exemplos. Esta variabilidade é chamada de variabilidade devida ao processo de me-
dição.
A coleta de dados é o primeiro passo a ser executado quando se está analisando um processo.
Mesmo nas situações mais simples, é necessário planejar a coleta de dados, observando que os mesmos
sejam relevantes para o estudo a ser realizado.
Os dados coletados sobre um processo devem fornecer informações para a que a equipe de me-
lhoria possa atuar no processo visando a sua melhoria. Para isso, é necessário que a equipe saiba porque
eles precisam dos dados, que dados serão coletados, quando e como eles serão obtidos.
Em alguns casos os dados são coletados simplesmente para descrever o processo. Em outras situ-
ações, os dados são coletados para monitorar o processo. Por exemplo, se a empresa produz um produto
que tem um peso liquido especificado, é necessário retirar amostras de tempos em tempos e testar se o
processo está sob controle.
A próxima etapa é decidir que dados serão coletados. Qualquer processo gera uma quantidade
grande de variáveis que podem ser medidas com o objetivo de controlar o processo. Algumas são críticas
para o controle e outras são irrelevantes. Mesmo algumas variáveis críticas podem não estar disponíveis
para análise a tempo de permitir interferência no processo.
A equipe de melhoria deve considerar também em que ponto do processo os dados devem ser co-
letados. Por exemplo, se o produto é formado de várias partes, as medidas serão realizadas nas partes ou
no produto final?
9
A decisão sobre como os dados serão coletados deverá levar em consideração o custo de obtê-los
(análise de laboratório, teste destrutivo, dispositivo de medição, etc.), a quantidade de tempo necessária
para se obter a medida e principalmente a acurácia e a precisão do processo de medida (dispositivo de
medida, método analítico, etc.).
Em todos os casos, é necessário ponderar a acurácia e precisão versus o custo e o tempo para se
obter a informação. Tão importante quanto o aspecto técnico de se fazer a medição é o aspecto da seleção
dos itens a serem medidos. O procedimento de seleção do itens é denominado de plano amostral . Quan-
do se retira uma amostra do processo, o objetivo pode ser medir uma característica de qualidade nos itens
da amostra, e estimar um parâmetro do processo, por exemplo, no caso de produção de cerveja, o teor al-
coólico médio. Para que se possa avaliar a precisão dessa estimativa, é importante que a amostragem do
processo seja feita de forma probabilística. Voltaremos a esse tema mais à frente.
Alberto M 32 67 N
Joana F 45 76 S
Cecília F 29 57 N
Pedro M 30 79 N
Fernando M 56 75 S
10
Outros dados são obtidos pela organização através de publicações especializadas, bancos de da-
dos de serviços, relatórios governamentais, etc.
Quando se usa qualquer fonte de dados, é necessário estar atento para as limitações e para a qua-
lidade dos dados. Deve-se estar atento para a possibilidade de que ocorram erros na aquisição dos dados.
Esses erros podem ser devidos aos instrumentos de medida utilizados, erros de transferência dos dados de
um meio (papel) para outro (arquivo computacional), erros de preenchimento de questionários, dupla con-
tagem, transformações de variáveis devido a erro no programa computacional, etc. É importante também
obter uma boa descrição do significado e do conteúdo das variáveis a serem analisadas. Conclusões errô-
neas podem ser tiradas quando não se atenta para esses detalhes.
Distribuições
11
Existe outro conceito importante que queremos introduzir logo no início dessa discussão. Esse
conceito é o de distribuição. Para tanto considere o conjunto de dados que contém o peso líquido de leite
evaporado em gramas de uma amostra retirada da produção.
Examinando o arquivo, nós encontramos 60 registros, sendo que os pesos variam de 265.1 a
281.8 gramas .A maioria dos pesos, entretanto, está entre 270 e 276 gramas. Uma melhor descrição dos
pesos, do ponto de vista estatístico, e feita através da distribuição dos pesos. A distribuição é representada
graficamente pela figura abaixo. Através do gráfico podemos observar o comportamento dos pesos e
examinar características como: simetria da distribuição, região onde há maior concentração de valores, o
centro da distribuição (média, mediana, etc.), a dispersão dos valores em torno de um valor central. Po-
demos observar também que aproximadamente 10% dos latas tem peso líquido acima de 277.3. A distri-
buição, como veremos em detalhes mais à frente, nos fornece uma grande quantidade de informações so-
bre o conjunto de dados que estamos analisando. A figura a seguir apresenta a distribuição dos valores de
peso líquido do conjunto de dados apresentado acima.
Quando examinamos a distribuição, não estamos interessados nos valores individuais, mas sim
no conjunto das respostas. O conjunto das respostas pode ser caracterizado por alguns poucos números
que quantificam características importantes.
Suponha que estamos produzindo um determinado tipo de peça fundida para uma indústria auto-
mobilística e que a característica de qualidade de interesse é uma dimensão da peça, e que essa dimensão
deve atender certas especificações. Quando avaliamos o processo, não estamos interessados no valor da
característica para cada peça produzida. Queremos saber qual é o valor médio dessa dimensão, se o pro-
cesso produtivo apresenta muita ou pouca variabilidade, qual é a porcentagem de peças produzidas que
não atende às especificações, etc. É difícil obter-se essas informações olhando-se para todos os valores da
produção, ou mesmo para todos os valores medidos em uma amostra. É necessário que se utilize algum
recurso para sumariar os dados e retirar as informações que são relevantes.
Quando estudamos um processo discreto, podemos medir cada item produzido. Em processos
contínuos, a necessidade de caracterizar o processo a partir de uma amostra é mais evidente.
13
As situações reais com que nos defrontamos são as mais diversas. Os métodos que serão apresen-
tados aqui funcionam sob situações bastante gerais, e se aplicam tanto a situações em que os dados foram
obtidos de uma amostra (fração) da população, bem como a situações em que todos os indivíduos da po-
pulação são avaliados (censo), mas com certeza não funcionarão em todas as situações. Entretanto, alguns
aspectos da análise merecem ser destacados. Cada conjunto de dados deveria ser examinado sob os se-
guintes aspectos:
Classificação de Variáveis
É comum representarmos o peso de uma criança por um número que expressa a quantidade em
gramas. Por outro lado, o sexo de uma criança é, em geral representado por F ou M. Nada impede que uti-
lizamos os códigos 1 e 2 para Masculino e Feminino respectivamente, mas nesse caso os numerais 1 e 2
representam símbolos.
Variáveis em um conjunto de dados podem ser classificadas de muitas formas distintas, depen-
dendo do objetivo. A classificação pode ser feita em função da relação entre as variáveis (dependente ou
independente) do tipo de observação gerada (numérica, não numérica), da técnica de análise empregada,
14
ou de qualquer outro objetivo. Apresentaremos algumas classificações que serão úteis no desenvolvimen-
to do texto.
Escala discreta Variáveis medidas numa escala discreta assumem valores que podem ser
associados com os números naturais. Ou de outra forma, é possível ordenar todos os valores possíveis de
ocorrerem. A idade de uma pessoa em número de anos completos, o número de pessoas que habitam uma
residência são exemplos de variáveis discretas. O conjunto de valores possíveis pode ser finito ou infinito
enumerável. Esse tipo de escala surge naturalmente quando realizamos contagens
Incluímos nesse tipo de variáveis aquelas em que a escala de medidas consiste de um conjunto de
categorias, como por exemplo, a filiação partidária, o sexo de um recém-nascido, etc. Variáveis medidas
numa escala discreta são chamadas às vezes de categóricas, dependendo do número de níveis e da técnica
estatística empregada na sua análise.
15
Escala contínua Variáveis medidas numa escala continua têm conceitualmente um núme-
ro ilimitado de valores que não podem ser ordenados Por exemplo, a temperatura do corpo é medida nu-
ma escala contínua. Não devemos confundir a variável com o instrumento usado para medir a variável.
Obviamente o termômetro tem uma precisão limitada que faz com que o resultado da medida da tempera-
tura seja discreto. De fato, como todas as variáveis contínuas são medidas por instrumentos com precisão
discreta, variável contínua é apenas um modelo que é útil na prática.
É necessário fazer aqui uma distinção entre medidas nominais e medidas ordinais.
Medidas nominais Medidas nominais ocorrem quando não há uma ordem natural no valor
da variável. Por exemplo, filiação partidária (PMDB, PSDB, PT, PFL), tipo de residência (casa, aparta-
mento, barraco, etc.). Sexo é uma medida nominal com "macho" e "fêmea" como valores. Poderíamos
codificar o sexo como "1" e "2", mas os números nesse caso não tem significado como números, mas co-
mo nomes.
Para esse tipo de variável, a ordem com que os valores da variável é listado é irrelevante para a
análise estatística.
Medidas ordinais Medidas ordinais tem uma ordem inerente que corresponde aos valores
das variáveis. Pesquisas de opinião usam uma escala ordinal com valores: concorda fortemente, concorda,
indiferente, não concorda, discorda fortemente. Poderíamos associar números a essas respostas, mas nesse
caso teríamos que atribuir números de acordo com uma escala ordinal. Por exemplo, atribuiríamos 1 a
discorda fortemente, 2 a discorda, e assim por diante. Medidas ordinais “ordenam” as categorias mas não
estabelecem necessariamente uma distância entre as categorias.
Distinguir se uma variável categórica é ordinal ou nominal depende do contexto em que ela está
sendo utilizada. Por exemplo, se estamos “medindo” a cor da pele de um indivíduo e classificando-a entre
negro, mulato e branco, não há uma ordem nessa classificação. Por outro lado, para uma indústria alimen-
tícia, a cor da bolacha produzida reflete a quantidade de energia recebida pela mesma durante o tempo
que permaneceu no forno, e nesse caso há uma ordem subjacente na cor da bolacha.
16
A própria distinção entre variável discreta e variável contínua às vezes depende da técnica estatís-
tica empregada na sua análise. Procuraremos deixar claro essa distinção quando for necessário.
Tabela de frequência
Uma etapa importante na análise estatística é a sumarização dos dados através da construção de
tabelas e gráficos e do cálculo de quantidades que representem características importantes do conjunto de
dados tais como distribuição, locação e dispersão.
33.1 37.0 39.2 40.0 41.2 42.7 44.0 45.3 47.0 50.2
33.5 37.2 39.2 40.0 41.2 43.0 44.0 45.3 47.0 50.5
34.7 37.5 39.2 40.2 41.5 43.0 44.2 45.5 47.2 51.6
35.0 38.0 39.5 40.5 41.5 43.0 44.2 45.5 47.5 51.7
35.2 38.2 39.5 40.7 41.7 43.2 44.5 46.0 47.6 52.7
35.5 38.5 39.5 40.7 42.1 43.2 44.5 46.0 47.8
35.7 38.7 39.7 41.0 42.1 43.5 44.8 46.5 48.1
36.1 38.7 39.7 41.0 42.2 43.5 44.9 46.5 48.2
36.5 38.8 39.7 41.0 42.2 43.5 45.1 46.7 49.0
37.0 38.9 40.0 41.2 42.5 43.5 45.2 47.0 50.0
Para ressaltar aspectos estruturais de um conjunto de dados, os mesmos são condensados numa
tabela chamada de distribuição de frequência, que é essencialmente uma tabela como a apresentada abai-
xo.
Número de classes
for muito grande, é possível utilizar um número maior de classes. Os softwares disponíveis geralmente
são programados para fazer uma escolha adequada do número de classes na maioria dos casos.
A escolha da amplitude dos intervalos está relacionada com o número de classes. É geralmente
adequado escolher intervalos de classe de igual amplitude. Porém, quando a distribuição dos dados é for-
temente assimétrica, com poucas observações nos valores extremos, utiliza-se intervalos de classe com
amplitudes diferentes. Na análise de dados econômicos, principalmente dados de renda, esse tipo de cons-
trução é muito comum. Pode-se adotar inclusive intervalos de classe abertos em um dos extremos. Por
exemplo, a última classe pode ser definida pela renda maior ou igual a um certo valor.
Esse trabalho é cansativo quando feito manualmente, principalmente se o conjunto de dados con-
tém muitas observações. Hoje, com a disponibilidade de computadores e de softwares adequados, essa ta-
refa é trivial.
Histograma
Um histograma nada mais é que uma representação gráfica de uma distribuição de frequência.
Um histograma é formado por retângulos justapostos, sendo que a base do retângulo é formada pelos in-
tervalos de classe e a altura do retângulo é proporcional à frequência do intervalo. Um histograma fornece
uma representação visual da distribuição dos dados.
Em geral é mais adequado construir um histograma da frequência relativa. Uma das razões é que
a influência do tamanho da amostra é minimizada. A área total do histograma (soma das áreas de cada re-
tângulo, considerando a base como sendo igual a 1) é 1 ( ou 100%). Dessa forma é possível comparar du-
as distribuições.
Para um valor Y0 na ordenada, o gráfico apresenta a proporção de valores no conjunto de dados que são
menores ou iguais a Y0.
Gráfico Ramo-e-Folhas
O histograma é uma forma clássica de representar a distribuição dos resultados. Uma forma alter-
nativa, e que é muito simples de ser feita, é o ramo-e- folhas, que é uma combinação de tabela e gráfico.
O primeiro valor na tabela (1.39) será usado para ilustrar o princípio. O número 1.39 é separado
em duas partes da seguinte forma:
Construímos então uma coluna com os ramos possíveis. No exemplo, os ramos são formados pe-
los números 11, 12, 13, 14, 15, 16 e 17, já que as medidas variam de 11.9 a 17.0. Ao lado de cada ramo,
formando as folhas, anotamos o último dígito da medida, cada uma corresponde ao seu ramo. Finalmen-
te, podemos ordenar os números nas folhas.
Uma regra para determinar o número máximo de ramos (L) e que funciona adequadamente num
número grande de casos é a seguinte:
= 10 × log
L = 10*log10 n
21
onde é o número de observações. Nesse caso, = 20. O ramo-e-folha modificado tem 12 ramos, que
no caso é adequado.
Algumas vezes as medidas são resultados de contagem, tais como o número de filhos por família,
o número de insetos por planta, etc. Se o número de valores distintos que ocorrem na amostra não é muito
grande, construímos a distribuição de frequência dos valores individuais. O histograma é construído da
mesma forma, usando-se linhas verticais em lugar de retângulos.
Exemplo: 25 famílias foram amostradas e o número de filhos por família foi contado em cada fa-
mília. Os resultados obtidos foram:
Fam. NF Fam. NF
22
1 3 14 4
2 5 15 5
3 1 16 2
4 3 17 1
5 2 18 1
6 4 19 3
7 2 20 0
8 1 21 2
9 3 22 2
10 2 23 2
11 3 24 2
12 2 25 2
13 3
A tabela abaixo apresenta a distribuição de frequência do número de filhos por família. O histo-
grama da distribuição é também apresentado a seguir.
Número Freq.
Freq.
de filhos Rel.
0 1 0.04
1 4 0.16
2 10 0.40
3 6 0.24
4 2 0.08
5 2 0.08
Total 25 1.00
23
Medidas de Centralidade
Os procedimentos gráficos apresentados até aqui ajudam a visualizar a forma da distribuição das
medidas. O próximo passo na análise é quantificar alguns aspectos importantes da distribuição. Duas me-
didas são amplamente utilizadas, uma para localizar a posição central e outra para quantificar a variabili-
dade ou dispersão da distribuição.
Média Aritmética
A média aritmética de um conjunto de n valores, como o próprio nome indica, é obtida somando-
se todas as medidas e dividindo-se a soma por n. Representamos cada valor individual por uma letra (x,
y, z, etc.) seguida por um sub-índice, ou seja, representamos os n valores da amostra por , , . . . , ,
onde é a primeira observação, é a segunda e assim por diante. Então escrevemos
24
∑ni=1 xi
x=
n
onde ∑ é um símbolo matemático que se lê "somatório" de , para i variando de 1 a n, que é equi-
valente a + +. . . + .
Exemplo: O número médio de filhos por família, usando os dados do exemplo acima, é dado por:
3 + 5 + 1 + 3 + ⋯ + 2 60
= = = 2.4
25
Mediana
A mediana é uma medida alternativa à média aritmética para representar o centro da distribuição.
A mediana de um conjunto de medidas , , . . . , é um valor M tal que pelo menos 50% das medidas
são menores ou iguais a M e pelo menos 50% das medidas são maiores ou iguais a M. Em outras pala-
vras, 50% das medidas ficam abaixo da mediana e 50% acima.
Exemplo: Uma mulher, durante seu período reprodutivo, deu a luz a 5 crianças. Os pesos dos re-
cém-nascidos foram: 9.2, 6.4, 10.5, 8.1 e 7.8. Calcule a mediana dos pesos.
Note que temos dois valores que satisfazem a condição de ser mediana, o quarto (550) e o quinto
(600) valor na lista ordenada. Nesse caso, definimos a mediana como sendo a média dos dois valores
centrais:
550 + 600
#$%&'' = = 575
2
Observe que se a lâmpada que sobreviveu 2000 dias tivesse sobrevivido 3950 dias o valor da me-
diana não se alteraria, mas a média aritmética aumentaria. Não ser afetada por valores extremos é uma
vantagem da mediana em relação à média. Quando a distribuição dos dados é simétrica os valores da mé-
dia e da mediana praticamente coincidem. Quando a distribuição é assimétrica a média é "puxada" na di-
reção da assimetria.
Quase sempre quando olhamos uma média fazemos algum julgamento de valor. Se lemos no jor-
nal qual é a renda média de uma determinada comunidade somos tentados a avaliar como é a situação
econômica dessa comunidade. O valor pode ser alto e mesmo assim a situação social ser muito ruim. Bas-
ta que poucos ganhem muito e muitos ganhem pouco. A mediana não é influenciada por esses valores ex-
tremos e nesse caso refletirá melhor a condição econômica da comunidade.
Moda
A moda de uma distribuição é o valor que ocorre mais frequentemente, ou o valor que correspon-
de ao intervalo de classe com a maior frequência. A moda, da mesma forma que a mediana, não é afetada
por valores extremos.
Uma distribuição de frequência que apresenta apenas uma moda é chamada de unimodal. Se a
distribuição apresenta dois pontos de alta concentração ela é chamada de bimodal. Distribuições bimodais
ou multimodais podem indicar que na realidade a distribuição de frequência se refere a duas populações
cujas medidas foram misturadas. Por exemplo, suponha que um lote de caixas de leite longa vida é amos-
trado e em cada caixa da amostra é medido o volume envasado. Se o lote é formado pela produção de du-
as máquinas de envase que estão calibradas em valores diferentes, é possível que o histograma apresente
duas modas, uma para cada valor de calibração.
Percentis
Se o número de observações é grande, é interessante calcular algumas outras medidas de posição.
Essas medidas são uma extensão do conceito de mediana.
26
Suponha que estamos conduzindo um experimento com animais. Eles recebem um droga e me-
dimos o tempo de vida (em dias) após a ingestão da droga. Poderíamos fazer a seguinte pergunta: Qual é
o tempo em que 50% do animais ainda estão vivos? Obviamente esse valor será a mediana. Poderíamos
estar interessados em saber qual é o tempo em que 75% dos animais estão vivos. Ou 25%. Esses valores
são chamados de Quartis da distribuição (dividem a distribuição em quartas partes) e são representados
por Q1 (1º quartil - 25%) e Q3 (3º quartil - 75%). O segundo quartil, Q2, que corresponde a 50%, é a
mediana.
Esse conceito pode ser estendido um pouco mais, e em lugar de 25%, 50% e 75%, podemos que-
rer calcular percentis (5%,10%, 90%, Tc).
Seja p um número qualquer entre 0 e 1. O 1100 × )-ésimo percentil é um valor tal que depois das
medidas terem sido ordenadas, pelo menos 100 × )% das medidas são menores ou iguais a esse valor, e
pelo menos 100 × 1 − ) % das medidas são maiores ou iguais a esse valor.
Exemplo: O ganho em peso de 9 ratos submetidos a uma dieta são dados a seguir:
Em outras palavras, pelo menos 3 observações tem que ser menores ou iguais a Q1, e pelo menos
7 observações têm que ser maiores ou iguais a Q1. A medida 106.5 satisfaz esses requerimentos e, portan-
to Q1 = 106.5.
Exemplo: Calcular os quartis e os percentis 5%, 10%, 90% e 95% para o amostra de valor de
venda de um produto em 95 pontos de venda amostrados apresentado acima.
27
Softwares de análise estatística calculam percentis utilizando diferentes métodos, os quais envol-
vem algum tipo de interpolação. Por isso é possível encontrar-se discrepâncias entre os valores calculados
por diferentes programas. Essas discrepâncias em geral não afetam a análise.
Média Geométrica
A média geométrica de n números positivos é a raiz enésima do produto desses números. A média
geométrica é usada principalmente quando estão envolvidas medidas que são razões ou índices econômi-
cos. Lembrando as propriedades de logaritmo de produto e de razão, é fácil mostrar que a média geomé-
trica de um conjunto de n números é o antilogaritmo da média aritmética dos logaritmos desses números.
Assim é possível entender porque essa média é muito usada com dados econômicos. Esse tipo de dados
apresenta geralmente uma distribuição que é fortemente assimétrica. Por isso é comum se trabalhar com o
logaritmo das medidas para corrigir a assimetria.
Dessa forma, o preço do quarto mês pode ser obtido a partir do preço do primeiro mês da seguinte
forma:
Média harmônica
A média harmônica de números , … , é definida como sendo o inverso da média dos recí-
procos, ou seja, ∑ /0 . Essa média é utilizada quando os dados são razões.
1
Exemplo: Um veículo percorre uma distancia de 20km a 50 km/hora e uma outra distância de 20
km a 40 km/hora. Qual foi a velocidade média no percurso total?
O carro levou 0.9 horas para percorrer 40 km; portanto sua velocidade média foi de 44.4km/hora.
A média harmônica das velocidades médias é:
= 44.456/ℎ89'.
/2
3 /4
Medidas de Variabilidade
Como dissemos anteriormente, variabilidade está presente em praticamente todos os fenômenos
estudados. Dois indivíduos submetidos às mesmas condições respondem de forma diferente. É importante
entender essa variabilidade, e principalmente saber quantificá-la.
Suponha que você está interessado em saber quantos peixes existe em um determinado lago.
Uma forma de se chegar a esse número é pescar todos os peixes e contar. Esse procedimento não é práti-
co. Outra forma é usar um procedimento amostral e estimar esse número. Um procedimento que se pode-
ria utilizar é o seguinte: Uma quantidade N de peixes é pescada, marcada e devolvida ao lago. Nesse mo-
:
;
mento a proporção de peixes marcados no lago é , onde M é o total de peixes no lago, quantidade que
29
queremos estimar. Após certo tempo, suficiente para que os peixes que foram devolvidos ao lago se mis-
turem, uma nova pesca é realizada de n peixes. Conta-se então o número de peixes marcados na segunda
0
pesca. Vamos denotar por x esse número. Então, é uma estimativa da proporção de peixes marcados.
repetirmos o processo encontraremos outro valor para M. Existe, portanto, uma variabilidade associada
com essa estimativa, ou dito de outra forma, existe uma incerteza associada com esse número. A menos
que quantifiquemos essa incerteza, a estimativa é de pouca utilidade. Nesse caso, a incerteza está associa-
da ao processo amostral.
Quando realizamos uma medida em laboratório, essa medida contem uma incerteza que está asso-
ciada ao sistema de medição. É necessário quantificar essa precisão para que a medida seja útil.
Quando calculamos índices econômicos baseados em amostragem, tal como o índice de inflação,
existe uma incerteza associada com esse índice que precisa ser quantificada para que os agentes econômi-
cos possam tomar suas decisões.
Somente o cálculo da média, ou outra medida de posição, não é suficiente para caracterizar o con-
junto de dados. Dois conjuntos de medidas podem ter a mesma média, mas diferir com respeito à distri-
buição das medidas em torno da média.
A: (2, 3, 4) B: (1, 3, 5)
Ambos tem média igual a 3, mas o conjunto B é mais disperso em torno da média.
Amplitude
30
A mais simples é a Amplitude, que nada mais é que a diferença entre o maior e o menor valor do
conjunto.
Desvio Padrão
O uso da amplitude apresenta algumas desvantagens, a mais importante é que o seu cálculo en-
volve apenas os valores extremos do conjunto. Uma forma de medir variabilidade, e que é amplamente
utilizada, é o desvio padrão.
desses desvios é 0, ou seja, ∑ − . Esse fato resulta de que alguns desvios são positivos, outros
negativos, e que na média se anulam. O cálculo do desvio padrão faz uso desses desvios de uma forma di-
ferente.
∑ −
< = =
−1
Uma medida equivalente, e que é usada por conveniência, é a variância amostral, que nada mais é
que o quadrado do desvio padrão.
∑ −
< =
−1
Exemplo: Uma empresa com 100 funcionários anotou o número de faltas semanais durante 6 se-
manas consecutivas. Os resultados obtidos foram: 4, 2, 3, 3, 6 e 3. Calcule a média, variância e desvio pa-
drão das medidas.
variância amostral: < = 1BC01 ?@
= = 1.9
∑A D.2
? 2
Amplitude interquartis
Uma outra medida de dispersão que é utilizada é a amplitude interquartis, definida como:
Amplitude interquartis= Q 3 - Q 1.
A amplitude interquartis representa o intervalo coberto por 50% das medidas centrais.
Coeficiente de Variação
Uma desvantagem do desvio padrão como medida de dispersão é que ele depende da escala de
medidas que se está utilizando. Por exemplo, o peso de um objeto tem um desvio padrão de 0.1 onças ou
2835 miligramas, o que é a mesma coisa. Mas olhando o valor absoluto, em um caso podemos imaginar
que a dispersão é pequena, e no outro que a dispersão é muito grande. Por outro lado, se estamos medindo
anéis de ouro que estão sendo produzidos, essa dispersão pode ser muito grande. Por outro lado, se esta-
mos pesando sacos de cimento, essa dispersão é irrelevante. Para contornar esse problema definimos uma
medida de variação relativa que é o coeficiente de variação. O coeficiente de variação é a razão entre o
desvio padrão e a média, e geralmente é apresentado em porcentagem.
F. G. = JéLM = O .
H.I. N
Exemplo: Diversas medidas do diâmetro de uma bola de rolamento foram feitas com um micrô-
metro apresentaram média de 2.49 mm e desvio padrão de 0.012 mm. Medidas do comprimento de um
parafuso de precisão feitas com um outro micrômetro apresentaram média de 0.75 polegadas com desvio
padrão de 0.002. Qual dos micrômetros é mais preciso?
32
Coeficiente de Assimetria
Embora distribuições de dados possam assumir as mais diferentes formas, a maioria delas pode
ser aproximada por um pequeno número de tipos padrões. Dentre essas, a mais importante é a distribuição
simétrica que tem a forma aproximada de um sino, e que será estudada com detalhes mais à frente.
Distribuições que tem apenas um pico importante e que são assimétricas são classificadas em po-
sitivamente assimétricas se a cauda maior da distribuição é à direita e negativamente assimétricas se a
cauda maior é à esquerda. Distribuições de renda são geralmente positivamente assimétricas; pouca con-
centração de alta renda e alta concentração de baixa renda.
Existem diversas estatísticas usadas comumente para medir o grau de assimetria de uma distribui-
ção (skewness). Uma relativamente simples é baseada no fato de que se há perfeita simetria, então a mé-
dia e a mediana da distribuição são iguais. Se a distribuição tem assimetria positiva, então a média será
maior que a mediana, e se a assimetria é negativa, a média é menor que a mediana. Essa relação é usada
para definir o coeficiente de assimetria de Pearson, e é dado por:
Para uma distribuição simétrica, SK =0. O valor de SK varia essencialmente entre -3 e 3. A divi-
são pelo desvio padrão torna SK independente da escala de medida. Outras medidas de assimetria exis-
tem, mas medem essencialmente a mesma coisa.
Curtose
Outra característica de uma distribuição simétrica é a forma como os dados se distribuem em tor-
no da média. Uma distribuição simétrica pode ser subdividida em três partes: meio, ombros e caudas. A
caracterização da distribuição é feita em comparação com a distribuição normal ou gaussiana, que é a dis-
tribuição simétrica mais utilizada na Estatística.
Uma medida numérica para distinguir as situações 1 e 3 é a curtose, que é calculada como:
∑ − 4
UV9W8R$ =
X∑ − Y
34
O valor da curtose para a distribuição normal é zero. A curva 3 tem curtose positiva (dizemos
que ela tem cauda mais pesada que a normal). A curva 2 tem curtose negativa (dizemos que ela tem cauda
mais leve que a normal).
Box Plot
O Box Plot ( também chamado de box e whisker plot) é um método alternativo ao histograma e
ao ramo-e-folha para representar os dados. O Box Plot fornece informação sobre as seguintes característi-
cas do conjunto de dados: locação, dispersão, assimetria, comprimento da cauda e outliers (medidas dis-
crepantes).
Embora o Box plot forneça informação sobre locação e dispersão, seu verdadeiro valor está na in-
formação que fornece sobre a cauda da distribuição. Pontos desgarrados (Outliers) podem afetar de forma
adversa as decisões a serem tomadas a partir da análise dos dados se não forem devidamente considera-
dos. O Box Plot é uma ferramenta gráfica que ajuda a identificar a existência de possíveis outliers no con-
junto de dados.
Um Box Plot nada mais é que um retângulo alinhado verticalmente (ou horizontalmente) com du-
as semi-retas, uma em cada um de lados opostos do retângulo. A altura do retângulo é definida pelos
quartis Q1 e Q3. Uma linha seciona o retângulo no valor da mediana (ou Q2). As semi-retas ligam res-
pectivamente os quartis Q1 e Q3 ao valor mínimo e máximo do conjunto de dados. Quando o conjunto de
dados é grande, as semi-retas vão até os percentis 10% e 90% ou até os percentis 5% e 95%. Então, valo-
res extremos são representados por um zero ou por um asterisco. Não existe uma única forma de apresen-
tar um gráfico Box plot. Diferentes livros (ou softwares) adotam variações na apresentação dos pontos ex-
tremos. O gráfico abaixo apresenta o Box plot para o valor de venda de um produto amostrado em 95
pontos de venda, apresentado anteriormente.
mediana no retângulo informa sobre a assimetria da distribuição. Uma distribuição simétrica teria a medi-
ana no centro do retângulo. Se a mediana é próxima de Q1 então os dados são positivamente assimétricos.
Se a mediana é próxima de Q3 os dados são negativamente assimétricos. No exemplo a seguir, a distri-
buição dos dados é simétrica:
O comprimento das linhas fora do retângulo (algumas vezes chamadas de whisquers) informam
sobre a cauda da distribuição. Os valores fora de Q1-1.5*(Q3-Q1) e Q3+1.5*(Q3 -Q1) geralmente são
chamados de "outside" e devem ser investigados como possíveis outliers. Valores "outside" não são ne-
cessariamente outliers, mas um outlier usualmente aparece no gráfico como um outside.
Exemplo: Um engenheiro numa indústria química é responsável pela produção de acetona. Para
avaliar a linha de produção, o gerente monitora o processo. Durante uma semana, 16 bateladas de acetona
são produzidas e uma leitura por batelada é feita. Os resultados são apresentados na tabela abaixo.
Batelada 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Leitura 6 24 12 11 34 32 28 19 31 22 29 58 15 5 17 25
5, 6, 11, 12, 15, 17, 19, 22, 24, 25, 28, 29, 31, 32, 34, 58
Além de fornecer informações importantes sobre um conjunto de dados, o Box plot é usado para
comparar graficamente mais de um conjunto de medidas com respeito à media, dispersão e distribuição.
Isso pode ser conseguido desenhando-se os Box plots para cada conjunto de dados paralelamente num
mesmo gráfico.
26
25
24
Data
23
22
21
20
Mistura 1 Mistura 2 Mistura 3
Como podemos observar, as misturas apresentam níveis médios diferentes de viscosidade, de-
crescentes da mistura 1 para a mistura 3.
Diagrama de Pareto
Um dos objetivos centrais de um programa de qualidade é reduzir perdas provocadas por peças
defeituosas que não atendem às especificações. Existem muitos tipos de defeitos que fazem com um pro-
duto não atenda às especificações. Concentrar esforços no sentido de eliminar todos os tipos de defeitos
não é uma política eficaz. Geralmente, alguns poucos tipos de defeitos são responsáveis pela maioria das
rejeições, e é mais eficaz atacar as causas desses poucos defeitos mais importantes.
Essa abordagem já foi proposta por J. M. Juran, um dos pioneiros da Qualidade. Ele estabeleceu
uma regra hoje conhecida como “a regra dos poucos vitais e dos muitos triviais”.
Para identificar os poucos vitais ele propôs a utilização de um diagrama conhecido como Diagra-
ma de Pareto. O diagrama é basicamente um histograma da distribuição dos defeitos pelos tipos, ordenado
em ordem decrescente de freqüência de ocorrência.
Exemplo: Uma empresa classificou um grupo de 100 produtos rejeitados por problemas de emba-
lagem pelo tipo de defeito que causou a rejeição. Os resultados estão apresentados na tabela abaixo.
38
Número de Porc.
Tipo de defeito Porc.
peças Acum.
A: Não selagem do topo 55 0.4 0.4
Obs. Existem 136 defeitos porque algumas embalagens apresentaram mais de um defeito.
Observe que os defeitos A, B e C são responsáveis por 84% do total e o esforço de melhorar a
qualidade deveria se concentrar primeiramente neles.
39
150
100
125
80
100
60
75
40
50
25 20
0 0
Tipo de defeito
Série de Tempo
A tabela de frequência, e seu equivalente gráfico que é o histograma, devem ser utilizados com a
devida cautela. Se estivermos medindo uma característica de um processo sequencialmente, o histograma
das medidas não inclui a informação sobre a ordem em que os dados foram obtidos, e consequentemente
não revela tendências ou ciclos que podem estar ocorrendo ao longo do tempo, ou mesmo aumento ou de-
créscimo da variabilidade. A falta dessa informação é crítica quando utilizamos as medidas para monito-
rar o processo.
rio graficar as medidas contra a ordem em que elas foram obtidas. Tendências e ciclos presentes no pro-
cesso são relativamente fáceis de detectar nesse tipo de gráfico.
Exemplo: Barras de chocolate são produzidas e a cada 15 minutos 3 barras são retiradas da linha e
pesadas. Os dados obtidos durante um período de 6 horas e 30 minutos bem como o histograma estão
apresentadas na tabela abaixo.
N tempo Obs Amostra Peso N tempo Obs Amostra Peso N tempo Obs Amostra Peso
1 9.00 1 1 170.384 28 11.15 1 10 170.100 55 13.30 1 19 170.951
2 9.00 2 1 169.817 29 11.15 2 10 170.667 56 13.30 2 19 171.234
3 9.00 3 1 170.667 30 11.15 3 10 170.384 57 13.30 3 19 170.384
4 9.15 1 2 169.533 31 11.30 1 11 171.234 58 13.45 1 20 170.667
5 9.15 2 2 169.817 32 11.30 2 11 170.667 59 13.45 2 20 170.667
6 9.15 3 2 170.384 33 11.30 3 11 170.951 60 13.45 3 20 170.667
7 9.30 1 3 170.951 34 11.45 1 12 170.667 61 14.00 1 21 171.234
8 9.30 2 3 170.667 35 11.45 2 12 170.384 62 14.00 2 21 171.518
9 9.30 3 3 170.667 36 11.45 3 12 170.100 63 14.00 3 21 170.951
10 9.45 1 4 170.667 37 12.00 1 13 170.951 64 14.15 1 22 171.801
11 9.45 2 4 170.951 38 12.00 2 13 170.667 65 14.15 2 22 170.951
12 9.45 3 4 170.667 39 12.00 3 13 171.234 66 14.15 3 22 171.234
13 10.00 1 5 170.100 40 12.15 1 14 170.667 67 14.30 1 23 171.518
14 10.00 2 5 169.817 41 12.15 2 14 170.667 68 14.30 2 23 171.234
15 10.00 3 5 170.384 42 12.15 3 14 170.951 69 14.30 3 23 170.667
16 10.15 1 6 169.817 43 12.30 1 15 170.951 70 14.45 1 24 171.518
17 10.15 2 6 170.100 44 12.30 2 15 170.667 71 14.45 2 24 171.234
18 10.15 3 6 170.100 45 12.30 3 15 170.951 72 14.45 3 24 170.951
19 10.30 1 7 170.667 46 12.45 1 16 170.951 73 15.00 1 25 171.234
20 10.30 2 7 170.384 47 12.45 2 16 170.100 74 15.00 2 25 171.801
21 10.30 3 7 170.100 48 12.45 3 16 170.384 75 15.00 3 25 171.518
22 10.45 1 8 170.384 49 13.00 1 17 171.234 76 15.15 1 26 171.518
23 10.45 2 8 170.951 50 13.00 2 17 170.667 77 15.15 2 26 170.951
24 10.45 3 8 170.384 51 13.00 3 17 170.951 78 15.15 3 26 171.234
25 11.00 1 9 170.384 52 13.15 1 18 171.518 79 15.30 1 27 170.951
26 11.00 2 9 170.667 53 13.15 2 18 170.667 80 15.30 2 27 171.234
41
Aparentemente não há nada de errado com o histograma, ou melhor, o histograma não indica ne-
nhum problema com a estabilidade do processo. O gráfico das medidas contra a ordem em que foram ob-
tidas está apresentado na figura abaixo.
Peso
42
Observe que há uma tendência de aumento no peso das barra produzidas ao longo do período de
7 horas, o que aponta para a necessidade de intervenção no processo. Essa tendência fica mais clara quan-
do elaboramos um gráfico com o peso médio da amostra versus o tempo.
172.0
171.5
171.0
170.5
170.0
Amostra
Esse tipo de gráfico será melhor explorado e analisado através do estudo das cartas de controle.
43
Exemplo. Uma empresa que distribui produtos por todo o país contrata uma empresa aérea para
efetuar o transporte. Um estudo foi realizado pela empresa contratante para verificar a relação entre o cus-
to de transporte (Y) e o peso do material transportado (X). Os dados se referem a um período de 6 meses e
estão apresentados na tabela abaixo.
7766.47 5647.0
44
O primeiro passo na análise dos dados é colocar os pontos num gráfico cartesiano de Y em função
de X.
10000
9000
8000
Custo
7000
6000
5000
4000
3000 4000 5000 6000 7000 8000 9000
Peso
• Há uma tendência de aumento do custo com o aumento do peso ( o que era de se esperar
nesse exemplo)
• Que a relação entre as duas variáveis é aproximadamente linear na região em que temos
observações
• Que há uma forte relação entre as duas variáveis.
Se os pontos no gráfico apresentam pouca dispersão em torno de uma reta ligando X e Y dizemos
que existe uma forte correlação linear entre as variáveis. Se os pontos apresentam alta dispersão dizemos
que as variáveis são pouco correlacionadas.
Uma forma de quantificar o grau de associação linear entre duas variáveis é através do coeficien-
te de correlação amostral. Ele mede o grau de associação linear que existe entre as duas variáveis.
Se, , Z , , Z , … , Z , Z são pares de pontos, o coeficiente de correlação amostral 90,[ é
calculado como:
45
∑ − Z − \
90,[ =
]∑ − Z − \
Pode-se verificar que o coeficiente de correlação é uma quantidade que varia entre -1 e 1, ou seja,
−1 ≤ 90,[ ≤ 1
O coeficiente de correlação mede a direção e o grau de associação linear entre as variáveis. Valo-
res próximos de -1 ou +1 indicam forte associação. Valores próximos de zero indicam pouca associação.
O sinal do coeficiente indica se a associação é positiva (Y aumenta com o aumento de X) ou negativa ( Y
decresce com o aumento de X).
30
20
25
15 20
Y
15
10
10
5
5
0
0 5 10 15 20 0 5 10 15 20
x x
(a) (b)
Gráfico de Dispersão: Y vs X Gráfico de Dispersão: Y vs X
35
0
30
25
-5
20
Y
-10 15
10
-15
5
-20 0
0 5 10 15 20 5 10 15 20 25
x X
(c) (d)
46
Gráfico de Dispersão: Y vs X
120
100
80
60
Y
40
20
0 5 10 15 20
x
(e)
Os diagramas da Figura (a) e (b) mostram duas situações onde os pontos estão em torno de uma
reta imaginária ascendente. Valores pequenos de X estão associados a valores pequenos de Y, o mesmo
acontecendo para valores grandes. Estes dois casos indicam o que chamamos de correlação linear positiva
de Y e X. O dados em (b) estão mais próximos da reta imaginária, caracterizando uma correlação mais
forte que a de (a), ou seja, o valor da correlação em (b) está mais próxima de +1 do que (a), apesar do que,
os dois conjuntos de dados têm valor de r maiores do que zero.
A Figura (c) mostra que os pontos em X e Y estão em torno de uma reta imaginária descendente,
indicando o que chamamos de correlação linear negativa, ou seja, valor de r menor que zero.
Os valores de X e Y na Figura (d) não sugerem uma associação entre duas variáveis pois valores
pequenos, ou grandes, de X estão associados tanto a valores pequenos quanto a valores grandes de Y. Os
pontos do diagrama não se posicionam em torno de uma linha imaginária ascendente ou descendente.
A Figura (e) aproxima-se mais de uma parábola do que de uma reta, ilustrando correlação não li-
near. Apesar de serem muito correlacionados, o coeficiente de correlação linear será próximo de zero. Isto
ocorre devido ao fato de que o coeficiente só pode ser usado para correlações lineares.
Correlação e causalidade
Dizemos que uma variável X “causa” Y se X provoca um efeito ou resultado em Y. Devemos es-
tar atentos para não confundir os conceitos de correlação e causalidade. Muitas vezes encontramos uma
47
forte correlação entre duas variáveis e somos tentados a estabelecer uma relação de causa e efeito entre as
duas variáveis, o que nem sempre é verdade.
A tabela seguinte apresenta o número de doentes mentais por 10000 habitantes e o número de
aparelhos de rádio no Reino Unido durante os anos de 1924 a 1937.
O gráfico abaixo mostra a forte relação existente entre o número de doentes mentais e o número
de aparelhos de rádio. Entretanto, não é razoável pensar que a relação seja de causa e efeito. A variável
ano é que está provocando está correlação. Ambas as variáveis aumentaram ao longo do tempo.
48
20
15
10
Quando encontramos uma correlação sem relação causal, dizemos que a correlação é espúria.
Em muitas situações práticas não é tão simples decidir se a relação é causal. Uma forma de se es-
tabelecer se a relação é de causa e efeito é através da realização de experimentos planejados.
Estudar a correlação entre duas ou mais variáveis pode ser bastante útil. Se Y é uma medida de
um produto ou processo e se Y está fortemente correlacionada com outra medida X que é mais barata ou
mais fácil de obter, então podemos medir X e através da relação existente entre elas estimar o valor de Y.
A técnica utilizada nesse tipo de situação é regressão linear, que será estudada mais à frente.
49
Introdução
No capítulo anterior foram apresentadas ferramentas estatísticas para a sumarização dos dados,
que é geralmente a primeira etapa da análise de dados. Essa etapa é geralmente aplicada em um conjunto
de dados observados em uma amostra retirada de uma população. É necessário avançar na análise e, utili-
zando os resultados da amostra, fazer inferências sobre a população. O processo inferencial utiliza concei-
tos de probabilidade, que é o tópico a ser coberto nesse capítulo.
Os conceitos de probabilidade são importantes por si só, e têm importantes aplicações em proces-
sos decisórios onde a incerteza está presente.
Conceitos de Probabilidade
Um experimento aleatório é um processo que apresenta como resultado qualquer um de um con-
junto de possíveis valores, sem que a ocorrência de um particular evento possa ser predita com certeza. A
50
maneira mais comum de medir a incerteza de um evento que pode resultar de um experimento aleatório é
através da atribuição de um valor que reflete a chance de ocorrência desse evento. Esse valor é chamado
de probabilidade.
Historicamente, a forma mais antiga de medir incerteza através de probabilidade é através do que
é chamado de probabilidade clássica. Essa medida foi desenvolvida basicamente através dos jogos de
azar. O conceito clássico de probabilidade aplica-se somente quando todos os possíveis resultados são
igualmente prováveis.
Suponha que um experimento aleatório tem um total de resultados possíveis Ri, & = 1,2, . . , , e
que cada um desses resultados é igualmente provável. Então, a chance de ocorrência de cada um é 1/.
Expressamos isso de uma maneira formal dizendo:
_a = 6/.
aproximado de _` . A aplicação da abordagem frequêntista pressupõe que nas n repetições do experi-
mento o sistema esteja estável, ou em equilíbrio. Como ∑ = , temos que ∑ = ∑ ) = 1.
1
Outra abordagem é tratar probabilidade como uma medida de crença sobre a ocorrência de um
evento. Por exemplo, observando as condições de tempo hoje, uma pessoa afirma, baseada em sua experi-
ência, que a chance de chover amanhã é 40%. Esse número é a sua probabilidade pessoal, ou subjetiva
sobre o evento “chover amanhã”. Um especialista em mercado de ações afirma, baseado em sua experiên-
cia e nas informações que tem disponível, que a chance que as ações de uma determinada empresa subam
no pregão é de 70%.
Qualquer que seja a interpretação, ou abordagem, as leis básicas de probabilidade são as mesmas.
Em lugar de desenvolver essas leis com rigor formal, vamos listá-las aqui, apelar para a intuição do leitor
para sua devida compreensão, e ilustrá-las através de alguns exemplos simples.
As leis da Probabilidade
Denotaremos por uma letra maiúscula A, B, ... um evento aleatório. Em geral, um evento aleató-
rio é um conjunto de objetos, e utilizaremos a linguagem da teoria dos conjuntos para listar as leis da pro-
babilidade. Por exemplo, se um experimento aleatório consiste em lançar um dado e definimos o evento A
como sendo formado pelos resultados pares, então e = {2,4,6}. Se estivermos estudando o tempo de vida
de leite longa vida, podemos definir o evento A como sendo formado por todas as caixas que duram um
tempo maior que 90 dias. Então, e = {W: W > 90}. Observe nesse exemplo que a observação é o tempo
de vida da caixa, portanto os eventos são formados por intervalos de tempo.
0 ≤ _e ≤ 1
_< = 1 e _∅ = 0.
2º Lei. Se e e e são dois eventos que não têm nenhum elemento em comum dizemos que e e
e são disjuntos e ∩ e = ∅ . Se dois eventos e e e são disjuntos, então
3º Lei. Representamos por Ac o evento formado por todos os resultados possíveis que não fazem
parte de A. Dizemos que Ac é o complementar do evento A. Temos,
ek ∪ e = < e ek ∩ e = ∅.
Então temos:
_ek = 1 − _e
Em muitas situações, quando queremos saber a probabilidade de que certo evento e ocorra, temos
à disposição a informação de que outro evento relacionado, l, ocorreu. Veremos como a informação de
que o evento l ocorreu altera a probabilidade de ocorrência do evento e. A probabilidade revisada de e
dada a informação de que l ocorreu é chamada de probabilidade condicional de e dado l e denotamos
por _e|l . Para ilustrar esse novo conceito e aprender como calcular a probabilidade condicional vamos
recorrer a um exemplo.
Exemplo: Um grupo de bancários foi classificado de acordo com sua condição de peso cor-
poral e presença ou ausência de hipertensão. As proporções encontradas nas diversas categorias aparecem
na tabela a seguir.
Qual é a probabilidade de que uma pessoa selecionada ao acaso desse grupo tenha hipertensão?
Vamos usar o símbolo e para denotar hipertensão. Então, queremos saber _e . Esse valor é igual a 0.20
e escrevemos _e = 0.20. Qual é a probabilidade que uma pessoa selecionada ao acaso desse grupo te-
nha peso acima do normal. Vamos usar o símbolo l para a condição de ter peso acima do normal. Então,
_l = 0.25.
Essas duas probabilidades são probabilidades não condicionadas. Suponha agora que uma pessoa
é selecionada ao acaso e ela tem peso acima do normal. Qual é a probabilidade de que ela seja hipertensa.
Como sabemos que ela tem peso acima do normal, o conjunto de pessoas a serem consideradas se reduz a
54
25% do total. Dessas 25%, 10% são hipertensas. Então a probabilidade considerada é igual a 0.10/
0.25 = 0.40. Portanto, dada a informação de que a pessoa tem peso acima do normal, a probabilidade de
ser hipertensa é igual a 40% e escrevemos:
_e|l =
.2 = 0.40
.
Considere agora o evento: a pessoa é hipertensa e tem peso acima do normal. Denotamos esse
evento por e ∩ l, ou simplesmente el. Então _el = 0.10, ou seja, existem 10% de pessoas que satis-
fazem as duas condições ao mesmo tempo. Note que no cálculo da probabilidade condicional usamos a
vale sempre, de tal forma que podemos utilizar essa relação para o cálculo da probabilidade condicional.
_el
_e|l =
_l
desde que _l > 0. Equivalentemente, essa fórmula pode ser escrita como
_el
_e|l =
_e
Uma situação que merece especial atenção é aquela em que a probabilidade condicional _e|l é
igual à probabilidade incondicional _e . A informação de que o evento l ocorreu não tem influência na
55
determinação da probabilidade do evento A. Então, _e|l = _e e nesse caso dizemos que os eventos
e e l são estatisticamente independentes.
_e|l = _e
Se dois eventos não são independentes dizemos que eles são dependentes.
No estudo sobre hipertensão e peso corporal, ter peso acima do normal é independente de ser hi-
pertenso? Lembre-se que _e = 0.2 e _e/l = 0.40. Então os eventos não são independentes. Pesso-
as que têm peso acima do normal têm maior probabilidade de serem hipertensos.
Distribuição de Probabilidades
Em muitas situações, os resultados possíveis de um experimento são números. Por exemplo, o di-
âmetro de uma peça sendo fabricado, o valor do rendimento da poupança num determinado dia, o volume
negociado diariamente na bolsa de valores de São Paulo, o tempo de vida de um equipamento, etc. Quan-
do o resultado não é numérico, podemos fazer uma associação dos resultados possíveis com um número.
Por exemplo, podemos atribui o número 1 ao sexo masculino e o número 2 ao sexo feminino. Portanto, é
56
Como já discutimos anteriormente, a rigor não existe variável aleatória continua, pois todo siste-
ma de medida tem sensibilidade limitada e a escala resultante é discreta. Mas é conveniente adotarmos
como modelo que a sensibilidade do sistema de medidas é tão grande como se queira de tal forma que
podemos ter como resultado da medida qualquer valor dentro de um intervalo.
Uma família é escolhida ao acaso nessa cidade. Qual é a probabilidade que ela tenha 2 filhos? Pe-
los resultados censitários acima esse valor é 35%. Se chamarmos de X o número de filhos de um casal es-
57
colhido ao acaso, vemos que X pode assumir os valores {0,1,2,3,4} com probabilidades {0.10, 0.30, 0.35,
0.20, 0.05} respectivamente. Então, X é uma variável aleatória discreta.
Nº de Filhos %.
0 10%
1 30%
2 35%
3 20%
4 5%
X 0 1 2 3 4 Soma
X 0 1 2 3 4 5 6 Soma
Se dispusermos dos valores da variável para cada elemento da população, então o cálculo da mé-
dia e da variância é direto. Como veremos a seguir, é possível calcular esses dois parâmetros se o que dis-
pomos é a distribuição de probabilidades da variável de interesse. Considere a distribuição do número de
filhos por família apresentado anteriormente. Qual é o número médio de filhos por família? Considerando
uma base de 100 famílias, 10 tem 0 filhos, 30 tem 1 filho, 35 tem 2 filhos, 20 tem 3 filhos e 5 tem 4 fi-
lhos. Então o número médio de filhos é :
59
0 × 10 + 1 × 30 + 2 × 35 + 3 × 20 + 4 × 5
100
Como você percebeu, para se calcular a média populacional em uma distribuição discreta, basta
multiplicar os possíveis valores da distribuição pelas respectivas probabilidades. Ou seja, se a variável X
tem distribuição { , _ ; & = 1,2, . . . , }, onde _ = _ = , então, #é%&' = ∑S'q89 ×
)98r'r&q&%'%$ , ou
s = t _
onde s representa a média populacional. Outra notação utilizada para média nos livros é a , onde se lê
a como valor esperado ou esperança matemática.
Exemplo Baseado nos seus registros de venda, uma revendedora de carros usados determi-
nou a distribuição do número de carros vendidos por dia (X). O resultado está apresentado na tabela abai-
xo.
x 0 1 2 3 4 5 Total
x 0 1 2 3 4 5 Total
60
Então, o ganho médio por ação é de R$2.40, ou seja, embora a chance de perda seja grande, na
média há um ganho. É importante entender esse resultado como sendo um ganho esperado numa longa sé-
rie de compras de ações. Num dia específico há um ganho ou uma perda, dependendo do que ocorre.
61
Se uma tábua de vida da população brasileira diz que uma mulher com 50 anos tem esperança de
vida de mais 15 anos, isso não significa que uma mulher em particular irá viver mais 15 anos. Algumas
pessoas morrerão antes, outras viverão mais que 15 anos. É a média de sobrevida de todas as mulheres
com 50 anos que é igual a 15 anos. Se uma pesquisa alimentar encontra que o brasileiro toma em média
500 ml de leite por dia, isso não significa que cada brasileiro toma 500 ml de leite por dia.
Exemplo: Aplicação do Valor Esperado em processos decisórios: Uma fábrica de móveis deve
decidir se realiza uma ampliação da capacidade instalada agora ou se aguarda mais um ano. Uma análise
econômica diz que se ela expande agora e as condições econômicas permanecerem boas, ela realizará um
lucro de R$328.000,00 no próximo ano; caso haja uma recessão, ela terá um prejuízo de R$80.000,00. Se
ela adia a expansão para o próximo ano, ela terá um lucro de R$160.000,00 se as condições permanece-
rem boas e terá um lucro de R$16.000,00 se houver recessão. Se as chances de que ocorra uma recessão é
de 2/3, qual é a decisão que maximiza seu lucro?
1 2
328.000 × + −80.000 × = 56.000
3 3
1 2
160.000 × + 16.00 × = 64.000
3 3
1 2
160,000 x + 16,000 x = 64,000
3 3
Propriedades da Média
Seja ' e r duas constante e e \ duas variáveis aleatórias. Então:
a) a' = '
b) ar = ra
62
Variância
A média fornece uma medida de centralidade da distribuição. É necessário introduzir uma medida
de dispersão dos valores em torno do valor médio. Essa medida é a variância. Para uma distribuição dis-
creta, a variância é calculada como:
G'9 = t − s
_
A variância é também denotada por u . Se é medida em metros, anos, ou qualquer outra uni-
dade de medida, a variância é medida no quadrado dessa unidade e é inconveniente apresentar a medida
de dispersão dessa forma. Então medimos a dispersão em termos do desvio padrão σ que é a raiz quadra-
da da variância, ou seja
Propriedades da Variância
Sejam ' e r duas constantes e e \ variáveis aleatórias. Então
b) G'9' = 0
c) G'9' + = G'9
d) G'9r = r G'9
63
e) G'9' + r = r G'9
Exemplo Um sistema de envasamento consiste em encher um vidro com líquido. Os vidros utili-
zados têm peso médio de 20g e desvio padrão 0.5g. A quantidade de líquido em peso que é colocada no
litro pode ser regulada, sendo o valor nominal igual a 185g. O desvio padrão do sistema de envasamento é
2g. Qual é o peso médio e o desvio padrão do vidro cheio?
sim, definimos uma variável aleatória que pode assumir os valores 0 e 1 com a seguinte
É comum associarmos o número 1 ao evento “S” e o número 0 ao evento “F” . As-
distribuição de probabilidades:
_
1−)
a = 0 × 1 − ) + 1 × ) = )
Distribuição Binomial
Quando um número fixo de ensaios de Bernoulli são realizados de forma indepen-
dente com probabilidade ) de Sucesso em cada ensaio, estamos interessados em contar quan-
tas vezes ocorre o resultado S. Denotemos por a quantidade de vezes que ocorre o resultado
S. A variável pode assumir os valores 0, 1, 2, ... n, com diferentes probabilidades. Vamos
denotar por _ = 6 a probabilidade que em n repetições do ensaio de Bernoulli ocorram
Sendo =
!
6 J!?J !
a)̂ = ) e G'9)̂ =
?
dança. Então, \ segue a distribuição binomial com parâmetros 20, ) . É comum utilizarmos
embalagem de um produto tradicional. Seja Y o número de pessoas que são favoráveis à mu-
)1 − )
. _. )̂ = =
68
Esse valor pode ser estimado substituindo-se o valor de p na fórmula por p̂ . Então,
Por razões que serão explicadas mais adiante, podemos afirmar com 95% de confian-
ça que o intervalo (0.19, 0.64) cobre o verdadeiro valor do parâmetro p. Em lugar de expres-
sarmos a estimativa através de um valor, no caso 0.4, expressamos a estimativa através de in-
tervalo, incorporando nessa estimativa a incerteza contida na amostra. Estimativa por interva-
lo serão descritas mais à frente.
com uma porcentagem ) de peças defeituosas é retirada uma amostra aleatória simples (com
A distribuição binomial aplica-se naturalmente nas seguintes situações. De um lote
igual chance de seleção para cada peça do lote) de n peças com reposição, ou seja, uma peça
seja retirada. Seja \ o número de peças defeituosas na amostra. Então, as condições de vali-
é retirada, examinada, sua condição registrada e devolvida ao lote antes que a próxima peça
_ = 0 = 0.01
0.99
= 0.99
= 0.818
0
1.a
_ ≤ 1 = 0.01
0.99
+ 0.01 0.99 D
=
0 1
1.b
0.818 + 0.165 = 0.983
2. s = ) = 20 × 0.01 = 0.2
3. 1 = ) = × 0.01 ⇒ = 100
Distribuição Hipergeométrica
No exemplo do lote de peças, se a amostra é retirada sem reposição, então a probabi-
lidade de que uma peça retirada seja defeituosa se altera em cada retirada, pois depende de
que tipo de peça foi retirada anteriormente. Nesse caso, a distribuição binomial não se aplica.
Considere uma coleção de = + objetos, sendo pertencentes a uma de
duas categorias possíveis e e e (por exemplo, e = %$$&WV8R' e e =
ã8 %$$&WV8R'), e N2 pertencentes à outra categoria. Uma amostra de n objetos é retirada
aleatoriamente sem reposição (com igual chance de seleção em cada retirada). Seja \ o nú-
mero de objetos pertencentes à categoria A1. Então, pode-se mostrar que
_\ = 5 = 5 − 5 , 5 = 1,2, … , ; ≤ ; ≤
e dizemos que \ segue a distribuição Hipergeométrica.
1.a _ = 1 =
= 0.55
2
71
1.b _ ≥ 1 = 1 − _ = 0 = 1 − = 0.77
2
2. s = ) = 5 × 0.2 = 1
Distribuição Multinomial
A distribuição Multinomial é uma extensão da distribuição Binomial quando o núme-
ro de respostas possíveis é maior que 2. Por essa razão o modelo é chamado de Multinomial.
A distribuição Binomial é um caso particular da distribuição Multinomial.
A distribuição Multinomial se aplica nas seguintes situações:
O resultado de cada ensaio pertence a uma de 5 categorias mutuamente ex-
clusivas, denominadas e , e , … , ed .
a)
A Distribuição Geométrica
cesso constantes e iguais a ). Em vez de fixar o número de ensaios a serem realizados, vamos
Considere novamente a repetição de ensaios de Bernoulli com probabilidades de Su-
vel de interesse agora é o número de ensaios até que ocorra um sucesso. Os valores possí-
considerar a situação em que realizamos ensaios até que ocorra o primeiro Sucesso. A variá-
72
veis de são 0,1,2, . .. . Teoricamente poderíamos repetir ensaios um número muito grande de
vezes sem observar nenhum Sucesso. Então dizemos que pode assumir qualquer valor in-
teiro de 0 a infinito.
É possível mostrar que
_ = 6 =
J? ).
O número esperado de ensaios até que ocorra o primeiro Sucesso é dado por .
?J
_ ≤ 5 = t
6
J
73
que descreva o número de microorganismos que existe em um litro de leite cru retirada de
no espaço. Suponha que nós estejamos interessados em encontrar um modelo probabilístico
um reservatório. A unidade de volume é um litro, que pode ser considerado como formado de
um número muito grande de micro- volumes, cada um desses micro- volumes podem conter
ou não um microorganismo. Então, existe um número muito grande (virtualmente infinito) de
micro- volumes, cada um correspondendo à realização de um ensaio de Bernoulli, onde a
ocorrência de Sucesso é encontrar um microorganismo, sendo que a probabilidade de ocorrer
um sucesso é muito baixa.
Os exemplos descritos acima podem ser chamados de eventos raros, porque cada
evento tem uma probabilidade muito baixa de ocorrer no ensaio considerado. Outros eventos
raros são: O número de partículas emitidas por uma fonte radioativa, o número de acidentes
por dia num determinado cruzamento, o número de erros de impressão numa página de um
livro, etc.
A distribuição de Poisson é muito importante e pode ser aplicada em diversas situa-
ções. Uma aplicação interessante na Biologia é em situações em que queremos determinar se
a distribuição de indivíduos no espaço se faz de forma aleatória, ou se existe um padrão de
agrupamento. A distribuição aleatória corresponde ao modelo de Poisson. Se pudermos, por
algum mecanismo, verificar se o modelo de Poisson se aplica, então podemos concluir que o
padrão de agrupamento é aleatório.
Vamos definir o modelo de Poisson através de alguns postulados. Nas situações em
que esses postulados são válidos podemos aplicar o modelo de Poisson.
$ ? 0
_ = = , = 0, 1, 2, …
!
Pode-se mostrar que a média e a variância de uma variável com distribuição de Pois-
son é dada pelo parâmetro λ da distribuição, ou seja,
a = e G'9 =
0.04 = 8. Então,
2
$ ? 0
_ ≤ 5 = t = 0.191
!
0
Tabelas para a distribuição de Poisson estão disponíveis na maioria dos livros de es-
tatística. A maioria dos softwares estatísticos permite calcular diretamente probabilidades as-
sociadas à distribuição de Poisson.
Exemplo
Solução: tem distribuição _5 .
75
_ = 1 = = 0.034
2C
!
1.a
Variáveis aleatórias contínuas surgem quando lidamos com quantidades que são me-
didas numa escala contínua, como por exemplo o tempo de vida de um equipamento, o volu-
me de um produto, o nível de umidade de um composto, a taxa de colesterol, etc. Como já
dissemos anteriormente, uma escala contínua é um modelo conveniente em muitas situações,
embora qualquer medida seja feita numa escala discreta devido às limitações do instrumento
de medida.
res { , _ }, e isso é tudo que precisamos saber para caracterizar a distribuição de probabi-
Quando a variável aleatória é discreta, representamos a distribuição pelo par de valo-
lidades.
Se dispusermos de uma amostra de uma característica de qualidade, o peso de barras
de chocolate produzidas, por exemplo, e construirmos um histograma da frequência relativa,
então, se quisermos estimar a proporção de barras de chocolate produzidas que tem peso infe-
rior a certo valor especificado x, basta calcularmos a área do histograma à esquerda do ponto
x0, como exemplificado na figura abaixo.
Da mesma forma que a área do histograma sob um intervalo mede a freqüência rela-
tiva ou proporção de valores da amostra que caem naquele intervalo, a área da curva sob um
intervalo mede a probabilidade de que um indivíduo sorteado ao acaso tenha como medida
um valor dentro do intervalo considerado.
probabilidade (fdp) e é representada por . A probabilidade que um valor esteja dentro
A curva contínua que representa a distribuição é chamada de função densidade de
se conhece , se resume no cálculo de uma integral definida. Esse problema não vai exis-
rio usado no caso de variáveis discretas. A dificuldade no cálculo de probabilidade, dado que
tir na maioria dos casos, pois estudaremos algumas distribuições contínuas que são as mais
importante e mais utilizadas, e para as quais essas integrais se encontram tabeladas.
A função densidade de probabilidades é uma curva que descreve a distribuição
de probabilidades de uma variável aleatória contínua e possui as seguintes propriedades:
78
1) ≥ 0 ∀ ;
2) A área sob a curva definida por é igual a 1
3) P' ≤ ≤ r = área sob a curva entre os pontos a e b.
Atente para o fato de que não é a probabilidade de que a variável aleatória se-
ja igual a , ou seja, ≠ _ = . Se X é uma variável aleatória contínua, então
_ = = 0 qualquer que seja !
Obs: Por ∞ e por −∞ queremos simbolizar o limite de quando cresce para
∞e decresce para −∞ respectivamente.
é chamada de Função Distribuição Acumulada (FDA), e sua forma geral é dada
por:
79
0.8
P(X<x)
0.6
p
0.4
0.2
0.0
-3.50 -1.75 0.00 x 1.75 3.50
X
trar, com Z
igual a 60 no diagrama abaixo, _ Z < 60 = 0.361, igual à
área no histograma, anterior à região pintada).
A probabilidade _Z > Z
,de que y seja maior que Z
, será igual a área
sob o histograma à direita de Z
(fazendo Z
= 70, corresponde à área após
2.
a região pintada).
A probabilidade _Z
< Z < Z , de que Z seja maior que Z
, mas menor
que y1, será igual a área sob o histograma entre Z
e Z . A área pintada na fi-
3.
Uma variável aleatória contínua , em geral, também tem uma média e uma variân-
cia com o mesmo significado e as mesmas interpretações discutidas anteriormente para o ca-
so discreto, mas o seu cálculo envolve integrais e não serão objeto de nosso trabalho aqui. Pa-
ra as distribuições que estudaremos aqui, a média e a variância serão fornecidas em cada ca-
so.
A Distribuição Normal
Dentre as muitas distribuições contínuas usadas em estatística, a mais importante é a
Distribuição Normal ou Gaussiana. Ela tem a forma de um sino e está associada com os no-
mes de Pierre Laplace e Carl Gauss. Seu estudo remonta ao século XVIII. Gauss derivou a
curva normal como sendo a distribuição que ocorre quando a variável analisada provém de
erros de medida e chamou-a de "Lei normal dos erros". Posteriormente, cientistas e analistas
de dados nas mais diversas áreas de atuação, ao fazer gráficos dos dados que estavam anali-
sando na forma de um histograma, encontravam uma forma que se aproximava da forma da
distribuição normal. Nos primórdios de seu uso, muitos acreditavam que todas as observa-
ções de processos reais deveriam seguir a lei gaussiana; daí a origem do nome normal. Quan-
do isso não acontecia, suspeitava-se dos dados. Posteriormente, observou-se que em muitas
situações a distribuição não seguia a forma da normal.
A aparência desta distribuição é mostrada a seguir:
81
quena, é possível aproximar o erro total, em um conjunto específico de condições, como uma
função linear dos seus componentes, distribuídos independentemente:
82
Suponha agora, que joguemos dois dados. A distribuição da média dos dois escores
obtidos é dada em (b). Na figura (c), (d) e (e) são apresentadas as distribuições das médias
dos escores ao jogarmos 3, 5 e 10 dados.
Na equação acima, , , … , . , representam os resultados obtidos no lançamento de
dados e ' = ' = ⋯ = ' . Note que a distribuição original das observações individuais
dias podem ser aproximadas pelas ordenadas da distribuição normal, mesmo para tão pe-
está muito longe de ter a forma da normal. Contudo, as ordenadas da distribuição para as mé-
não-normalidade. Desta forma, a menos que seja especificamente alertado, não se deve ter
excessiva preocupação acerca de normalidade exata.
Figura 1 - Distribuição das Médias de um, dois três e cinco dados
1 1 (x - µ )2
f(x) = e
-
2 σ2 - ∞< x< ∞ - ∞< µ < ∞ σ >0
2Π σ 2
Algumas probabilidades básicas, e que são úteis para se fazer análises rápidas com
Para a distribuição Normal com média zero e desvio padrão 1, 0,1 , essas probabilidades
pois envolve o cálculo de integrais que devem ser resolvidas por procedimentos numéricos.
encontram-se tabeladas. Essa tabela está disponível em qualquer livro texto de Estatística. A
Distribuição N(0,1)
0.5
0.4
0.3
Prob
0.2
0.9332
0.1
0
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
Z
−s 1 1 1
a© ª = a − s = a − s = s − s = 0
u u u u
−s 1 1 u
G© ª = G − s = G = = 1
u u u u
Assim, a expressão 30,5 identifica uma distribuição normal com uma média de
s = 30 e desvio padrão u = 5.
Soma de variáveis aleatórias Normais
O seguinte resultado é útil quando temos de trabalhar com a soma de duas ou mais
variáveis aleatórias Normais.
t ~ t s , t u
− )
¢=
])1 − )
então ¢ tem distribuição aproximadamente Normal com média 0 e variância 1. Esse
resultado é uma aplicação do Teorema Central do Limite exposto anteriormente.
Exemplo Se 20% das peças produzidas por uma máquina forem defeituosas, qual é
a probabilidade que em uma amostra aleatória de 100 peças não mais que 15 serão defeituo-
sas.
a) usando a distribuição Binomial
2
100 0.2 J 0.8
?J
_ ≤ 15 = t = 0.1285
6
J
X Y
----------------------
-1,6245 0,1970
0,4001 1,4920
-1,6631 0,1895
-0,0024 0,9976
-1,9902 0,1367
0,4476 1,5646
-1,0564 0,3477
1,6507 5,2104
-0,6148 0,5408
-0,3855 0,6801
-0,6469 0,5237
0,6744 1,9629
-0,6713 0,5110
1,2229 3,3969
-0,4550 0,6344
-0,4050 0,6670
-1,0347 0,3553
0,0776 1,0806
-0,1372 0,8718
-1,6101 0,1999
-0,1330 0,8754
0,7742 2,1689
0,0685 1,0709
91
X Y
13 28
12 26
11 24
10 22
20
9
18
8
16
No of obs
No of obs
7
14
6
12
5
10
4
8
3 6
2 4
1 2
0 0
-3 -2 -1 0 1 2 3 -2 0 2 4 6 8 10 12
Upper Boundaries (x <= boundary) Upper Boundaries (x <= boundary)
-1,0885 0,3367
Box & Whisker Plot
0,5012 1,6507 12
0,2120 1,2362 10
8
2,3542 10,5300
6
0,9572 2,6044
4
-0,4615 0,6303
2
1,8076 6,0957
0
-2
Y
A Distribuição t de Student
Nas discussões acima, supomos que o desvio padrão, u, era conhecido. Na prática, é
comum não se conhecer u. Temos então que substituí-lo pelo valor s da amostra. Desde que
u não é conhecido, não podemos calcular «
=
[¯ ?O
N
e usarmos a distribuição normal pa-
drão. Em vez disto, ao substituirmos u por R,
Z
− s
poderemos calcular
W=
Box & Whisker Plot
R
3,5
2,5
W=
[¯ ?O
1,5 Com base em certas suposições,
}
0,5
tem uma distribuição conhecida. Es-
padrão da amostra, R.
lo número de graus de liberdade do desvio
-1,5
-2,5
X
1,5
1,5
Expected Normal Value
0,5
0,5
-0,5
-0,5
-1,5
-1,5
-2,5
-2,5 -1,5 -0,5 0,5 1,5
População e Amostra
Quando coletamos dados para estudar um determinado problema, temos como objetivo o
conhecimento de uma certa realidade. Se uma empresa de pesquisa de opinião pública sai a
campo para fazer uma pesquisa eleitoral, o objetivo é saber como os eleitores se comportam
com respeito aos candidatos, partidos, etc. Quando anotamos a quantidade de litros consu-
midos e o total de quilômetros rodados por um carro, queremos saber sobre o desempenho
do carro com respeito ao consumo. Quando variamos a temperatura e a pressão de um reator
químico e medimos o rendimento em cada set-up, queremos saber como o rendimento de-
pende da temperatura e da pressão.
Existe uma infinidade de situações que poderiam ser listadas aqui. Uma questão importante
a ser levantada é: Como nós deveríamos proceder para obter informações que sejam relevan-
tes para um determinado problema? Obviamente o assunto é vasto e não vamos tratá-lo aqui
em detalhes. Queremos chamar a atenção para alguns aspectos que devem ser considerados
quando nos propomos a coletar e analisar dados, ou mesmo quando examinamos dados cole-
tados e analisados por outras pessoas.
Existem três formas principais de se obter dados: amostragem e censo; estudos observacio-
nais ou dados históricos e; experimentos controlados.
Amostragem e censo
Amostragem é um processo em que indivíduos de uma população são selecionados e nos
quais são realizadas medidas ou observações. O censo envolve a observação ou medida de
todos os indivíduos da população. Quatro aspectos principais estão presentes nesse processo:
96
d) A inferência sobre a população (no caso de uma amostra), a partir dos resultados da
amostra.
Definida a população, se o tamanho da mesma for muito grande, pode ser muito difícil, ou
muito caro, realizar medidas em todos os indivíduos. Essa é uma das razões que levou ao de-
senvolvimento de todo um conjunto de técnicas para se medir os indivíduos de apenas uma
parte da população, que chamamos de amostra. Uma outra razão para se usar amostragem é
a precisão da informação. Medir implica em gasto de tempo e de dinheiro. Quando realiza-
mos medidas, estão envolvidos erros de natureza estatística e não-estatística. Os erros de na-
tureza não-estatística podem ser minimizados se um cuidado maior for tomado pelo respon-
sável pela medida. Se medimos uma grande quantidade de indivíduos, esse cuidado extra
97
pode não ser viável, o que faz com que esses erros se acumulem e tornem os resultados de
pouca utilidade. Se temos de medir uma quantidade menor de indivíduos, como é feito nu-
ma amostra, as medidas podem ser feitas com mais cuidados, e o resultado final é mais preci-
so.
Outro fato que merece ser mencionado é que a precisão dos resultados obtidos através de
uma amostra não dependem, necessariamente, da proporção do tamanho da amostra em re-
lação ao tamanho da população, ou seja, o fato da população ser muito grande não implica
que o tamanho da amostra tenha que ser proporcionalmente grande para que obtenha boa
precisão nos resultados.
Esse tipo de estudo ocorre com frequência na indústria quando utilizamos registros de pro-
dução. Hoje., com os modernos métodos de coletas de dados e com as possibilidades de ar-
98
A definição da população de interesse não é uma tarefa simples. Nesse tipo de estudo é ne-
cessário quase sempre a utilização de modelagem. Grandes avanços do conhecimento são fei-
tos através de estudos observacionais, e um bom exemplo disso é a Física, e em particular a
Astronomia.
Experimentos Controlados
Em experimentos controlados, fatores que potencialmente afetam uma determinada resposta
são variados de uma forma controlada, e o efeito dessas mudanças são avaliados. Existem
técnicas apropriadas para a montagem do plano experimental. Esse tipo de experimento é
amplamente utilizado em vários ramos da ciência e na indústria. Questões inferenciais são
críticas nesse tipo de estudo, visto que:
Em todas as situações descritas acima, dois elementos são fundamentais: População e Amos-
tra.
População
População, de uma forma bastante ampla, é a coleção de todas as observações que conceitu-
almente podem ocorrer como resultado de se realizar uma particular medida em indivíduos,
processo de produção, produtos, etc.. Poderíamos considerar a população levando em conta
os indivíduos, ou elementos, sobre os quais as medidas são realizadas. Não faremos distinção
aqui entre as duas situações.
De uma forma geral, população é o conjunto de elementos de interesse para um determinado estudo.
Uma população é finita se é constituída de um número finito de elementos. Uma população é
infinita se é constituída de um número infinito de elementos. Em geral, populações infinitas
se referem a um processo sobre o qual realizamos medidas. Para que o processo gere uma
população é necessário que o processo esteja estatisticamente estável e operando sobre as
mesmas condições.
Amostra
100
Amostra é também uma coleção de valores, mas de apenas uma parte da população. Amos-
tras podem ser retiradas de forma intencional ou de forma aleatória.
Uma amostra é aleatória quando, em princípio, cada elemento da população tem uma pro-
babilidade conhecida de pertencer à amostra.
Uma amostra que é retirada baseada em um julgamento de quem deve fazer parte da amos-
tra é uma amostra intencional.
Como calcular a precisão de uma estimativa? Isso só é possível se for utilizada amostragem
aleatória ou probabilística.
Erro amostral é a diferença entre o resultado obtido na amostra e o resultado que seria obtido
pela observação de toda a população utilizando-se os mesmos procedimentos. Erros amos-
101
trais podem ser controlados e minimizados através da escolha do plano amostral. Por exem-
plo, se o objetivo é estimar a renda média por família de uma população podemos selecionar
ao acaso n famílias da população e calcular a renda média das famílias da amostra. Essa es-
timativa tem uma certa precisão. Se estratificarmos a população por região geográfica e reti-
rarmos amostras por estrato, provavelmente a precisão da estimativa com o novo plano será
maior e o erro amostral menor.
Erros não amostrais surgem, por exemplo, quando utilizamos método não adequado para
medir a resposta (instrumento não calibrado, por exemplo), quando um pesquisador preen-
che incorretamente os questionários, quando pessoas que fazem parte da amostra se recusam
a responder, etc.
População finita: Uma amostra aleatória simples de tamanho n de uma população finita é
aquela em que cada subconjunto de n elementos da população tem a mesma chance de ser se-
lecionada. Quando retiramos uma amostra sem reposição onde cada elemento restante na
população tem a mesma chance de ser selecionado, a amostra resultante satisfaz a condição
de ser amostra aleatória simples. Para que possa retirar uma amostra aleatória simples de
uma população finita é necessário que se tenha à disposição uma lista com todos os elemen-
tos da população.
População infinita: Quando a população é infinita, não é possível listar todos os elementos e
sortear uma amostra. População infinita é, em muitas situações, um modelo conceitual. Por
exemplo, se um processo produz leite tipo A e amostramos unidades de volume para medir
uma característica de qualidade X do leite, a população é formada por todas as unidades de
102
volume produzidas ou que venham a ser produzidas nas mesmas condições. É conveniente
modelar a quantidade X através de uma variável aleatória com uma certa distribuição.
Observe que a condição 2 requer que o processo esteja sob controle estatístico. A condição 1 é
mais difícil de ser verificada.
Se de um processo com população infinita formamos lotes, então esses lotes formam uma
população finita. Por exemplo, o leite produzido é envasado em caixas de 1 litro. Um dia de
produção, por exemplo, forma um lote cujas unidades são caixas de um litro.
Gráfico do Peso*Tempo
172
171.6
171.2
PESO (grama)
170.8
170.4
170
169.6
169.2
8 9 10 11 12 13 14 15 16
TEMPO
Pode-se notar no gráfico que há uma tendência de aumento das medidas com o tempo. Por-
tanto, a amostra não provêm de uma mesma população.
Exemplo O gráfico abaixo apresenta um histograma bimodal, indicando que os dados que
geraram o histograma provêm de duas distribuições.
104
Histograma
26
24
22
20
18
16
No of obs
14
12
10
8
6
4
2
0
Gráficos de dispersão: O gráfico dos pares , 3 não deve apresentar nenhuma tendên-
cia. Caso contrário, suspeita-se de que a suposição de independência não está sendo satisfei-
ta.
Outros procedimentos formais podem ser aplicados. Esses procedimentos serão discutidos
posteriormente.
Parâmetros e Estatísticas
Outra diferença entre população e amostra reside na forma com que nos referimos às quanti-
dades que são calculadas. Quando as quantidades são calculadas usando a população cha-
mamos essas quantidades de parâmetros. Quando são calculadas na amostra chamamos de es-
tatísticas. Por exemplo, suponha que você calcule a média aritmética de um conjunto de da-
dos. Se o conjunto de dados é formado por todos os elementos da população, então o que te-
mos é um parâmetro que é a média populacional. Se o conjunto de dados é obtido de uma
amostra temos uma estatística que é a média amostral. Em geral usamos letras gregas quando
nos referimos a parâmetros populacionais. Por exemplo, usamos a letra s para média popu-
lacional e σ para desvio padrão populacional.
105
Se medimos uma característica X nos elementos de uma população finita com elementos,
podemos representar todos os valores por , , … , : , onde é o valor de no i-ésimo
elemento da população. Então,
s=
∑²
1BC @1
:
é a média populacional e
u=E
1BC01 ?@
∑²
:
é o desvio padrão populacional.
Se a população tem um número infinito não enumerável de elementos, então não é possível
listar todos os valores de X. Nesse caso, representamos a população por uma distribuição de
probabilidades e definimos a média e o desvio padrão através de integrais. O que deve
ficar claro aqui é que a média e o desvio padrão também existem, com as mesmas interpreta-
ções.
= 1BC
∑ ²
@1
:
é a média amostral e
<=E
1BC01 ?@
∑²
?
é o desvio padrão amostral.
Distribuição Amostral
Um conceito importante em Estatística é o de distribuição amostral. Quando retiramos uma
amostra de uma população e calculamos algumas estatísticas como a média amostral ou o
desvio padrão amostral, notamos que esses valores dependem dos valores da amostra. Se ti-
rarmos duas amostras nas mesmas condições, os valores dessas estatísticas não serão neces-
sariamente iguais. Em função disso, é importante determinar como esses valores variam de
amostra para amostra, qual é a média e o desvio padrão desses valores, em suma, qual é a
distribuição da estatística em consideração.
Para ilustrar o conceito, vamos utilizar um exemplo simples que pode ser trabalhado em sua
totalidade. Considere uma população de tamanho 5 composta dos seguintes elementos:
{3, 5, 7, 9 $ 11}. A média populacional é então:
3 + 5 + 7 + 9 + 11
s= =7
5
e o desvio padrão amostral é:
3 − 7 + 5 − 7 + 7 − 7 + 9 − 7 + 11 − 7
u== = √8
5
Agora, se nós retiramos uma amostra aleatória simples de tamanho 2 dessa população, temos
10 possibilidades, a saber:
X 4 5 6 7 8 9 10
s √ √
2 8 18 32
P 0 0
rob .40 .30 .20 .10
A média de é:
1 1 2 2 2 1 1
s@ = 4 × +5× +6× +7× +8× +9× + 10 × =7
10 10 10 10 10 10 10
e a variância de é:
108
1 1 2 2
u@ = 4 − 7
× + 5 − 7 × + 6 − 7 × + 7 − 7
× + 8 − 7
10 10 10 10
2 1 1
× + 9 − 7 × + 10 − 7 × =3
10 10 10
Então, u@ = √3 .
Observe que, para esse exemplo, s@ = s, ou seja, a média das médias amostrais é igual à mé-
dia populacional, o que nos diz que a distribuição das médias amostrais está centrada no
mesmo valor que a média populacional. Essa relação é importante e vale em geral.
O desvio padrão da média amostral é √3, que é menor que o desvio padrão populacional, ou
seja, a média amostral; tem distribuição mais concentrada que a população original. Esse re-
sultado também é válido em geral. Se a população é finita () e o tamanho da amostra () é
grande relativamente ao tamanho da população e, se retiramos uma amostra aleatória sim-
ples da população, então
u −
u@ = =
√ − 1
Caso a população seja infinita, ou N seja muito grande comparado com n, temos:
u
u@ =
√
Com base nesse exemplo pode-se verificar que:
1. A distribuição de para uma amostra aleatória simples está centrada, ou tem como
média, o mesmo valor da média populacional.
2. O desvio padrão da média amostral é menor que o desvio padrão populacional e de-
cresce com o aumento do tamanho da amostra.
Estatística
A média e o desvio padrão amostral são funções dos valores da amostra. Pode-se definir ou-
tras funções da amostra, como, por exemplo, a mediana, a amplitude, os percentis, a curtose,
etc.. Qualquer função da amostra é denominada Estatística.
O valor de uma estatística depende dos valores da amostra. Para cada amostra possível a es-
tatística em questão assume um valor dentre um conjunto de valores possíveis com uma cer-
ta distribuição de probabilidades. Essa distribuição de probabilidade da estatística é chamada
de distribuição amostral e é importante na determinação da precisão da estatística
Para introduzir o conceito de distribuição amostral usamos um exemplo simples que pode
ser trabalhado em toda a sua extensão, ou seja, foi possível calcular a distribuição da média
amostral e do desvio padrão amostral, bem como calcular a média e o desvio padrão dessas
distribuições. Esse procedimento não é prático de ser aplicado quando a população é grande.
Em geral, a derivação da distribuição amostral das estatísticas de interesse são feitas através
de recursos matemáticos que podem ser bastante sofisticados. Esses procedimentos não serão
cobertos nestes textos.
Por outro lado, parâmetros que nos interessam nesse momento são: a média e o desvio pa-
drão populacional. Apresentaremos a forma de estimá-los a partir da amostra e fornecere-
mos, sem prova, as respectivas distribuições amostrais.
= 1 e < = E ?
∑0 ∑01 ?@
110
Estimativas como essas são chamadas de estimativas pontuais, já que se constituem apenas de
um número.
Embora essa seja a maneira mais comum de se apresentar estimativas, ela deixa algumas
questões em aberto, pois não contém nenhuma informação sobre o tamanho do erro amostral
da estimativa, e esse erro existe. Uma outra forma de apresentar estimativas é através de in-
tervalos de confiança. A estimativa é apresentada na forma de um intervalo, o qual julgamos,
que cobre o verdadeiro valor do parâmetro com um nível de confiança especificado. Antes de
falarmos sobre o intervalo de confiança, vamos apresentar a distribuição de .
Distribuição de ³́.
Serão apresentados dois resultados importantes com referência à distribuição de . O primei-
ro resultado fornece a distribuição exata de , quando a distribuição original é gaussiana:
Baseado numa amostra aleatória de tamanho n de uma população com distribuição normal
com média s e desvio padrão u, a média amostral tem distribuição normal com média s e
N
√
desvio padrão .
Em uma amostra aleatória de uma população com distribuição arbitrária com média s e des-
vio padrão u, a distribuição de é aproximadamente normal com média s e desvio padrão
N
√
. Em outras palavras,
@?O
¢ = N/ é aproximadamente 0,1
√
@?O
W = µ/
√
Intervalo de confiança
Embora o mais comum seja apresentar estimativas por meio de estimativas pontuais, essa
forma não contém informações sobre o tamanho do erro amostral da estimativa, e essa in-
formação, como já enfatizamos anteriormente, é essencial para a interpretação da estimativa e
conseqüente tomada de decisão.
· ≤ ¶ ≤ <
onde LI é o limite inferior e LS o limite superior do intervalo.
Para ilustrar essa forma de apresentar a estimativa vamos recorrer às pesquisas eleitorais. Os
institutos de pesquisa apresentam geralmente os resultados da seguinte forma: O candidato
A tem 35% das intenções de voto; a margem de erro é de ± 3% com um nível de confiança de
95%. Essa última afirmativa sobre o nível de confiança não é, em geral, divulgada na impren-
sa; só aparece nos relatórios técnicos. Como interpretar esse resultado? O verdadeiro valor da
proporção p de votantes é desconhecida. Na amostra, 35% manifestaram intenção de votar
no candidato A.
Através de técnicas que não serão discutidas agora, é possível afirmar que o intervalo
(32%;38%) cobre o valor de p com 95% de confiança. Noventa e cinco por cento de confiança
significa o seguinte: a proporção estimada varia de amostra para amostra; consequentemente
os limites do intervalo também variam de amostra para amostra. Alguns intervalos podem
acertar ao cobrir o verdadeiro valor p. Outros erram. Em 100 amostras retiradas nas mesmas
112
condições é esperado que o número de intervalos certos seja 95. Não é possível estreitar a
amplitude do intervalo de confiança nem aumentar o nível de confiança sem pagar um preço,
que na maioria dos casos é aumentar o tamanho da amostra.
1. a = s
u =
N
√
2.
~ s,
N
√
3.
Das propriedades da distribuição normal sabemos que aproximadamente 95% das amostras
retiradas sob as mesmas condições terão média amostral entre s ± 2u/√. Esse tipo de resul-
tado tem interesse quando queremos verificar se a média amostral fornece evidência de que
um processo não está calibrado de acordo com um valor médio especificado s
.
2u 2u
© − , + ª
√ √
Chamamos esse intervalo de intervalo de estimação para s com 95% de confiança, ou sim-
plesmente intervalo de confiança de 95% para s.
113
Como interpretar esse resultado. A interpretação é equivalente àquela dada para o intervalo
de confiança da porcentagem de eleitores de um candidato.
Exemplo Uma máquina empacotadeira de macarrão deve colocar 1000 gramas em cada pa-
cote. Suponha que o desvio padrão da máquina seja conhecido e igual a 5 gr, e que a máqui-
na está calibrada em 1000 gr. Uma amostra de 10 pacotes é retirada e pesada em uma balança
com alta precisão (para efeitos práticos assuma que a precisão é infinita, ou seja, que o desvio
padrão é zero). Calcula-se a média dos pesos dos 10 pacotes e encontra-se 998.38gr. O inter-
valo de confiança, usando-se a expressão acima, é dado por:
5 5
©998.38 − 2 × , 998.38 + 2 × ª
√10 √10
ou
995.2 , 1001,5
Afirmamos então que o intervalo acima contém s, e nesse caso a afirmativa está correta (lem-
bre-se que a máquina está calibrada em 1000g). Suponha que retiramos outra amostra nas
mesmas condições, resultando em uma média amostral igual a 997.6. O intervalo correspon-
dente é então (994.4 , 1000.7), e novamente o intervalo contém o valor 1000. Uma terceira
amostra é retirada nas mesmas condições resultando em = 1004.13. O intervalo de confi-
ança é então (1001.0 , 1007.3). Nesse caso dizemos que a média µ está entre 1001.0 e 1007.3 e
cometemos um erro. Para algumas amostras o intervalo contém o valor 1000. Para outras não.
Quando calculamos um intervalo de confiança e dizemos que esse intervalo contém µ, essa
afirmação está sujeita a erros. Quando afirmamos que a confiança é de 95% queremos dizer
que se retirarmos 100 amostras nas mesmas condições, em média vamos acertar 95 vezes
(95%) e errar 5 vezes. Essa é a interpretação que se dá ao intervalo de confiança.
2u 2u 2u
e = < − · = + − + =2ש ª
√ √ √
114
Em geral, o desejável é que o intervalo tenha a menor amplitude possível. A amplitude de-
cresce com o aumento do tamanho da amostra. Se diminuirmos a constante que multiplica
u/√ ( até agora usamos essa constante igual a 2) também podemos diminuir a amplitude.
Por exemplo, se usarmos a constante igual a 1, a amplitude se torna 2 × u/√, mas o nível de
confiança cai para 67% ( lembre-se que na distribuição normal o intervalo de ± um desvio
padrão em torno da média tem probabilidade de 67%)
u u
© − «¸/ ; + «¸/ ª
√ √
onde «¸/ é o ponto na distribuição 896'q0,1 que deixa uma área de ¹/2 na cauda,
0 < ¹ < 1.
4. «¸/ : ponto correspondente na distribuição 0,1 que deixa uma área de ¹/2 na
cauda superior da distribuição.
− s
</√
tem distribuição W de Student com − 1 graus de liberdade. O intervalo de confiança é então
dado por
< <
− W? ,¸/ , + W? ,¸/
√ √
onde W? ,¸/ corresponde ao ponto na distribuição t de Student que deixa uma área de ¹/2 à
sua direita.
6.81 6.81
©1000.6 − 2.262 × , 1000.6 + 2.262 × ª
√10 √10
ou
995.7 , 1005.5
116
Observe que a amplitude do intervalo é maior. É o preço a pagar por ter que estimar σ a par-
tir da amostra.
Se o tamanho da amostra é suficientemente grande, o valor W? ,¸/ é aproximado por «¸/ .
Então, um intervalo de confiança de 100 × 1 − ¹ % para µ é dado por
< <
− «¸/ , + «¸/
√ √
2. Obtemos os valores e = χ ?
»
,?
e e = χ»,? a partir da distribuição ¼?
, sendo
e = χ ?
»
,?
o valor da ordenada na distribuição ¼?
que deixa área igual a 1 − ¹/2
− 1 < − 1 <
½ , ¾
e e
E um intervalo de confiança para u é dado por
− 1 < − 1 <
¿= ,= À
e e
Exemplo O tempo que um técnico de laboratório levou para realizar uma determinada análi-
se foi medida em 16 ocasiões diferentes. A média e o desvio padrão dos tempos foram:
2. e = χ ?
»
,?
= χ
,DÁ2; 2 = 6.262
e = χ¸,? = χ
,
2; 2 = 27.488
15 × 0.6
15 × 0,6
½ = ¾ = X0,20; 0,86Y
27.488 6.262
Calculando a raiz quadrada desses limites, obtemos um intervalo de confiança para σ. Esse
intervalo é dado por
X044; 0,93Y
Mét Nº de M D
odo Determ. édia .P.
1 6 20 0
.00 .19
2 6 20 0
.02 .13
119
Vamos resolver essa questão através da construção de um intervalo de confiança para a razão
u / u , onde u e u são os desvios padrão dos métodos 1 e 2 respectivamente. . Para constru-
ir um intervalo de confiança de 1 − ¹ × 100% para u / u , assumimos que as determi-
nações foram feitas de forma independente e seguem a distribuição normal.
direita.
direita.
Esses valores podem ser obtidos a partir da tabela da distribuição F, ou calculados por meio
de software.
120
1 < <
¿ ; À
¸;{
¸
< ;{ ,{C <
C;Â
No exemplo, temos:
1. < = 0.19
< = 0.13
2. = 6 ⇒ 9 = 5 = 6 ⇒ 9 = 5
¹ = 0.05 = 0.025
¸
,
2;2,2 = 7.15
NC
N
3. Um intervalo de confiança de 95% para é dado por
1 0,19 0,19
½ ; 7,15 ¾ = X0,298; 15,27Y
7,15 0,13 0,13
Como o intervalo de confiança contém o valor 1, concluímos que não há evidência, ao nível
de 5%, de que os desvios padrões sejam diferentes para os dois métodos.
121
Observe que a amplitude do intervalo é muito grande. Essa é uma característica de intervalos
de confiança para razões entre variâncias.
1. Como é uma variável aleatória discreta, pode ser impossível encontrar um interva-
lo de confiança com nível de significância exata.
)̂ − )
¢=
E)1 − )
tem distribuição aproximada 896'q 0,1 .
Então, o intervalo
)1 − ) )1 − )
)̂ − «¸\ = ; )̂ + «¸\ =
122
Exemplo Em uma amostra de 200 funcionários, 104 se declararam satisfeitos com o atendi-
mento do restaurante da empresa. Vamos construir um intervalo de confiança aproximado
de 90% para a proporção de funcionários satisfeitos com o atendimento do restaurante.
Temos:
0.46 , 0.58
Então, podemos dizer que o intervalo ( 0.46, 0.58) cobre o valor da proporção de funcionários
satisfeitos com o restaurante com 90% de confiança.
Por exemplo, na determinação do teor de gordura de leite em pó, uma amostra é retirada, e a
partir da amostra calcula-se o teor médio de gordura . Se o desvio padrão das medidas, u, é
conhecido, um intervalo de confiança de 95% para o teor médio de gordura é dado por
2. A “confiança” na estimativa.
«¸/ u
=© ª
e/2
Fazendo = e/2, temos: = onde é metade da amplitude.
Ä»/ N
H
Então,
2.571 × 0.179
=© ª = 84.7
0.05
Portanto, o tamanho da amostra necessário é 85. Como já foram feitas 6 determinações, é ne-
cessário realizar mais 79 medidas.
)1 − ) )1 − )
)̂ − «¸\ = ; )̂ + «¸\ =
)1 − )
e = 2 × «¸\ =
)̂ 1 − )̂ «¸\
)̂ 1 − )̂ «¸\
= =
e/2
Exemplo Uma amostra piloto com 20 funcionários mostrou que 11 deles aprovaram o aten-
dimento oferecido pelo restaurante da empresa. Deseja-se estimar a proporção de funcioná-
rios satisfeitos com mais ou menos 1 ponto percentual com nível de confiança de 95%. O ta-
manho da amostra necessária para se atingir essa precisão é dado por:
)̂ 1 − )̂ «¸\
=
125
Exemplo 1: Duas máquinas são usadas para envasar leite longa vida. O desvio padrão do vo-
lume envasado pela máquina 1 é conhecido e igual a 0.01 litro e o da máquina 2 é 0.015 litro.
Uma amostra de = 25 pacotes da máquina 1 e = 20 pacotes da máquina 2 é retirada e o
volume de cada pacote é medido encontrando-se = 1.041 e = 1.071. Deseja-se verificar
se, com base nos medidas realizadas, as máquinas estão calibradas de forma diferente, ou se-
ja, se o volume médio da máquina 1 é igual ao volume médio da maquina 2.
Exemplo 2 : Dois métodos A e B usados para medir o teor de umidade de um produto devem
ser comparados para verificar se eles medem a mesma quantidade. Dois quilos de produto
são separados da produção, homogeneizados e divididos em 20 porções de 100 gramas cada.
Dez porções são sorteadas e submetidas ao método A; as outras 10 porções são submetidas
ao método B. Dos resultados obtidos com cada método, calcula-se a média e o desvio padrão,
obtendo-se n = 21.031, o = 20.07, <n = 3.4 e <o = 2.7. Com base nesses dados, deseja-se
concluir se os dois métodos são equivalentes.
Esses estudos são chamados de estudos comparativos, e seu objetivo é verificar se os métodos
ou processos estudos são equivalentes, além de medir as diferenças se elas existirem. Os es-
126
As técnicas de construção de intervalos de confiança são similares tanto para os estudos ob-
servacionais como para os estudos experimentais. Os estudos experimentais serão tratados
com detalhe no capítulo de Planejamento de Experimentos.
Estudos Observacionais
Os dois esquemas amostrais mais utilizados em estudos observacionais são denominados de
amostras independentes e amostras pareadas ou dependentes.
Amostras independentes
Um esquema amostral com amostras independentes é um estudo observacional em que
amostras aleatórias simples de tamanho n1 e n2 respectivamente são retiradas de forma in-
dependente de duas populações.
Amos-
tra 1 1 1,2 .. 1,n1
Amos-
tra 2 ..
¤ , , , , … , ,C ¨ e ¤, , , , … , , ¨
2,1 2,2 2,n2
Eu / + u /
u u u u
¿ − − «
,
2 = + ; − + «
,
2 = + À
O valor de «
,
2 é igual a 1.96.
= X−0,037; −0,022Y
Portanto, como o intervalo não contém o valor zero, concluímos que há diferença significati-
va entre as médias das duas máquinas.
A estimativa da diferença s − s é dada por − . O desvio padrão de − é dado por
uE +
C
.
− 1 < + − 1 <
<==
+ − 2
1 1 1 1
¿ − − W
,
2,C3? <= + ; − + W
,
2,C3? <= + À
Supondo que no exemplo 1 tivéssemos obtido < = 0,012 e < = 0,02, primeiro calcularía-
mos <.
240,012 + 190,02
<== = 0,016
43
O valor de W
,
2,4. 2.02. O intervalo de confiança é então:
1 1 1 1
¿1,04 − 1,07 − 2,02 × 0,016= + ; 1,04 − 1,07 + 2,02 × 0,016= + À
25 20 25 20
= X−0,04; −0,02Y
Portanto, como o intervalo não contém o valor zero, concluímos que há diferença significati-
va entre as duas médias.
Os resultados apresentados acima para intervalos de confiança são exatos se as amostras são
retiradas de populações com distribuição Gaussiana e são aproximados se as amostras são re-
129
tiradas de populações cujas distribuições não são Gaussianas. A aproximação depende essen-
cialmente do “afastamento” da distribuição original em relação à distribuição Gaussiana e do
tamanho das amostras.
1 1
e = 2 × W
,
2,C3? × < × = +
Para e fixos, a amplitude depende de <, o desvio padrão estimado das observações Æ .
Quando se junta as observações dos dois processos em estudo, verifica-se que a variabilidade
das medidas pode ser explicada por dois componentes. Um dos componentes é devido à di-
ferença que por ventura existe entre os dois processos. A outra parte é devido ao que cha-
mamos de erro experimental. O erro experimental tem várias origens, sendo uma das mais im-
portantes a diferença que existe entre os objetos ou indivíduos que são tratados pelos proces-
sos. Por exemplo, se queremos avaliar dois processos metalúrgicos para tratar chapas de me-
tal com respeito à resistência das chapas tratadas, podemos selecionar = + chapas e
tratar delas escolhidas ao acaso com o processo A e as outras chapas com o método B.
As possíveis diferenças que existam entre as chapas, tal como a espessura da chapa não tra-
tada, e que possam afetar a resistência final certamente contribuirão para aumentar o erro
experimental, e conseqüentemente o valor de <. Como se espera que a variabilidade de es-
pessura dentro de cada chapa seja menor que a variabilidade entre chapas, um procedimento
experimental adequado seria selecionar m chapas e dividi-las em duas partes. Uma parte se-
ria tratada com o processo A e a outra com o processo B, sendo que a escolha de qual parte
recebe o tratamento A feita por sorteio. Se Zn, e Zo, são as resistências finais medidas na i-
ésima chapa, calcula-se a diferença
= Zn, − Zo,
130
e constrói-se um intervalo de confiança para a média dos ‘s. Dessa forma, a diferença que
existe entre as placas é controlada e removida do erro experimental, aumentando assim a
sensibilidade do experimento e diminuindo a amplitude do intervalo de confiança para a di-
ferença entre as duas médias.
Em estudos experimentais essa técnica de agrupar unidades que sejam hormogôneas entre si
é denominada de blocagem e será discutida em detalhes mais à frente.
Amos-
tra 1 1,1 1,2 .. 1,n
Amos-
tra 2 2,1 2,2 .. 2,n
Dife-
rença 1 2 .. n
Sendo % = , − , . Construir um intervalo de confiança para a diferença das médias dos
dois processos é equivalente a construir um intervalo de confiança para a média das diferen-
ças % = , − , , sL = s − s , sendo s e s as médias dos dois processos.
<L <L
Ç%̅ − W
,
2,? ; %̅ + W
,
2,? É
√ √
sendo <L = E∑
L1 ?L
?
a estimativa do desvio padrão das diferenças.
131
Introdução
A coleção e a análise de dados são componentes importantes do método científico aplicado
ao processo de desenvolvimento do conhecimento. A pesquisa científica é um processo de
aprendizado orientado. A aplicação dos métodos estatísticos torna esse processo tão eficiente
quanto possível.
Dados são usados tanto para tentar refutar teorias existentes como para revisar velhas teorias
e também para formular novas. Teorias e hipóteses deveriam ser sempre contrastadas com
dados coletados, se possível, de experimentos planejados. Se os dados contradizem a teoria,
deveria se procurar outro modelo teórico que explicasse os dados experimentais e que esti-
vesse de acordo com o conhecimento anterior.
O processo de aprendizado pode ser colocado, de uma forma sistemática, como um ciclo.
Uma hipótese inicial é estabelecida e, através de um processo de dedução, estabelecemos cer-
tas conseqüências, as quais devem ser confrontadas com dados experimentais. Quando as
conseqüências não concordam com os dados, é necessário modificar as hipóteses através de
um processo de indução. Nova hipótese é formulada e inicia-se o ciclo novamente. Em mui-
tas situações, onde não existe uma teoria, uma análise exploratória de dados pode fornecer
um ponto de partida para formular hipóteses e dar início ao ciclo.
Quando coletamos dados, eles vêm "contaminados" por erros de diversas naturezas. (erros
de medida, variabilidade no material experimental, etc.). A Estatística é a única ferramenta
que nos possibilita tratar esse "ruído". Essa afirmação não diz que é impossível avançar o co-
nhecimento sem o uso de Estatística. De fato, existem vários caminhos que podem ser percor-
ridos para se chegar a um mesmo objetivo. Alguns são mais eficientes que outros. É possível
conduzir uma investigação sem o uso da Estatística. Entretanto, se um investigador compe-
tente usa a metodologia estatística ele será mais eficiente.
132
Essas observações iniciais servem para ilustrar o fato de que dados amostrais são rotineira-
mente utilizados para se tomar decisões frente a hipóteses formuladas. Teste Estatístico de Hi-
póteses é uma técnica estatística que lida com procedimentos para medir a evidência que os
dados experimentais fornecem contra uma hipótese formulada. Sua utilização é ampla em
todas as áreas da estatística, como análise de regressão, planejamento de experimentos, análi-
se de séries temporais, análise de sobrevivência, confiabilidade, etc.
Embora a discussão anterior possa levar o leitor a concluir que essas técnicas só se aplicam à
investigação científica "stricto sensu", testes de hipóteses são amplamente utilizados na rotina
diária de empresas, hospitais, órgãos governamentais, etc.
Ê
: s = 200
Onde Ê
é chamada de hipótese nula. A outra hipótese é que a nova máquina é mais produtiva
que a atual, e escrevemos
Ên : s > 200
A técnica de teste de hipóteses não será desenvolvida formalmente aqui. Através de três
exemplos apresentaremos as 4 etapas que devem ser cumpridas para a realização de um teste
de hipóteses. Do ponto de vista do usuário da estatística é importante entender conceitual-
133
mente esses 4 passos. A montagem e a realização dos testes, nas mais diferentes situações, se-
rão apresentadas ao longo do curso e analisadas com o recurso do computador. O mais im-
portante é saber como traduzir um problema prático na forma de um teste. Saber qual teste
aplicar e interpretar o resultado que o computador fornece.
Exemplo 1 Você vai para o trabalho todos os dias e percebeu que, dependendo das condi-
ções de trânsito, o tempo gasto no trajeto varia de dia para dia (vamos considerar que o traje-
to é sempre o mesmo). “Suponha que você é uma pessoa organizada” e tem registrado o
tempo gasto diariamente para realizar o percurso durante os últimos dois anos. Baseado nes-
ses dados, você sabe que o tempo médio gasto é de 30 minutos com desvio padrão igual a 1.
Construindo um histograma com os dados você observa que os dados seguem uma distribui-
ção aproximadamente normal. Com isso, você sabe que em 95% dos dias você completa o tra-
jeto entre 28 e 32 minutos.
134
28 29 30 31
32
Um colega lhe propõe um novo trajeto e lhe afirma que é possível percorrê-lo em um tempo
menor. Você resolve testar para verificar se o novo trajeto é realmente melhor. O primeiro
passo é construir a hipótese Ê
e Ên .
Vamos chamar de s o tempo médio gasto com o novo trajeto. Observe que não sabemos qual
é esse valor. As hipóteses para esse problema ficam da seguinte forma:
Ê
: s = 30 6&
Ên : s < 30 6&
e o passo 1 do processo está concluído.
No dia seguinte você percorre o trajeto e gasta 29 minutos. Essa informação é suficiente para
rejeitarmos a hipótese nula e concluirmos que o novo trajeto é melhor que o antigo? Obvia-
mente não. Devido à presença de variabilidade (condições de trânsito) hoje gastou-se 29 mi-
nutos, amanhã você poderá gastar 32 minutos. É necessário percorrer o trajeto por um certo
número de dias, cronometrar o tempo gasto e analisar os resultados.
Você decide conduzir um experimento da seguinte forma: durante 9 dias o trajeto é percorri-
do e o tempo anotado. O próximo passo é calcular o tempo médio gasto, . Suponha que o
135
tempo médio gasto é 29 minutos. Agora a evidência de que o novo caminho é melhor (Ê
é
falsa), é igual ou maior do que quando realizamos apenas uma observação (observe que a di-
ferença para o valor da hipótese Ê
é a mesma: 1 minuto)?
Existe um sentimento intuitivo de que agora a evidência é maior. Como podemos quantificar
esse sentimento? A precisão de uma observação, medida em termos de desvio padrão é u, a
precisão de uma média de n observações, é, como visto anteriormente
u
√
Precisão é o inverso do desvio padrão. Portanto, quanto maior for o tamanho da amostra,
menor é a dispersão em torno da média e maior é a precisão. O primeiro passo na construção
de um critério é comparar com a média estipulada em Ê
. Um critério natural é dado pela
diferença entre , a média observada, e s, o valor postulado em Ê
, ou seja:
F9&Wé9&8 F ∗ : − s
A resposta é não. Pois quanto maior for a variabilidade do tempo de percurso, maiores dife-
renças podem ocorrer. Para corrigir o critério F ∗ , para o efeito da dispersão, dividimos a dife-
rença acima pelo desvio padrão de :
136
− s
F=
u/√
Essa medida agora é adimensional e não depende da escala de medida. O segundo passo está
completo; o critério está construído.
Assumindo que o desvio padrão do tempo de percurso do novo trajeto é igual ao do tempo
antigo (nem sempre essa suposição é válida), ou seja, que σ = 1, e que a média é 29, temos:
29 − 30 −1
F= = = −3
1/√9 1/3
Se Ê
é verdadeiro, esperamos encontrar F = 0. Quanto mais F se afasta de 0, maior é a evi-
dência contra Ê
. Para sabermos se -3 é suficientemente afastado para que a gente decida re-
jeitar Ê
é necessário comparar C com uma referência. Para isso é necessário saber como F se
distribui. F é um valor que depende da média amostral; portanto depende dos dados da
amostra. Para cada amostra de 9 observações, C terá um valor, provavelmente, diferente.
Nesse exemplo, o tempo de percurso tem distribuição aproximadamente gaussiana. Se a hi-
pótese Ê
é correta (tecnicamente dizemos “sob Ê
"), tem distribuição Gaussiana com mé-
dia 30 e desvio padrão = 1/3, ou seja,
~30,1/3
e F tem distribuição 0,1 (veja no final do capítulo 3). Essa é a distribuição de referência para
o critério F.
Esse afastamento é medido com uma nova régua que introduziremos agora.
Essa área é denominada de nível de significância (n.s.) do teste. Quanto menos for essa área, ou
de outra forma, quanto menor for o nível de significância, maior é a evidência contra Ê
.
Usualmente rejeitamos Ê
para níveis de significância inferiores a 5%, mas isso não é uma re-
gra absoluta. A decisão de rejeitar Ê
não deve ser baseada apenas no nível de significância.
Devemos levar em conta as conseqüência da nossa decisão.
No exemplo, . R. = _F < −3 = 0.001, e concluímos que há uma forte evidência de que o
novo caminho tem tempo médio de percurso menor que 30 minutos.
Ê
: s = 30 6&
Ên : s < 30 6&
2. Critério
− s
F=
u/√
3. Distribuição de referência:
F~0,1
4. Nível de significância
138
No exemplo acima consideramos que o desvio padrão do novo percurso era igual ao do ante-
rior, ou seja, que u era conhecido. Essa não é a situação usual. O comum é que o desvio pa-
drão não seja conhecido. Caso isso aconteça, temos de estimar u a partir da amostra. Nesse
caso, a estimativa de u é o desvio padrão amostral <.
−
< = =t
−1
− s
</√
recebe o nome de ± e tem como referência uma outra distribuição, chamada de t de Student
com n-1 graus de liberdade. Essa distribuição é simétrica em torno de zero e é muito parecida
com a Normal. Essa distribuição encontra-se tabelada no final do capítulo 3 e em muitos li-
vros de estatística. O nível de significância é calculado da mesma forma; é a área à esquerda
do valor do critério.
A distribuição t de Student foi derivada por um químico inglês chamado Gosset, que traba-
lhava na cervejaria Guiness na década de 20. A derivação do teste e da distribuição foram fei-
tas em função da necessidade de testar processos de fabricação na cervejaria.
Gostaríamos de chamar a sua atenção para uma questão que geralmente provoca mal enten-
dido:
Uma diferença que é estatisticamente significante pode não ser significante do ponto de vista
prático.
No exemplo acima, ganhamos em média 1 minuto com o novo percurso, e esta diferença é es-
tatisticamente significante. Mas pode ser praticamente irrelevante para que você decida mu-
dar de trajeto.
Exemplo 2 Um médico tem como hipótese que certa doença que requer internação é igual-
mente comum entre homens e mulheres. Em uma amostra de 900 internados ele encontrou
480 homens e 420 mulheres. O resultado da amostra contradiz ou suporta a hipótese?
Podemos escrever o problema na forma de um teste de hipóteses da seguinte forma:
Ê
∶ ) = 0.5 vs Ên ∶ ) ≠ 0.5
Temos de construir um critério para medir o afastamento da amostra com respeito à hipóte-
se.
Se a hipótese Ê
estiver correta, 450 é o número esperado de internações do sexo masculino e
feminino.
480-450=30 e 420-450=-30
Então, um critério é:
+30 −30
¼ = + = 2+2 =4
450 450
− −
¼ = +
Distribuição de referência: Este critério tem distribuição conhecida como ¼ e neste exem-
plo a distribuição tem 1 grau de liberdade.
Tanto o critério como a distribuição foram formulados por Karl Pearson em 1899.
No exemplo do médico: ¼ = 4. O nível de significância está entre 0.05 e 0.025. Existe uma
forte evidência de que a proporção de homens internados é maior que a proporção de mulhe-
res.
"Embora o desvio da hipótese nula não foi significante, a amostra é tão pequena que este re-
sultado fornece apenas uma fraca confirmação da hipótese nula."
Com uma amostra grande, pequenos afastamentos da hipótese nula podem ser detectados
como estatisticamente significantes. Neste caso, uma possível conclusão de um teste seria:
"Embora estatisticamente significante, a diferença entre as duas proporções foi tão pequena
que não foi considerada importante do ponto de vista prático, e assim foi ignorada nas análi-
ses subseqüentes".
142
Suponha que no caso do médico o tamanho da amostra seja 10 e que 4 mulheres estavam in-
ternadas. Então ¼ = 0,4 para testar Ê
: ) = 0,5, e o resultado é consistente com a hipótese. O
intervalo de confiança de 95% para p é (0.15, 0.74). Qualquer valor do parâmetro populacio-
nal p entre 15% e 74% é consistente com o resultado da amostra. O fato de encontrar um re-
sultado não significante quando testamos a hipótese de que ) = 0,5 não assegura que ) é 0.5
ou próximo de 0.5.
Mesmo que o fornecedor esteja produzindo de acordo com o especificado, alguns lotes conte-
rão mais que 1% de itens defeituosos. Com o objetivo de se precaver, e também de auditar a
qualidade do fornecedor, o cliente monta um plano amostral para recebimento dos lotes (
examinar todos os itens é impraticável).
O plano consiste em retirar uma amostra aleatória simples de n itens do lote, examinar cada
um, e registrar a quantidade de defeituosos (ou a proporção / de defeituosos).
Para simplificar os cálculos, vamos assumir que o tamanho do lote é grande comparado com
n, de tal forma que a distribuição binomial possa ser empregada. Seja Ì a proporção de peças
defeituosos no lote. Na linguagem de testes de hipóteses temos:
Ê
: ) = 0,01 versus Ê : ) > 0,01
Suponha que o tamanho da amostra seja 30. O número esperado de peças defeituosas na
amostra, se Ê
é correto, é 0.3. O critério a ser utilizado é examinar o número de peças defei-
143
tuosas na amostra. Quanto maior esse número, maior é a evidência de que o lote não atende
às especificações. Suponha que numa amostra de um lote são encontrados 2 itens defeituo-
sos. A probabilidade de se encontrar dois ou mais itens defeituosos na amostra se o lote foi
produzido de acordo com as especificações é:
30
_ ≥ 2 = t 0.01 @ 0.99 .
?@
= 0.036
@
Baseado no nível de significância, aceita-se ou rejeita-se o lote, lembrando que quanto maior
for o nível de significância, maior é a evidência de que a hipótese Ê
é falsa, ou seja, de que o
lote não atende às especificações.
Na prática das empresas, utiliza-se uma abordagem diferente. Especifica-se um nível de sig-
nificância, simbolizado por α , para todos os lotes (em geral esse valor é 5%). Se o nível de
significância do lote for menor que α o lote é rejeitado, caso contrário é aceito. Em função do
nível de significância especificado, determina-se qual é o número de peças defeituosas a par-
tir do qual o lote é rejeitado. O valor α é também conhecido como risco do produtor.
_ ≥ 1 = 0.260
_ ≥ 2 = 0.036
_ ≥ 3 = 0.003
Então, se a amostra tem 2 ou mais itens defeituosos, ele é rejeitado, caso contrário ele é aceito,
e esse plano atende ao nível de significância de 5%.
Vamos considerar agora outra possibilidade. Suponha que o processo de produção é tal que
5% das peças fabricadas são defeituosas. Nessas condições, a probabilidade que uma amostra
de 30 itens tenha 0 ou 1 item defeituoso é dado por
30
_ ≤ 1 = t 0,05 0 0,95 .
?0
= 0,554
0
ou seja, existe uma probabilidade positiva de que o lote seja aceito mesmo que não atenda à
especificação. Nesse caso, uma decisão incorreta é tomada.
Não rejeita Ê
Rejeita Ê
Ê
é verd. decisão correta erro Tipo I
Ê
é falsa erro Tipo II decisão correta
Ê
: s = 30
Ê : s < 30
Rejeitar Ê
se < F
Não rejeitar Ê
se ≥ F
− 30 F − 30 F − 30
0,05 = _ < F|s = 30 = _ Ð u − u Ñ = _ Т < u Ñ
√ √ √
F − 30
⇒ u = −1,65
√
1,65u 1 1,65
⇒F=− + 30 = −1,65 × + 30 = − + 30 = 29,45
√ √9 3
Ê
: s = s
146
Ê : s ≠ s
Rejeita-se Ê
se ≤ F ou > F
Não rejeita-se Ê
se F < < F
ÒF) = _'U$&W'9 Ê
%'%8R
V$ ' )89U$W'w$6 %$ %$$&WV8R8R 8 q8W$ é )
ou
No exemplo, o valor AQL acertado foi ) = 0,01. Dessa forma, o teste tem a seguinte forma:
Ê
: ) = 0,01
Ê : ) > 0,01
Portanto, ¹ = 1 − ÒF0,01 = 0,036 e Í) = ÒF) para ) > 0.01. Por exemplo, Í0,05 =
ÒF0,05 = 0,554.