Você está na página 1de 154

Estatística:

Probabilidade e
Inferência

Ademir José Petenate


2

Este material não pode ser copiado, reproduzido, reimpresso, utilizado em filmes ou gravações de vídeo
ou armazenado em dispositivos eletrônicos sem a permissão escrita dos detentores dos direitos de co-
pyright. O material não pode ser incorporado em programas de treinamento com exceção da supervisão
de algum instrutor da EDTI Consultoria e Treinamento LTDA.

Autor:

Ademir J Petenate, Escola EDTI

Publicado por Escola EDTI®

Campinas, São Paulo

Impresso no Brasil
3

Sumário
Capítulo 1. Estatística Descritiva ............................................................................................................. 6

Variabilidade e Estatística ............................................................................................................ 6

A aquisição dos dados .................................................................................................................. 8

Fonte dos dados .......................................................................................................................... 10

Distribuições .............................................................................................................................. 10

Classificação de Variáveis ......................................................................................................... 13

Descrição de Dados por Gráficos e Tabelas............................................................................... 16

Medidas de Centralidade ............................................................................................................ 23

Medidas de Variabilidade .......................................................................................................... 28

Box Plot...................................................................................................................................... 34

Diagrama de Pareto .................................................................................................................... 37

Série de Tempo .......................................................................................................................... 39

Gráfico de Dispersão e o Coeficiente de correlação .................................................................. 43

Capítulo 2. Introdução à Probabilidade ................................................................................................. 49

Introdução .................................................................................................................................. 49

Conceitos de Probabilidade ........................................................................................................ 49

As leis da Probabilidade ............................................................................................................. 51

Probabilidade Condicional e Independência .............................................................................. 52

Distribuição de Probabilidades .................................................................................................. 55

Distribuição de Probabilidade Discreta ...................................................................................... 56


4

Média ou Valor esperado ........................................................................................................... 58

Variância .................................................................................................................................... 62

Capítulo 3. Modelos Probabilísticos ...................................................................................................... 64

Modelos Probabilísticos Discretos ............................................................................................. 64

Ensaios de Bernoulli: Sucesso - Falha ....................................................................................... 65

Distribuição Binomial ................................................................................................................ 66

Distribuição Hipergeométrica .................................................................................................... 69

Distribuição Multinomial ........................................................................................................... 71

A Distribuição Geométrica ........................................................................................................ 71

Eventos raros e a Distribuição de Poisson ................................................................................. 72

Distribuições de Variáveis Aleatórias Contínuas ....................................................................... 75

A Distribuição Normal ............................................................................................................... 80

A Distribuição t de Student ........................................................................................................ 92

Capítulo 4. Estimação e distribuições amostrais.................................................................................... 95

População e Amostra.................................................................................................................. 95

Amostragem e censo .................................................................................................................. 95

Estudos Observacionais ou Dados Históricos ............................................................................ 97

Experimentos Controlados ......................................................................................................... 98

População ................................................................................................................................... 99

Amostra ...................................................................................................................................... 99

Erros amostrais e não amostrais ............................................................................................... 100

Amostragem Aleatória Simples ............................................................................................... 101


5

Procedimentos gráficos para verificar a condição de amostra aleatória simples ..................... 102

Parâmetros e Estatísticas .......................................................................................................... 104

Distribuição Amostral .............................................................................................................. 106

Estatística ................................................................................................................................. 109

Estimação da Média e do Desvio Padrão Populacional ........................................................... 109

Estudos Observacionais ........................................................................................................... 126

Capítulo 5. Testes de Hipóteses ........................................................................................................... 131

Introdução ................................................................................................................................ 131

Testes monocaudal e bicaudal .................................................................................................. 145

Curva Característica de Operação ............................................................................................ 146

Teste de hipóteses para a diferença entre duas médias ............................................................ 148

Amostras Pareadas ................................................................................................................... 152


6

Capítulo 1.Estatística Descritiva

Variabilidade e Estatística
A Estatística é um conjunto de conceitos e técnicas utilizadas no planejamento da coleta de dados e na sua
análise, visando resolver problemas reais. Claramente, cientistas, engenheiros, economistas e outros pro-
fissionais estão envolvidos com essas atividades, e, portanto, necessitam utilizar a Estatística. Além disso,
de uma forma ou de outra, todas as pessoas são afetadas pelo uso da Estatística. Cada vez mais órgãos
governamentais e empresas baseiam suas decisões, as quais afetam o dia a dia das pessoas, em análises
estatísticas, o que faz com que não só profissionais tenham de adquirir algum conhecimento dessa técni-
ca.

O que torna essa disciplina de grande utilidade, e única, é que sua aplicação ocorre em situações ou pro-
cessos onde a incerteza e variabilidade estão presentes.

Um processo é definido como uma combinação de pessoas, materiais, procedimentos, métodos,


políticas e meio ambiente que combinados formam uma série de ações que conduzem a um determinado
resultado. Em nosso caso, o resultado é um produto ou serviço.

Para avaliar a utilidade de um produto para o consumidor, características de qualidade são medi-
das no produto. Dois itens produzidos nas mesmas condições não são, em geral, idênticos, com respeito
às características de qualidade consideradas. Existe uma variabilidade inerente em cada processo Os mé-
todos estatísticos são desenvolvidos para lidar com a incerteza e a variabilidade. Eles são fundamentais
para se fazer inferências sobre processos a partir de uma amostra de uma população.

Considere exemplos de algumas áreas de atividade:

• Processos econômicos: renda familiar, índice de inflação, taxa de juro, etc.

• Processos industriais: porcentagem de peças defeituosas, diâmetro de peças, rendimento


de um processo industrial, etc.
7

• Processos biológicos: pressão arterial, número de espécies, tempo de vida, etc.

Em todas as situações descritas acima o que obtemos são respostas, as quais podem assumir dife-
rentes características: podem ser resultados numéricos (renda familiar, tempo de sobrevivência) ou sim-
plesmente resultados qualitativos (opção partidária, local de nascimento, sobrevivência ou não de um
animal, etc.).

Para avaliar a performance do processo e a qualidade do que se está produzindo é necessário cole-
tar dados sobre o processo ou produto. Os dados devem ser analisados e decisões devem ser feitas com
respeito ao processo, e essas decisões devem ser tomadas na presença de variabilidade. A Estatística é a
ferramenta adequada para se planejar a coleta de dados que sejam relevantes para o problema em estudo,
bem como para analisá-las.

Se o sistema de medidas tem resolução suficiente, todas as medidas apresentam variabilidade.

Existem muitas razões para a presença dessa variabilidade. Por exemplo, a variabilidade pode
surgir porque as condições em que um produto é fabricado variam ao longo do tempo. Essa variabilidade
pode se originar por variações na matéria prima, diferenças entre as máquinas, entre operadores, entre
condições de operações (temperatura, umidade, pressão). Parte da variabilidade pode ser originária do
próprio sistema de medição utilizado. Instrumentos de medição de baixa precisão ou entrevistadores mal
treinados são alguns exemplos. Esta variabilidade é chamada de variabilidade devida ao processo de me-
dição.

Para exemplificar a diferença entre a variabilidade devida ao processo de produção e a variabili-


dade devido ao processo de medição considere o seguinte exemplo. Dez peças são produzidas e o diâme-
tro de cada peça é medida. Supondo que não há erro de medição envolvido, as 10 medidas apresentam va-
riabilidade que é devida ao processo de produção. Se agora uma peça é selecionada e medida dez vezes
com uma régua escolar, as dez medidas quase certamente apresentarão variabilidade devido à baixa preci-
são do instrumento de medida utilizado. Se agora medimos as dez peças com a régua escolar, as medidas
apresentam variabilidade que reflete uma combinação entre variabilidade de processo e de instrumento. É
necessário entender, quantificar e dominar essa variabilidade.
8

A aquisição dos dados


A análise estatística depende fundamentalmente de observações ou medidas. Nós nos referimos a
essas observações ou medidas como dados.

A coleta de dados é o primeiro passo a ser executado quando se está analisando um processo.
Mesmo nas situações mais simples, é necessário planejar a coleta de dados, observando que os mesmos
sejam relevantes para o estudo a ser realizado.

Os dados coletados sobre um processo devem fornecer informações para a que a equipe de me-
lhoria possa atuar no processo visando a sua melhoria. Para isso, é necessário que a equipe saiba porque
eles precisam dos dados, que dados serão coletados, quando e como eles serão obtidos.

É importante que os dados adquiridos no estudo de um problema de interesse sejam corretamente


coletados. Além disso, como atualmente esses dados serão, muito provavelmente, analisados através de
um software apropriado, a estruturação correta dos mesmos é essencial. O passo final do processo de co-
leta de dados é tornar os dados disponíveis para o software, levando-se em conta a estruturação requerida
pelo programa utilizado.

Em alguns casos os dados são coletados simplesmente para descrever o processo. Em outras situ-
ações, os dados são coletados para monitorar o processo. Por exemplo, se a empresa produz um produto
que tem um peso liquido especificado, é necessário retirar amostras de tempos em tempos e testar se o
processo está sob controle.

A próxima etapa é decidir que dados serão coletados. Qualquer processo gera uma quantidade
grande de variáveis que podem ser medidas com o objetivo de controlar o processo. Algumas são críticas
para o controle e outras são irrelevantes. Mesmo algumas variáveis críticas podem não estar disponíveis
para análise a tempo de permitir interferência no processo.

A equipe de melhoria deve considerar também em que ponto do processo os dados devem ser co-
letados. Por exemplo, se o produto é formado de várias partes, as medidas serão realizadas nas partes ou
no produto final?
9

A decisão sobre como os dados serão coletados deverá levar em consideração o custo de obtê-los
(análise de laboratório, teste destrutivo, dispositivo de medição, etc.), a quantidade de tempo necessária
para se obter a medida e principalmente a acurácia e a precisão do processo de medida (dispositivo de
medida, método analítico, etc.).

Em todos os casos, é necessário ponderar a acurácia e precisão versus o custo e o tempo para se
obter a informação. Tão importante quanto o aspecto técnico de se fazer a medição é o aspecto da seleção
dos itens a serem medidos. O procedimento de seleção do itens é denominado de plano amostral . Quan-
do se retira uma amostra do processo, o objetivo pode ser medir uma característica de qualidade nos itens
da amostra, e estimar um parâmetro do processo, por exemplo, no caso de produção de cerveja, o teor al-
coólico médio. Para que se possa avaliar a precisão dessa estimativa, é importante que a amostragem do
processo seja feita de forma probabilística. Voltaremos a esse tema mais à frente.

Conjunto de dados - chamamos de conjunto de dados à coleção de medidas ou observações cole-


tadas para um determinado estudo. Por exemplo, no estudo da relação entre o peso de um indivíduo e a
hipertensão o conjunto de dados pode ter a estrutura apresentada na tabela seguinte.

Os componentes de um conjunto de dados são:

Elemento - é um indivíduo, ou unidade experimental ou observacional sobre o qual realizamos


medidas. No exemplo acima, cada pessoa é um elemento do conjunto de dados.

Nome Sexo Idade Peso Hipertenso

Alberto M 32 67 N

Joana F 45 76 S

Cecília F 29 57 N

Pedro M 30 79 N

Fernando M 56 75 S
10

Variável - é uma característica observada em um elemento. Sexo é uma variável do conjunto de


dados definido acima. Um conjunto de dados é univariado quando contém apenas uma variável, bivariado
quando contém duas variáveis e multivariado quando contém três ou mais variáveis.

Caso ou registro - é o conjunto de resultados das variáveis quando aplicados em um elemento.


No exemplo acima cada linha da tabela forma um registro.

Observação - é a informação sobre uma única variável em um elemento do conjunto de dados.


Por exemplo, 32 é uma observação para a variável idade no elemento Alberto.

Fonte dos dados


Uma organização obtém seus dados de fontes internas ou de fontes externas. Qualquer organiza-
ção está constantemente gerando dados que podem ou não estar sendo apropriados ou aproveitados. Esses
dados formam um capital valioso quando apropriados corretamente e estruturados de tal forma que pos-
sam ser facilmente trabalhados para se transformarem em informação.

Outros dados são obtidos pela organização através de publicações especializadas, bancos de da-
dos de serviços, relatórios governamentais, etc.

Quando se usa qualquer fonte de dados, é necessário estar atento para as limitações e para a qua-
lidade dos dados. Deve-se estar atento para a possibilidade de que ocorram erros na aquisição dos dados.
Esses erros podem ser devidos aos instrumentos de medida utilizados, erros de transferência dos dados de
um meio (papel) para outro (arquivo computacional), erros de preenchimento de questionários, dupla con-
tagem, transformações de variáveis devido a erro no programa computacional, etc. É importante também
obter uma boa descrição do significado e do conteúdo das variáveis a serem analisadas. Conclusões errô-
neas podem ser tiradas quando não se atenta para esses detalhes.

Distribuições
11

Existe outro conceito importante que queremos introduzir logo no início dessa discussão. Esse
conceito é o de distribuição. Para tanto considere o conjunto de dados que contém o peso líquido de leite
evaporado em gramas de uma amostra retirada da produção.

Examinando o arquivo, nós encontramos 60 registros, sendo que os pesos variam de 265.1 a
281.8 gramas .A maioria dos pesos, entretanto, está entre 270 e 276 gramas. Uma melhor descrição dos
pesos, do ponto de vista estatístico, e feita através da distribuição dos pesos. A distribuição é representada
graficamente pela figura abaixo. Através do gráfico podemos observar o comportamento dos pesos e
examinar características como: simetria da distribuição, região onde há maior concentração de valores, o
centro da distribuição (média, mediana, etc.), a dispersão dos valores em torno de um valor central. Po-
demos observar também que aproximadamente 10% dos latas tem peso líquido acima de 277.3. A distri-
buição, como veremos em detalhes mais à frente, nos fornece uma grande quantidade de informações so-
bre o conjunto de dados que estamos analisando. A figura a seguir apresenta a distribuição dos valores de
peso líquido do conjunto de dados apresentado acima.

Tabela 1: Peso líquido

Lata Peso Lata Peso Lata Peso Lata Peso


1 275.40 16 275.20 31 273.90 46 271.80
2 275.30 17 279.10 32 266.80 47 266.40
3 271.40 18 276.30 33 271.40 48 271.50
4 270.30 19 271.80 34 270.50 49 276.50
5 275.70 20 278.50 35 276.10 50 272.20
6 277.30 21 271.70 36 270.30 51 271.50
7 268.00 22 281.80 37 272.50 52 271.70
8 273.30 23 272.60 38 274.10 53 274.80
9 277.10 24 268.80 39 271.20 54 274.60
10 276.00 25 272.40 40 275.20 55 272.60
11 275.70 26 275.20 41 271.30 56 272.50
12 275.90 27 276.70 42 278.80 57 269.90
13 271.60 28 276.00 43 273.80 58 274.50
14 276.30 29 272.60 44 277.80 59 267.80
15 266.50 30 273.40 45 274.70 60 265.10
12

Figura 1: Histograma do peso

Quando examinamos a distribuição, não estamos interessados nos valores individuais, mas sim
no conjunto das respostas. O conjunto das respostas pode ser caracterizado por alguns poucos números
que quantificam características importantes.

Suponha que estamos produzindo um determinado tipo de peça fundida para uma indústria auto-
mobilística e que a característica de qualidade de interesse é uma dimensão da peça, e que essa dimensão
deve atender certas especificações. Quando avaliamos o processo, não estamos interessados no valor da
característica para cada peça produzida. Queremos saber qual é o valor médio dessa dimensão, se o pro-
cesso produtivo apresenta muita ou pouca variabilidade, qual é a porcentagem de peças produzidas que
não atende às especificações, etc. É difícil obter-se essas informações olhando-se para todos os valores da
produção, ou mesmo para todos os valores medidos em uma amostra. É necessário que se utilize algum
recurso para sumariar os dados e retirar as informações que são relevantes.

Quando estudamos um processo discreto, podemos medir cada item produzido. Em processos
contínuos, a necessidade de caracterizar o processo a partir de uma amostra é mais evidente.
13

A sumarização e exposição dos aspectos importantes de um conjunto de dados é chamada de Es-


tatística Descritiva. Sob esse nome reunimos um conjunto de técnicas que visam condensar os dados atra-
vés de gráficos e tabelas, e do cálculo de alguns números que indicam a tendência central dos dados (va-
lor médio), e medem a variabilidade dos mesmos.

As situações reais com que nos defrontamos são as mais diversas. Os métodos que serão apresen-
tados aqui funcionam sob situações bastante gerais, e se aplicam tanto a situações em que os dados foram
obtidos de uma amostra (fração) da população, bem como a situações em que todos os indivíduos da po-
pulação são avaliados (censo), mas com certeza não funcionarão em todas as situações. Entretanto, alguns
aspectos da análise merecem ser destacados. Cada conjunto de dados deveria ser examinado sob os se-
guintes aspectos:

Os dados deveriam ser resumidos através de gráficos e tabelas, buscando principalmente:

1. Examinar a forma geral da distribuição dos dados


a. A existência de observações atípicas que pareçam se destacar do conjunto dos dados.
2. Cálculo de medidas numéricas que:
a. indiquem a tendência central
b. quantifiquem a variabilidade presente nos dados.

Classificação de Variáveis
É comum representarmos o peso de uma criança por um número que expressa a quantidade em
gramas. Por outro lado, o sexo de uma criança é, em geral representado por F ou M. Nada impede que uti-
lizamos os códigos 1 e 2 para Masculino e Feminino respectivamente, mas nesse caso os numerais 1 e 2
representam símbolos.

Variáveis em um conjunto de dados podem ser classificadas de muitas formas distintas, depen-
dendo do objetivo. A classificação pode ser feita em função da relação entre as variáveis (dependente ou
independente) do tipo de observação gerada (numérica, não numérica), da técnica de análise empregada,
14

ou de qualquer outro objetivo. Apresentaremos algumas classificações que serão úteis no desenvolvimen-
to do texto.

Variáveis Dependentes e Independentes


Em muitas técnicas estatísticas, as variáveis são classificadas como dependentes (ou resposta) e
independentes (ou explanatórias). Por exemplo, se queremos estudar a relação entre o rendimento de um
processo (Y) e a temperatura de operação (T) através de uma relação funcional Y=f (T), a variável Y é
classificada como resposta ou dependente e a variável T é classificada como explanatória ou independen-
te. A idéia é que o rendimento “depende” ou pode ser explicado pela variável T, a qual pode ser fixada de
forma independente.

Variáveis Quantitativas e Qualitativas


Uma variável é quantitativa quando o resultado da observação é numérica e qualitativa quando re-
sulta em uma qualidade ou atributo.

Tipos de Escalas de Respostas


Variáveis podem também ser classificadas com discretas ou contínuas, dependendo da escala uti-
lizada.

Escala discreta Variáveis medidas numa escala discreta assumem valores que podem ser
associados com os números naturais. Ou de outra forma, é possível ordenar todos os valores possíveis de
ocorrerem. A idade de uma pessoa em número de anos completos, o número de pessoas que habitam uma
residência são exemplos de variáveis discretas. O conjunto de valores possíveis pode ser finito ou infinito
enumerável. Esse tipo de escala surge naturalmente quando realizamos contagens

Incluímos nesse tipo de variáveis aquelas em que a escala de medidas consiste de um conjunto de
categorias, como por exemplo, a filiação partidária, o sexo de um recém-nascido, etc. Variáveis medidas
numa escala discreta são chamadas às vezes de categóricas, dependendo do número de níveis e da técnica
estatística empregada na sua análise.
15

Escala contínua Variáveis medidas numa escala continua têm conceitualmente um núme-
ro ilimitado de valores que não podem ser ordenados Por exemplo, a temperatura do corpo é medida nu-
ma escala contínua. Não devemos confundir a variável com o instrumento usado para medir a variável.
Obviamente o termômetro tem uma precisão limitada que faz com que o resultado da medida da tempera-
tura seja discreto. De fato, como todas as variáveis contínuas são medidas por instrumentos com precisão
discreta, variável contínua é apenas um modelo que é útil na prática.

É necessário fazer aqui uma distinção entre medidas nominais e medidas ordinais.

Medidas nominais Medidas nominais ocorrem quando não há uma ordem natural no valor
da variável. Por exemplo, filiação partidária (PMDB, PSDB, PT, PFL), tipo de residência (casa, aparta-
mento, barraco, etc.). Sexo é uma medida nominal com "macho" e "fêmea" como valores. Poderíamos
codificar o sexo como "1" e "2", mas os números nesse caso não tem significado como números, mas co-
mo nomes.

Para esse tipo de variável, a ordem com que os valores da variável é listado é irrelevante para a
análise estatística.

Medidas ordinais Medidas ordinais tem uma ordem inerente que corresponde aos valores
das variáveis. Pesquisas de opinião usam uma escala ordinal com valores: concorda fortemente, concorda,
indiferente, não concorda, discorda fortemente. Poderíamos associar números a essas respostas, mas nesse
caso teríamos que atribuir números de acordo com uma escala ordinal. Por exemplo, atribuiríamos 1 a
discorda fortemente, 2 a discorda, e assim por diante. Medidas ordinais “ordenam” as categorias mas não
estabelecem necessariamente uma distância entre as categorias.

Distinguir se uma variável categórica é ordinal ou nominal depende do contexto em que ela está
sendo utilizada. Por exemplo, se estamos “medindo” a cor da pele de um indivíduo e classificando-a entre
negro, mulato e branco, não há uma ordem nessa classificação. Por outro lado, para uma indústria alimen-
tícia, a cor da bolacha produzida reflete a quantidade de energia recebida pela mesma durante o tempo
que permaneceu no forno, e nesse caso há uma ordem subjacente na cor da bolacha.
16

A própria distinção entre variável discreta e variável contínua às vezes depende da técnica estatís-
tica empregada na sua análise. Procuraremos deixar claro essa distinção quando for necessário.

Descrição de Dados por Gráficos e Tabelas

Tabela de frequência
Uma etapa importante na análise estatística é a sumarização dos dados através da construção de
tabelas e gráficos e do cálculo de quantidades que representem características importantes do conjunto de
dados tais como distribuição, locação e dispersão.

Vamos considerar um exemplo. Os dados seguintes mostram o valor de venda de um determinado


produto em 95 pontos de venda amostrados na cidade de São Paulo.

Tabela 2: Valor de venda

33.1 37.0 39.2 40.0 41.2 42.7 44.0 45.3 47.0 50.2
33.5 37.2 39.2 40.0 41.2 43.0 44.0 45.3 47.0 50.5
34.7 37.5 39.2 40.2 41.5 43.0 44.2 45.5 47.2 51.6
35.0 38.0 39.5 40.5 41.5 43.0 44.2 45.5 47.5 51.7
35.2 38.2 39.5 40.7 41.7 43.2 44.5 46.0 47.6 52.7
35.5 38.5 39.5 40.7 42.1 43.2 44.5 46.0 47.8
35.7 38.7 39.7 41.0 42.1 43.5 44.8 46.5 48.1
36.1 38.7 39.7 41.0 42.2 43.5 44.9 46.5 48.2
36.5 38.8 39.7 41.0 42.2 43.5 45.1 46.7 49.0
37.0 38.9 40.0 41.2 42.5 43.5 45.2 47.0 50.0

Para ressaltar aspectos estruturais de um conjunto de dados, os mesmos são condensados numa
tabela chamada de distribuição de frequência, que é essencialmente uma tabela como a apresentada abai-
xo.

Tabela 3: Tabela de frequência

Intervalo Ponto Freq Freq acum Freq Freq relat acum


de classe médio relat
33 - 36 34.5 7 7 7.37 7.37
17

36 - 39 37.5 13 20 13.68 21.05


39 - 42 40.5 25 45 26.32 47.37
42 - 45 43.5 23 68 24.21 71.58
45 - 48 46.5 18 86 18.95 90.53
48 - 51 49.5 6 92 6.32 96.84
51 - 54 52.5 3 95 3.16 100.00

Para construir uma distribuição de frequência devemos efetuar os seguintes passos:

1. Ordenar os valores do conjunto de dados


2. Encontrar o valor mínimo( xmin) o valor máximo (xmax) do conjunto de dados
3. Escolher um número de subintervalos, em geral de igual comprimento, que contém o mínimo e o
máximo, de tal forma que eles não se superponham, ou seja, cada medida é classificada em ape-
nas um dos subintervalos. Esses intervalos são chamados de intervalos de classe e os limites do
intervalo de limites de classe.
4. Contar o número de observações que caem em cada intervalo de classe. Esse número é chamado
de frequência da classe ou simplesmente frequência.
5. Determinar a frequência relativa do intervalo de classe dividindo a frequência pelo número total
de observações.

Frequência relativa = Frequência/Total de observações.

A escolha do número de intervalos de classe e de sua amplitude merece algumas considerações.

Número de classes

O número de intervalos de classe deve levar em conta o número de observações e a efetividade da


tabela de frequência em mostrar a forma da distribuição. Se poucos intervalos forem utilizados, perde-se
no detalhe e pode não ficar evidenciada a forma da distribuição. Com um número muito grande de inter-
valos, as classes podem ter poucas observações em cada uma e novamente não ficar explicitada a distri-
buição dos dados. Geralmente são utilizados de 7 a 15 intervalos de classe. Se o número de observações
18

for muito grande, é possível utilizar um número maior de classes. Os softwares disponíveis geralmente
são programados para fazer uma escolha adequada do número de classes na maioria dos casos.

Amplitude dos intervalos de classe

A escolha da amplitude dos intervalos está relacionada com o número de classes. É geralmente
adequado escolher intervalos de classe de igual amplitude. Porém, quando a distribuição dos dados é for-
temente assimétrica, com poucas observações nos valores extremos, utiliza-se intervalos de classe com
amplitudes diferentes. Na análise de dados econômicos, principalmente dados de renda, esse tipo de cons-
trução é muito comum. Pode-se adotar inclusive intervalos de classe abertos em um dos extremos. Por
exemplo, a última classe pode ser definida pela renda maior ou igual a um certo valor.

Esse trabalho é cansativo quando feito manualmente, principalmente se o conjunto de dados con-
tém muitas observações. Hoje, com a disponibilidade de computadores e de softwares adequados, essa ta-
refa é trivial.

Histograma
Um histograma nada mais é que uma representação gráfica de uma distribuição de frequência.
Um histograma é formado por retângulos justapostos, sendo que a base do retângulo é formada pelos in-
tervalos de classe e a altura do retângulo é proporcional à frequência do intervalo. Um histograma fornece
uma representação visual da distribuição dos dados.

Em geral é mais adequado construir um histograma da frequência relativa. Uma das razões é que
a influência do tamanho da amostra é minimizada. A área total do histograma (soma das áreas de cada re-
tângulo, considerando a base como sendo igual a 1) é 1 ( ou 100%). Dessa forma é possível comparar du-
as distribuições.

Gráfico da Frequência Relativa Acumulada


É usual apresentar o gráfico da frequência relativa acumulada, que nada mais é que um gráfico
em que na ordenada se coloca a variável resposta (Y), e na abscissa a frequência relativa acumulada (Fra).
19

Para um valor Y0 na ordenada, o gráfico apresenta a proporção de valores no conjunto de dados que são
menores ou iguais a Y0.

Gráfico Ramo-e-Folhas
O histograma é uma forma clássica de representar a distribuição dos resultados. Uma forma alter-
nativa, e que é muito simples de ser feita, é o ramo-e- folhas, que é uma combinação de tabela e gráfico.

A melhor forma de explicar o que é um gráfico ramo-e-folha é através de um exemplo. A tabela


abaixo apresenta os valores de aluguéis de um determinado tipo de imóvel (em mil).

Tabela 4: Valor do aluguel

1.39 1.40 1.60 1.41 1.43


1.46 1.30 1.50 1.34 1.47
1.56 1.35 1.52 1.51 1.25
1.39 1.55 1.59 1.50 1.66
1.61 1.32 1.46 1.30 1.51
1.52 1.48 1.38 1.40 1.55
1.39 1.33 1.46 1.43 1.35
1.57 1.50 1.20 1.48 1.41
1.65 1.51 1.42 1.60 1.29
1.38 1.46 1.39 1.42 1.46
1.70 1.55 1.46 1.52 1.33
1.52 1.25 1.48 1.60 1.43
1.51 1.35 1.40 1.46 1.57
1.62 1.46 1.51 1.24 1.50
1.56 1.30 1.40 1.55 1.50
1.52 1.43 1.39 1.41 1.38
1.40 1.35 1.48 1.42 1.30
1.38 1.55 1.46 1.58 1.34
1.41 1.29 1.41 1.42 1.43
1.38 1.48 1.42 1.60 1.35

O primeiro valor na tabela (1.39) será usado para ilustrar o princípio. O número 1.39 é separado
em duas partes da seguinte forma:

Número : 1.39 Partição: 13|9 Ramo: 13 Folha: 9


20

Construímos então uma coluna com os ramos possíveis. No exemplo, os ramos são formados pe-
los números 11, 12, 13, 14, 15, 16 e 17, já que as medidas variam de 11.9 a 17.0. Ao lado de cada ramo,
formando as folhas, anotamos o último dígito da medida, cada uma corresponde ao seu ramo. Finalmen-
te, podemos ordenar os números nas folhas.

Figura 2: Gráfico Ramo e Folha do valor do aluguel

O gráfico ramo-e-folhas apresenta algumas vantagens sobre o histograma:

1. É mais fácil de ser construído manualmente.


2. As medidas aparecem representadas, o que em algumas situações, é muito importante.
3. As medidas são apresentadas de forma ordenada.

Uma regra para determinar o número máximo de ramos (L) e que funciona adequadamente num
número grande de casos é a seguinte:

 = 10 × log

L = 10*log10 n
21

onde é o número de observações. Nesse caso,  = 20. O ramo-e-folha modificado tem 12 ramos, que
no caso é adequado.

Na realidade, construir um ramo-e-folha adequado exige um pouco de técnica e um pouco de arte.


Existem muitas variantes que podem ser usadas. O que temos de ter em mente é o objetivo: procurar des-
cobrir a forma da distribuição das medidas.

O histograma para esse conjunto de dados é apresentado na figura 3.

Figura 3: Histograma do valor do aluguel

Algumas vezes as medidas são resultados de contagem, tais como o número de filhos por família,
o número de insetos por planta, etc. Se o número de valores distintos que ocorrem na amostra não é muito
grande, construímos a distribuição de frequência dos valores individuais. O histograma é construído da
mesma forma, usando-se linhas verticais em lugar de retângulos.

Exemplo: 25 famílias foram amostradas e o número de filhos por família foi contado em cada fa-
mília. Os resultados obtidos foram:

Fam. NF Fam. NF
22

1 3 14 4
2 5 15 5
3 1 16 2
4 3 17 1
5 2 18 1
6 4 19 3
7 2 20 0
8 1 21 2
9 3 22 2
10 2 23 2
11 3 24 2
12 2 25 2
13 3

A tabela abaixo apresenta a distribuição de frequência do número de filhos por família. O histo-
grama da distribuição é também apresentado a seguir.

Número Freq.
Freq.
de filhos Rel.
0 1 0.04
1 4 0.16
2 10 0.40
3 6 0.24
4 2 0.08
5 2 0.08
Total 25 1.00
23

Medidas de Centralidade
Os procedimentos gráficos apresentados até aqui ajudam a visualizar a forma da distribuição das
medidas. O próximo passo na análise é quantificar alguns aspectos importantes da distribuição. Duas me-
didas são amplamente utilizadas, uma para localizar a posição central e outra para quantificar a variabili-
dade ou dispersão da distribuição.

A medida de posição central é um valor representativo da distribuição em torno do qual as outras


medidas se distribuem. Duas medidas são as mais utilizadas: a média aritmética e a mediana.

Média Aritmética
A média aritmética de um conjunto de n valores, como o próprio nome indica, é obtida somando-
se todas as medidas e dividindo-se a soma por n. Representamos cada valor individual por uma letra (x,
y, z, etc.) seguida por um sub-índice, ou seja, representamos os n valores da amostra por  ,  , . . . ,  ,
onde  é a primeira observação,  é a segunda e assim por diante. Então escrevemos
24

∑ni=1 xi
x=
n

onde ∑  é um símbolo matemático que se lê "somatório" de  , para i variando de 1 a n, que é equi-
valente a  +  +. . . + .

Exemplo: O número médio de filhos por família, usando os dados do exemplo acima, é dado por:

3 + 5 + 1 + 3 + ⋯ + 2 60
 = = = 2.4
25

Mediana
A mediana é uma medida alternativa à média aritmética para representar o centro da distribuição.
A mediana de um conjunto de medidas  ,  , . . . ,  é um valor M tal que pelo menos 50% das medidas
são menores ou iguais a M e pelo menos 50% das medidas são maiores ou iguais a M. Em outras pala-
vras, 50% das medidas ficam abaixo da mediana e 50% acima.

Exemplo: Uma mulher, durante seu período reprodutivo, deu a luz a 5 crianças. Os pesos dos re-
cém-nascidos foram: 9.2, 6.4, 10.5, 8.1 e 7.8. Calcule a mediana dos pesos.

Os valores ordenados são: 6.4 7.8 8.1 9.2 10.5.

Portanto a mediana é 8.1.

Exemplo: Os dados abaixo são tempos de vida (em dias) de 8 lâmpadas:

500 550 550 550 600 700 750 2000

Note que temos dois valores que satisfazem a condição de ser mediana, o quarto (550) e o quinto
(600) valor na lista ordenada. Nesse caso, definimos a mediana como sendo a média dos dois valores
centrais:

550 + 600
#$%&' ' = = 575
2

A média aritmética desses valores é 575.


25

Observe que se a lâmpada que sobreviveu 2000 dias tivesse sobrevivido 3950 dias o valor da me-
diana não se alteraria, mas a média aritmética aumentaria. Não ser afetada por valores extremos é uma
vantagem da mediana em relação à média. Quando a distribuição dos dados é simétrica os valores da mé-
dia e da mediana praticamente coincidem. Quando a distribuição é assimétrica a média é "puxada" na di-
reção da assimetria.

Quase sempre quando olhamos uma média fazemos algum julgamento de valor. Se lemos no jor-
nal qual é a renda média de uma determinada comunidade somos tentados a avaliar como é a situação
econômica dessa comunidade. O valor pode ser alto e mesmo assim a situação social ser muito ruim. Bas-
ta que poucos ganhem muito e muitos ganhem pouco. A mediana não é influenciada por esses valores ex-
tremos e nesse caso refletirá melhor a condição econômica da comunidade.

Em qualquer estudo, é interessante reportar as duas medidas de centralidade.

Moda
A moda de uma distribuição é o valor que ocorre mais frequentemente, ou o valor que correspon-
de ao intervalo de classe com a maior frequência. A moda, da mesma forma que a mediana, não é afetada
por valores extremos.

Uma distribuição de frequência que apresenta apenas uma moda é chamada de unimodal. Se a
distribuição apresenta dois pontos de alta concentração ela é chamada de bimodal. Distribuições bimodais
ou multimodais podem indicar que na realidade a distribuição de frequência se refere a duas populações
cujas medidas foram misturadas. Por exemplo, suponha que um lote de caixas de leite longa vida é amos-
trado e em cada caixa da amostra é medido o volume envasado. Se o lote é formado pela produção de du-
as máquinas de envase que estão calibradas em valores diferentes, é possível que o histograma apresente
duas modas, uma para cada valor de calibração.

Percentis
Se o número de observações é grande, é interessante calcular algumas outras medidas de posição.
Essas medidas são uma extensão do conceito de mediana.
26

Suponha que estamos conduzindo um experimento com animais. Eles recebem um droga e me-
dimos o tempo de vida (em dias) após a ingestão da droga. Poderíamos fazer a seguinte pergunta: Qual é
o tempo em que 50% do animais ainda estão vivos? Obviamente esse valor será a mediana. Poderíamos
estar interessados em saber qual é o tempo em que 75% dos animais estão vivos. Ou 25%. Esses valores
são chamados de Quartis da distribuição (dividem a distribuição em quartas partes) e são representados
por Q1 (1º quartil - 25%) e Q3 (3º quartil - 75%). O segundo quartil, Q2, que corresponde a 50%, é a
mediana.

Esse conceito pode ser estendido um pouco mais, e em lugar de 25%, 50% e 75%, podemos que-
rer calcular percentis (5%,10%, 90%, Tc).

Seja p um número qualquer entre 0 e 1. O 1100 × )-ésimo percentil é um valor tal que depois das
medidas terem sido ordenadas, pelo menos 100 × )% das medidas são menores ou iguais a esse valor, e
pelo menos 100 × 1 − ) % das medidas são maiores ou iguais a esse valor.

Exemplo: O ganho em peso de 9 ratos submetidos a uma dieta são dados a seguir:

93.9 105.8 106.5 116.6 125.0 128.3 132.1 136.7 152.4

Cálculo de Q1 : Q1 corresponde a 25%. Então p=0.25 .

O número de observações menores ou iguais a Q1 é 0.25 × 9 = 2.25.

O número de observações maiores ou iguais a Q1 é 1 − 0.25 × 9 = 6.75

Em outras palavras, pelo menos 3 observações tem que ser menores ou iguais a Q1, e pelo menos
7 observações têm que ser maiores ou iguais a Q1. A medida 106.5 satisfaz esses requerimentos e, portan-
to Q1 = 106.5.

Cálculo de Q3: Argumentos semelhantes mostram que Q3 = 132.1.

Temos também que Q2 = 125.0, que é a mediana.

Exemplo: Calcular os quartis e os percentis 5%, 10%, 90% e 95% para o amostra de valor de
venda de um produto em 95 pontos de venda amostrados apresentado acima.
27

75% Q3 45.3 5% 35.2

50% Q2 42.2 10% 37.0

25% Q1 39.5 90% 47.0

Média 42.4 95% 50.2

Softwares de análise estatística calculam percentis utilizando diferentes métodos, os quais envol-
vem algum tipo de interpolação. Por isso é possível encontrar-se discrepâncias entre os valores calculados
por diferentes programas. Essas discrepâncias em geral não afetam a análise.

Média Geométrica
A média geométrica de n números positivos é a raiz enésima do produto desses números. A média
geométrica é usada principalmente quando estão envolvidas medidas que são razões ou índices econômi-
cos. Lembrando as propriedades de logaritmo de produto e de razão, é fácil mostrar que a média geomé-
trica de um conjunto de n números é o antilogaritmo da média aritmética dos logaritmos desses números.
Assim é possível entender porque essa média é muito usada com dados econômicos. Esse tipo de dados
apresenta geralmente uma distribuição que é fortemente assimétrica. Por isso é comum se trabalhar com o
logaritmo das medidas para corrigir a assimetria.

Exemplo: O preço de um determinado produto levantado em quatro meses consecutivos apresen-


tou os seguintes valores: R$30,00, R$33,00, R$33,66 e R$41,74. A taxa de acréscimo mês a mês é dada
por: 1.1, 1.01 e 1.24. A taxa média de inflação no período, se calculada através da média geométrica foi:

1.1 × 1.01 × 1.24 /.


= 1.11
28

Dessa forma, o preço do quarto mês pode ser obtido a partir do preço do primeiro mês da seguinte
forma:

41.74 = 30.00 × 1.11 .

Média harmônica
A média harmônica de números  , … ,  é definida como sendo o inverso da média dos recí-

procos, ou seja, ∑ /0 . Essa média é utilizada quando os dados são razões.
1

Exemplo: Um veículo percorre uma distancia de 20km a 50 km/hora e uma outra distância de 20
km a 40 km/hora. Qual foi a velocidade média no percurso total?

O carro levou 0.9 horas para percorrer 40 km; portanto sua velocidade média foi de 44.4km/hora.
A média harmônica das velocidades médias é:

= 44.456/ℎ89'.

 /2
3 /4

A média harmônica tem um uso muito limitado.

Medidas de Variabilidade
Como dissemos anteriormente, variabilidade está presente em praticamente todos os fenômenos
estudados. Dois indivíduos submetidos às mesmas condições respondem de forma diferente. É importante
entender essa variabilidade, e principalmente saber quantificá-la.

Suponha que você está interessado em saber quantos peixes existe em um determinado lago.
Uma forma de se chegar a esse número é pescar todos os peixes e contar. Esse procedimento não é práti-
co. Outra forma é usar um procedimento amostral e estimar esse número. Um procedimento que se pode-
ria utilizar é o seguinte: Uma quantidade N de peixes é pescada, marcada e devolvida ao lago. Nesse mo-
:
;
mento a proporção de peixes marcados no lago é , onde M é o total de peixes no lago, quantidade que
29

queremos estimar. Após certo tempo, suficiente para que os peixes que foram devolvidos ao lago se mis-
turem, uma nova pesca é realizada de n peixes. Conta-se então o número de peixes marcados na segunda
0

pesca. Vamos denotar por x esse número. Então, é uma estimativa da proporção de peixes marcados.

Então fazemos ; = , e calculamos finalmente # =


: 0 :×
0
. Suponha que a estimativa deu 5.946 peixes. Se

repetirmos o processo encontraremos outro valor para M. Existe, portanto, uma variabilidade associada
com essa estimativa, ou dito de outra forma, existe uma incerteza associada com esse número. A menos
que quantifiquemos essa incerteza, a estimativa é de pouca utilidade. Nesse caso, a incerteza está associa-
da ao processo amostral.

Quando realizamos uma medida em laboratório, essa medida contem uma incerteza que está asso-
ciada ao sistema de medição. É necessário quantificar essa precisão para que a medida seja útil.

Quando calculamos índices econômicos baseados em amostragem, tal como o índice de inflação,
existe uma incerteza associada com esse índice que precisa ser quantificada para que os agentes econômi-
cos possam tomar suas decisões.

Somente o cálculo da média, ou outra medida de posição, não é suficiente para caracterizar o con-
junto de dados. Dois conjuntos de medidas podem ter a mesma média, mas diferir com respeito à distri-
buição das medidas em torno da média.

Considere os dois conjuntos de dados seguintes:

A: (2, 3, 4) B: (1, 3, 5)

Ambos tem média igual a 3, mas o conjunto B é mais disperso em torno da média.

Existem diversas formas de quantificar a dispersão de um conjunto de medidas.

Amplitude
30

A mais simples é a Amplitude, que nada mais é que a diferença entre o maior e o menor valor do
conjunto.

No exemplo acima, a amplitude do conjunto A é 4-2=2 e do conjunto B é 5-1=4.

Desvio Padrão
O uso da amplitude apresenta algumas desvantagens, a mais importante é que o seu cálculo en-
volve apenas os valores extremos do conjunto. Uma forma de medir variabilidade, e que é amplamente
utilizada, é o desvio padrão.

Como a média é uma medida de centralidade, e estamos interessados em quantificar a dispersão

 −  ,  −  , … ,  −  , e são chamados de desvios em torno da média. É fácil verificar que a soma


dos dados em torno da média, vamos usar os desvios de cada valor em torno da média. Esses valores são:

desses desvios é 0, ou seja, ∑  −  . Esse fato resulta de que alguns desvios são positivos, outros
negativos, e que na média se anulam. O cálculo do desvio padrão faz uso desses desvios de uma forma di-
ferente.

O desvio padrão de um conjunto de medidas é definido como:

∑  − 
< = = 
−1

Uma medida equivalente, e que é usada por conveniência, é a variância amostral, que nada mais é
que o quadrado do desvio padrão.

∑  − 
< =
−1

Exemplo: Uma empresa com 100 funcionários anotou o número de faltas semanais durante 6 se-
manas consecutivas. Os resultados obtidos foram: 4, 2, 3, 3, 6 e 3. Calcule a média, variância e desvio pa-
drão das medidas.

média amostral:  = = = 3.5


∑ 01 
 >
31


variância amostral: <  = 1BC01 ?@
= = 1.9
∑A D.2
? 2

desvio padrão amostral: < = E



1BC01 ?@
= 1.4 faltas
∑A
?

Amplitude interquartis

Uma outra medida de dispersão que é utilizada é a amplitude interquartis, definida como:

Amplitude interquartis= Q 3 - Q 1.

A amplitude interquartis representa o intervalo coberto por 50% das medidas centrais.

Coeficiente de Variação
Uma desvantagem do desvio padrão como medida de dispersão é que ele depende da escala de
medidas que se está utilizando. Por exemplo, o peso de um objeto tem um desvio padrão de 0.1 onças ou
2835 miligramas, o que é a mesma coisa. Mas olhando o valor absoluto, em um caso podemos imaginar
que a dispersão é pequena, e no outro que a dispersão é muito grande. Por outro lado, se estamos medindo
anéis de ouro que estão sendo produzidos, essa dispersão pode ser muito grande. Por outro lado, se esta-
mos pesando sacos de cimento, essa dispersão é irrelevante. Para contornar esse problema definimos uma
medida de variação relativa que é o coeficiente de variação. O coeficiente de variação é a razão entre o
desvio padrão e a média, e geralmente é apresentado em porcentagem.

F. G. = JéLM = O .
H.I. N

Observe que o C.V. é uma quantidade adimensional.

Exemplo: Diversas medidas do diâmetro de uma bola de rolamento foram feitas com um micrô-
metro apresentaram média de 2.49 mm e desvio padrão de 0.012 mm. Medidas do comprimento de um
parafuso de precisão feitas com um outro micrômetro apresentaram média de 0.75 polegadas com desvio
padrão de 0.002. Qual dos micrômetros é mais preciso?
32

Para o primeiro micrômetro temos: F. G. = 0.012 / 2.49 = 0.0048.

Para o segundo micrômetro temos: F. G = 0.002 / 0.75 = 0.0027.

Então o primeiro micrômetro é mais preciso que o segundo.

Algumas Estatísticas Adicionais


Até agora discutimos estatísticas de locação (média, mediana, percentis) e de dispersão (desvio
padrão. amplitude, amplitude interquartis). Existe uma quantidade ilimitada de estatísticas que podem ser
calculadas a partir de um conjunto de dados que descrevem outras características da distribuição.

Coeficiente de Assimetria
Embora distribuições de dados possam assumir as mais diferentes formas, a maioria delas pode
ser aproximada por um pequeno número de tipos padrões. Dentre essas, a mais importante é a distribuição
simétrica que tem a forma aproximada de um sino, e que será estudada com detalhes mais à frente.

Distribuições que tem apenas um pico importante e que são assimétricas são classificadas em po-
sitivamente assimétricas se a cauda maior da distribuição é à direita e negativamente assimétricas se a
cauda maior é à esquerda. Distribuições de renda são geralmente positivamente assimétricas; pouca con-
centração de alta renda e alta concentração de baixa renda.

Existem diversas estatísticas usadas comumente para medir o grau de assimetria de uma distribui-
ção (skewness). Uma relativamente simples é baseada no fato de que se há perfeita simetria, então a mé-
dia e a mediana da distribuição são iguais. Se a distribuição tem assimetria positiva, então a média será
maior que a mediana, e se a assimetria é negativa, a média é menor que a mediana. Essa relação é usada
para definir o coeficiente de assimetria de Pearson, e é dado por:

3 × 6é%&' − 6$%&' '


<Q =
%$RS&8 )'%9ã8
33

Para uma distribuição simétrica, SK =0. O valor de SK varia essencialmente entre -3 e 3. A divi-
são pelo desvio padrão torna SK independente da escala de medida. Outras medidas de assimetria exis-
tem, mas medem essencialmente a mesma coisa.

Curtose
Outra característica de uma distribuição simétrica é a forma como os dados se distribuem em tor-
no da média. Uma distribuição simétrica pode ser subdividida em três partes: meio, ombros e caudas. A
caracterização da distribuição é feita em comparação com a distribuição normal ou gaussiana, que é a dis-
tribuição simétrica mais utilizada na Estatística.

Considere a figura abaixo.

A distribuição 1 representa a distribuição normal. A distribuição 3 tem concentração maior que a


normal nas caudas e no meio e concentração menor nos ombros. A distribuição 2 tem concentração maior
que a normal nos ombros e menor no meio e nas caudas.

Uma medida numérica para distinguir as situações 1 e 3 é a curtose, que é calculada como:

∑ −  4
UV9W8R$ =
X∑ −   Y
34

O valor da curtose para a distribuição normal é zero. A curva 3 tem curtose positiva (dizemos
que ela tem cauda mais pesada que a normal). A curva 2 tem curtose negativa (dizemos que ela tem cauda
mais leve que a normal).

Box Plot
O Box Plot ( também chamado de box e whisker plot) é um método alternativo ao histograma e
ao ramo-e-folha para representar os dados. O Box Plot fornece informação sobre as seguintes característi-
cas do conjunto de dados: locação, dispersão, assimetria, comprimento da cauda e outliers (medidas dis-
crepantes).

Embora o Box plot forneça informação sobre locação e dispersão, seu verdadeiro valor está na in-
formação que fornece sobre a cauda da distribuição. Pontos desgarrados (Outliers) podem afetar de forma
adversa as decisões a serem tomadas a partir da análise dos dados se não forem devidamente considera-
dos. O Box Plot é uma ferramenta gráfica que ajuda a identificar a existência de possíveis outliers no con-
junto de dados.

Um Box Plot nada mais é que um retângulo alinhado verticalmente (ou horizontalmente) com du-
as semi-retas, uma em cada um de lados opostos do retângulo. A altura do retângulo é definida pelos
quartis Q1 e Q3. Uma linha seciona o retângulo no valor da mediana (ou Q2). As semi-retas ligam res-
pectivamente os quartis Q1 e Q3 ao valor mínimo e máximo do conjunto de dados. Quando o conjunto de
dados é grande, as semi-retas vão até os percentis 10% e 90% ou até os percentis 5% e 95%. Então, valo-
res extremos são representados por um zero ou por um asterisco. Não existe uma única forma de apresen-
tar um gráfico Box plot. Diferentes livros (ou softwares) adotam variações na apresentação dos pontos ex-
tremos. O gráfico abaixo apresenta o Box plot para o valor de venda de um produto amostrado em 95
pontos de venda, apresentado anteriormente.

Interpretação do Box Plot


O centro da distribuição é indicado pela linha da mediana. A dispersão é representada pela altura
do retângulo (Q3 -Q1). O retângulo contem 50% dos valores do conjunto de dados. A posição da linha
35

mediana no retângulo informa sobre a assimetria da distribuição. Uma distribuição simétrica teria a medi-
ana no centro do retângulo. Se a mediana é próxima de Q1 então os dados são positivamente assimétricos.
Se a mediana é próxima de Q3 os dados são negativamente assimétricos. No exemplo a seguir, a distri-
buição dos dados é simétrica:

O comprimento das linhas fora do retângulo (algumas vezes chamadas de whisquers) informam
sobre a cauda da distribuição. Os valores fora de Q1-1.5*(Q3-Q1) e Q3+1.5*(Q3 -Q1) geralmente são
chamados de "outside" e devem ser investigados como possíveis outliers. Valores "outside" não são ne-
cessariamente outliers, mas um outlier usualmente aparece no gráfico como um outside.

Exemplo: Um engenheiro numa indústria química é responsável pela produção de acetona. Para
avaliar a linha de produção, o gerente monitora o processo. Durante uma semana, 16 bateladas de acetona
são produzidas e uma leitura por batelada é feita. Os resultados são apresentados na tabela abaixo.

Batelada 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Leitura 6 24 12 11 34 32 28 19 31 22 29 58 15 5 17 25

Arrumamos os dados em ordem crescente:


36

5, 6, 11, 12, 15, 17, 19, 22, 24, 25, 28, 29, 31, 32, 34, 58

Desses dados calculamos:

Q1=13.5 M=23 Q3=30

IQR=16.5 Min=5 Max=58

O Box plot é apresentado a seguir.

Além de fornecer informações importantes sobre um conjunto de dados, o Box plot é usado para
comparar graficamente mais de um conjunto de medidas com respeito à media, dispersão e distribuição.
Isso pode ser conseguido desenhando-se os Box plots para cada conjunto de dados paralelamente num
mesmo gráfico.

O próximo conjunto de dados apresenta dados de viscosidade de 3 misturas diferentes

Mistura 1 Mistura 2 Mistura 3


22.02 21.49 20.33
23.83 22.67 21.67
26.67 24.62 24.67
25.38 24.18 22.45
25.49 22.78 22.29
23.50 22.56 21.95
25.90 24.46 20.49
24.89 23.79 21.81

O Box Plot comparativo é apresentado a seguir:


37

Boxplot of Mistura 1; Mistura 2; Mistura 3


27

26

25

24
Data

23

22

21

20
Mistura 1 Mistura 2 Mistura 3

Como podemos observar, as misturas apresentam níveis médios diferentes de viscosidade, de-
crescentes da mistura 1 para a mistura 3.

Diagrama de Pareto
Um dos objetivos centrais de um programa de qualidade é reduzir perdas provocadas por peças
defeituosas que não atendem às especificações. Existem muitos tipos de defeitos que fazem com um pro-
duto não atenda às especificações. Concentrar esforços no sentido de eliminar todos os tipos de defeitos
não é uma política eficaz. Geralmente, alguns poucos tipos de defeitos são responsáveis pela maioria das
rejeições, e é mais eficaz atacar as causas desses poucos defeitos mais importantes.

Essa abordagem já foi proposta por J. M. Juran, um dos pioneiros da Qualidade. Ele estabeleceu
uma regra hoje conhecida como “a regra dos poucos vitais e dos muitos triviais”.

Para identificar os poucos vitais ele propôs a utilização de um diagrama conhecido como Diagra-
ma de Pareto. O diagrama é basicamente um histograma da distribuição dos defeitos pelos tipos, ordenado
em ordem decrescente de freqüência de ocorrência.

Exemplo: Uma empresa classificou um grupo de 100 produtos rejeitados por problemas de emba-
lagem pelo tipo de defeito que causou a rejeição. Os resultados estão apresentados na tabela abaixo.
38

Número de Porc.
Tipo de defeito Porc.
peças Acum.
A: Não selagem do topo 55 0.4 0.4

B: Não selagem do fundo 38 0.28 0.68

C: Não selagem lateral 22 0.16 0.84

D: Impressão borrada 8 0.06 0.9

E: Caixa amassada 7 0.05 0.95

F: Cor da impressão 4 0.03 0.98

G: Caixa rasurada 2 0.02 1.00

Obs. Existem 136 defeitos porque algumas embalagens apresentaram mais de um defeito.

O Diagrama de Pareto para esses dados é apresentado abaixo.

Observe que os defeitos A, B e C são responsáveis por 84% do total e o esforço de melhorar a
qualidade deveria se concentrar primeiramente neles.
39

150
100
125
80
100

60
75

40
50

25 20

0 0

Tipo de defeito

Série de Tempo
A tabela de frequência, e seu equivalente gráfico que é o histograma, devem ser utilizados com a
devida cautela. Se estivermos medindo uma característica de um processo sequencialmente, o histograma
das medidas não inclui a informação sobre a ordem em que os dados foram obtidos, e consequentemente
não revela tendências ou ciclos que podem estar ocorrendo ao longo do tempo, ou mesmo aumento ou de-
créscimo da variabilidade. A falta dessa informação é crítica quando utilizamos as medidas para monito-
rar o processo.

Geralmente utilizamos a distribuição da característica de qualidade para avaliar a capacidade do


processo. Antes de construir a distribuição e calcular os índices, é necessário certificar-se de que o pro-
cesso está estável, ou sob controle estatístico. Quando amostras são retiradas sequencialmente, é necessá-
40

rio graficar as medidas contra a ordem em que elas foram obtidas. Tendências e ciclos presentes no pro-
cesso são relativamente fáceis de detectar nesse tipo de gráfico.

Exemplo: Barras de chocolate são produzidas e a cada 15 minutos 3 barras são retiradas da linha e
pesadas. Os dados obtidos durante um período de 6 horas e 30 minutos bem como o histograma estão
apresentadas na tabela abaixo.

N tempo Obs Amostra Peso N tempo Obs Amostra Peso N tempo Obs Amostra Peso
1 9.00 1 1 170.384 28 11.15 1 10 170.100 55 13.30 1 19 170.951
2 9.00 2 1 169.817 29 11.15 2 10 170.667 56 13.30 2 19 171.234
3 9.00 3 1 170.667 30 11.15 3 10 170.384 57 13.30 3 19 170.384
4 9.15 1 2 169.533 31 11.30 1 11 171.234 58 13.45 1 20 170.667
5 9.15 2 2 169.817 32 11.30 2 11 170.667 59 13.45 2 20 170.667
6 9.15 3 2 170.384 33 11.30 3 11 170.951 60 13.45 3 20 170.667
7 9.30 1 3 170.951 34 11.45 1 12 170.667 61 14.00 1 21 171.234
8 9.30 2 3 170.667 35 11.45 2 12 170.384 62 14.00 2 21 171.518
9 9.30 3 3 170.667 36 11.45 3 12 170.100 63 14.00 3 21 170.951
10 9.45 1 4 170.667 37 12.00 1 13 170.951 64 14.15 1 22 171.801
11 9.45 2 4 170.951 38 12.00 2 13 170.667 65 14.15 2 22 170.951
12 9.45 3 4 170.667 39 12.00 3 13 171.234 66 14.15 3 22 171.234
13 10.00 1 5 170.100 40 12.15 1 14 170.667 67 14.30 1 23 171.518
14 10.00 2 5 169.817 41 12.15 2 14 170.667 68 14.30 2 23 171.234
15 10.00 3 5 170.384 42 12.15 3 14 170.951 69 14.30 3 23 170.667
16 10.15 1 6 169.817 43 12.30 1 15 170.951 70 14.45 1 24 171.518
17 10.15 2 6 170.100 44 12.30 2 15 170.667 71 14.45 2 24 171.234
18 10.15 3 6 170.100 45 12.30 3 15 170.951 72 14.45 3 24 170.951
19 10.30 1 7 170.667 46 12.45 1 16 170.951 73 15.00 1 25 171.234
20 10.30 2 7 170.384 47 12.45 2 16 170.100 74 15.00 2 25 171.801
21 10.30 3 7 170.100 48 12.45 3 16 170.384 75 15.00 3 25 171.518
22 10.45 1 8 170.384 49 13.00 1 17 171.234 76 15.15 1 26 171.518
23 10.45 2 8 170.951 50 13.00 2 17 170.667 77 15.15 2 26 170.951
24 10.45 3 8 170.384 51 13.00 3 17 170.951 78 15.15 3 26 171.234
25 11.00 1 9 170.384 52 13.15 1 18 171.518 79 15.30 1 27 170.951
26 11.00 2 9 170.667 53 13.15 2 18 170.667 80 15.30 2 27 171.234
41

27 11.00 3 9 170.100 54 13.15 3 18 171.234 81 15.30 3 27 170.951


Density

Aparentemente não há nada de errado com o histograma, ou melhor, o histograma não indica ne-
nhum problema com a estabilidade do processo. O gráfico das medidas contra a ordem em que foram ob-
tidas está apresentado na figura abaixo.
Peso
42

Observe que há uma tendência de aumento no peso das barra produzidas ao longo do período de
7 horas, o que aponta para a necessidade de intervenção no processo. Essa tendência fica mais clara quan-
do elaboramos um gráfico com o peso médio da amostra versus o tempo.

172.0

171.5

171.0

170.5

170.0

Amostra

O gráfico a seguir apresenta o comportamento da variabilidade ao longo do tempo. O desvio pa-


drão é calculado para cada amostra.

Esse tipo de gráfico será melhor explorado e analisado através do estudo das cartas de controle.
43

Gráfico de Dispersão e o Coeficiente de correlação


Quando medimos duas variáveis relacionadas a um mesmo problema, geralmente estamos inte-
ressados no estudo da relação entre as variáveis. Vamos considerar por hora a situação em que as duas va-
riáveis podem ser consideradas como contínuas.

Exemplo. Uma empresa que distribui produtos por todo o país contrata uma empresa aérea para
efetuar o transporte. Um estudo foi realizado pela empresa contratante para verificar a relação entre o cus-
to de transporte (Y) e o peso do material transportado (X). Os dados se referem a um período de 6 meses e
estão apresentados na tabela abaixo.

Custo Peso Custo Peso

5492.29 3778.0 6143.24 4181.0

4401.89 3268.5 6309.65 4575.0

5721.46 4026.0 8391.60 6272.0

6237.14 4564.5 8530.49 6676.0

6396.44 4386.0 6343.74 4841.0

6863.91 5664.0 7482.64 6047.0

7258.21 4852.0 6467.10 5315.0

6643.56 5000.0 8768.30 6856.0

8515.98 6646.0 8833.71 7198.0

4687.63 3350.0 7987.36 6324.0

5928.33 3726.0 8267.05 6452.0

10856.09 8718.0 4829.24 3699.0

7766.47 5647.0
44

O primeiro passo na análise dos dados é colocar os pontos num gráfico cartesiano de Y em função
de X.

Gráfico de Dispersão: Custo vs Peso


11000

10000

9000

8000
Custo

7000

6000

5000

4000
3000 4000 5000 6000 7000 8000 9000
Peso

Do gráfico pode-se perceber que:

• Há uma tendência de aumento do custo com o aumento do peso ( o que era de se esperar
nesse exemplo)
• Que a relação entre as duas variáveis é aproximadamente linear na região em que temos
observações
• Que há uma forte relação entre as duas variáveis.

Se os pontos no gráfico apresentam pouca dispersão em torno de uma reta ligando X e Y dizemos
que existe uma forte correlação linear entre as variáveis. Se os pontos apresentam alta dispersão dizemos
que as variáveis são pouco correlacionadas.

Uma forma de quantificar o grau de associação linear entre duas variáveis é através do coeficien-
te de correlação amostral. Ele mede o grau de associação linear que existe entre as duas variáveis.

Se,  , Z ,  , Z , … , Z , Z são pares de pontos, o coeficiente de correlação amostral 90,[ é
calculado como:
45

∑ −  Z − \
90,[ =
]∑ −   Z − \ 

Pode-se verificar que o coeficiente de correlação é uma quantidade que varia entre -1 e 1, ou seja,

−1 ≤ 90,[ ≤ 1

O coeficiente de correlação mede a direção e o grau de associação linear entre as variáveis. Valo-
res próximos de -1 ou +1 indicam forte associação. Valores próximos de zero indicam pouca associação.
O sinal do coeficiente indica se a associação é positiva (Y aumenta com o aumento de X) ou negativa ( Y
decresce com o aumento de X).

O coeficiente de correlação para os dados acima é 0.98.

A seguir apresentamos diversas configuração de pares (X,Y)

Gráfico de Dispersão: Y vs X Gráfico de Dispersão: Y vs X


25 35

30
20
25

15 20
Y

15
10
10

5
5

0
0 5 10 15 20 0 5 10 15 20
x x

(a) (b)
Gráfico de Dispersão: Y vs X Gráfico de Dispersão: Y vs X
35

0
30

25
-5

20
Y

-10 15

10
-15
5

-20 0
0 5 10 15 20 5 10 15 20 25
x X

(c) (d)
46

Gráfico de Dispersão: Y vs X
120

100

80

60
Y

40

20

0 5 10 15 20
x

(e)

Os diagramas da Figura (a) e (b) mostram duas situações onde os pontos estão em torno de uma
reta imaginária ascendente. Valores pequenos de X estão associados a valores pequenos de Y, o mesmo
acontecendo para valores grandes. Estes dois casos indicam o que chamamos de correlação linear positiva
de Y e X. O dados em (b) estão mais próximos da reta imaginária, caracterizando uma correlação mais
forte que a de (a), ou seja, o valor da correlação em (b) está mais próxima de +1 do que (a), apesar do que,
os dois conjuntos de dados têm valor de r maiores do que zero.

A Figura (c) mostra que os pontos em X e Y estão em torno de uma reta imaginária descendente,
indicando o que chamamos de correlação linear negativa, ou seja, valor de r menor que zero.

Os valores de X e Y na Figura (d) não sugerem uma associação entre duas variáveis pois valores
pequenos, ou grandes, de X estão associados tanto a valores pequenos quanto a valores grandes de Y. Os
pontos do diagrama não se posicionam em torno de uma linha imaginária ascendente ou descendente.

A Figura (e) aproxima-se mais de uma parábola do que de uma reta, ilustrando correlação não li-
near. Apesar de serem muito correlacionados, o coeficiente de correlação linear será próximo de zero. Isto
ocorre devido ao fato de que o coeficiente só pode ser usado para correlações lineares.

Correlação e causalidade
Dizemos que uma variável X “causa” Y se X provoca um efeito ou resultado em Y. Devemos es-
tar atentos para não confundir os conceitos de correlação e causalidade. Muitas vezes encontramos uma
47

forte correlação entre duas variáveis e somos tentados a estabelecer uma relação de causa e efeito entre as
duas variáveis, o que nem sempre é verdade.

A tabela seguinte apresenta o número de doentes mentais por 10000 habitantes e o número de
aparelhos de rádio no Reino Unido durante os anos de 1924 a 1937.

Ano Número de doentes men- Número aparelhos


tais de rádio (em milhões)
no Reino Unido
por 10000 habitantes
1924 8 1350
1925 8 1960
1926 9 2270
1927 10 2483
1928 11 2730
1929 11 3091
1930 12 3647
1931 16 4620
1932 18 5497
1933 19 6260
1934 20 7012
1935 21 7618
1936 22 8131
1937 23 8593

O gráfico abaixo mostra a forte relação existente entre o número de doentes mentais e o número
de aparelhos de rádio. Entretanto, não é razoável pensar que a relação seja de causa e efeito. A variável
ano é que está provocando está correlação. Ambas as variáveis aumentaram ao longo do tempo.
48

Gráfico de Dispersão: N doentes Mentais vs N aparelhos de rádio


25
N doentes Mentais por 100.000 h

20

15

10

1000 2000 3000 4000 5000 6000 7000 8000 9000


N aparelhos de rádio (1000)

Quando encontramos uma correlação sem relação causal, dizemos que a correlação é espúria.

Em muitas situações práticas não é tão simples decidir se a relação é causal. Uma forma de se es-
tabelecer se a relação é de causa e efeito é através da realização de experimentos planejados.

Estudar a correlação entre duas ou mais variáveis pode ser bastante útil. Se Y é uma medida de
um produto ou processo e se Y está fortemente correlacionada com outra medida X que é mais barata ou
mais fácil de obter, então podemos medir X e através da relação existente entre elas estimar o valor de Y.
A técnica utilizada nesse tipo de situação é regressão linear, que será estudada mais à frente.
49

Capítulo 2.Introdução à Probabilidade

Introdução
No capítulo anterior foram apresentadas ferramentas estatísticas para a sumarização dos dados,
que é geralmente a primeira etapa da análise de dados. Essa etapa é geralmente aplicada em um conjunto
de dados observados em uma amostra retirada de uma população. É necessário avançar na análise e, utili-
zando os resultados da amostra, fazer inferências sobre a população. O processo inferencial utiliza concei-
tos de probabilidade, que é o tópico a ser coberto nesse capítulo.

Exemplo: Uma empresa quando recebe um lote de matéria-prima de um fornecedor tem de


decidir se o lote satisfaz níveis de qualidade estabelecidos. Em geral, uma amostra é retirada do lote e ín-
dices de qualidade, como, por exemplo, a porcentagem de defeituosos, são calculadas na amostra. Utili-
zando-se o índice calculado, deve-se decidir se o lote é aprovado ou reprovado. Esse processo de tirar
conclusões sobre a população (lote) a partir de uma amostra utiliza os conceitos de probabilidade. Obvia-
mente a conclusão está sujeita a erros. Podemos aprovar o lote quando ele tem uma porcentagem de defei-
tuosos maior que o aceitável ou reprovar um lote que tem porcentagem de defeituosos menor que o acei-
tável. O uso da teoria de probabilidade permite mensurar as chances de cometer esses dois tipos de erro,
bem como auxilia a estabelecer planos amostrais de tal forma a controlar as chances de tomar uma deci-
são incorreta.

Os conceitos de probabilidade são importantes por si só, e têm importantes aplicações em proces-
sos decisórios onde a incerteza está presente.

Serão apresentados aqui apenas os conceitos básicos sobre probabilidades.

Conceitos de Probabilidade
Um experimento aleatório é um processo que apresenta como resultado qualquer um de um con-
junto de possíveis valores, sem que a ocorrência de um particular evento possa ser predita com certeza. A
50

maneira mais comum de medir a incerteza de um evento que pode resultar de um experimento aleatório é
através da atribuição de um valor que reflete a chance de ocorrência desse evento. Esse valor é chamado
de probabilidade.

Historicamente, a forma mais antiga de medir incerteza através de probabilidade é através do que
é chamado de probabilidade clássica. Essa medida foi desenvolvida basicamente através dos jogos de
azar. O conceito clássico de probabilidade aplica-se somente quando todos os possíveis resultados são
igualmente prováveis.

Suponha que um experimento aleatório tem um total de resultados possíveis Ri, & = 1,2, . . , , e
que cada um desses resultados é igualmente provável. Então, a chance de ocorrência de cada um é 1/ .
Expressamos isso de uma maneira formal dizendo:

_` = 1/ , onde _ simboliza Probabilidade.

Se um evento E é formado por m eventos elementares igualmente prováveis, então

_a = 6/ .

O exemplo mais clássico de aplicação da probabilidade clássica é o lançamento de um dado ho-


nesto. O conjunto de resultados possíveis é {1, 2, 3, 4, 5, 6} e cada resultado ocorre com probabilidade 1/
6. Se o evento E é formado pelos resultados pares, então _a = _2,4,6 = 3/6. Note que estamos fa-
lando aqui de um dado hipotético, para o qual assumimos que as faces são igualmente prováveis. Nada
garante que um dado real tenha que ter faces igualmente prováveis.

Se o experimento aleatório obedece à condição de eventos elementares igualmente prováveis, en-


tão todas as probabilidades relacionadas com o experimento podem ser calculadas a priori, sem necessi-
dade de experimentação. Entretanto, na maioria das situações, temos de estimar a probabilidade a partir
da realização de experimentos. Para tanto, usamos a abordagem frequentista para calcular probabilidades.

Suponha que um experimento que tem como resultados possíveis {` , ` , . . . , `d } é realizado um


número de vezes, e que cada resultado `& ocorre & vezes. Então a frequência relativa do evento ` é
) =  / . Se é suficientemente grande, converge para _` , e usamos o valor ni /n como o valor
1

51

aproximado de _` . A aplicação da abordagem frequêntista pressupõe que nas n repetições do experi-
mento o sistema esteja estável, ou em equilíbrio. Como ∑  = , temos que ∑ = ∑ ) = 1.
1


Outra abordagem é tratar probabilidade como uma medida de crença sobre a ocorrência de um
evento. Por exemplo, observando as condições de tempo hoje, uma pessoa afirma, baseada em sua experi-
ência, que a chance de chover amanhã é 40%. Esse número é a sua probabilidade pessoal, ou subjetiva
sobre o evento “chover amanhã”. Um especialista em mercado de ações afirma, baseado em sua experiên-
cia e nas informações que tem disponível, que a chance que as ações de uma determinada empresa subam
no pregão é de 70%.

Qualquer que seja a interpretação, ou abordagem, as leis básicas de probabilidade são as mesmas.
Em lugar de desenvolver essas leis com rigor formal, vamos listá-las aqui, apelar para a intuição do leitor
para sua devida compreensão, e ilustrá-las através de alguns exemplos simples.

As leis da Probabilidade
Denotaremos por uma letra maiúscula A, B, ... um evento aleatório. Em geral, um evento aleató-
rio é um conjunto de objetos, e utilizaremos a linguagem da teoria dos conjuntos para listar as leis da pro-
babilidade. Por exemplo, se um experimento aleatório consiste em lançar um dado e definimos o evento A
como sendo formado pelos resultados pares, então e = {2,4,6}. Se estivermos estudando o tempo de vida
de leite longa vida, podemos definir o evento A como sendo formado por todas as caixas que duram um
tempo maior que 90 dias. Então, e = {W: W > 90}. Observe nesse exemplo que a observação é o tempo
de vida da caixa, portanto os eventos são formados por intervalos de tempo.

Denotaremos por S o conjunto de todos os resultados possíveis. No primeiro exemplo, < =


{1,2,3,4,5,6}. No segundo exemplo, < = {W: W > 0}. Observe que no segundo exemplo consideramos <
formado por todos os tempos maiores ou iguais a zero. Embora se saiba que há um limite para o tempo de
vida de uma caixa de leite longa vida, por razões que ficarão claras mais à frente, é mais conveniente mo-
delar o conjunto dos valores possíveis para o tempo de vida como formado por todos os valores maiores
ou iguais a zero.
52

Denotaremos por _e a probabilidade de ocorrência do evento A

1º Lei. Qualquer que seja o evento A

0 ≤ _e ≤ 1

Se S representa o conjunto de todos os resultados possíveis e ∅ o conjunto vazio, então,

_< = 1 e _∅ = 0.

2º Lei. Se e e e são dois eventos que não têm nenhum elemento em comum dizemos que e e
e são disjuntos e ∩ e = ∅ . Se dois eventos e e e são disjuntos, então

_e ∪ e = _e + _e

Obs. O evento e ∪ e é formado por todos os elementos de e e de e .

Generalizando, se e , e , … , ed são eventos mutuamente disjuntos, então,

_e ∪ e ∪ … ∪ ed = _e + _e + . . . +_ed

3º Lei. Representamos por Ac o evento formado por todos os resultados possíveis que não fazem
parte de A. Dizemos que Ac é o complementar do evento A. Temos,

ek ∪ e = < e ek ∩ e = ∅.

Então temos:

_ek = 1 − _e

4º Lei. Se e e e são dois eventos quaisquer, então,

_e ∪ e = _e + _e − _e ∩ e .

Probabilidade Condicional e Independência


53

Em muitas situações, quando queremos saber a probabilidade de que certo evento e ocorra, temos
à disposição a informação de que outro evento relacionado, l, ocorreu. Veremos como a informação de
que o evento l ocorreu altera a probabilidade de ocorrência do evento e. A probabilidade revisada de e
dada a informação de que l ocorreu é chamada de probabilidade condicional de e dado l e denotamos
por _e|l . Para ilustrar esse novo conceito e aprender como calcular a probabilidade condicional vamos
recorrer a um exemplo.

Exemplo: Um grupo de bancários foi classificado de acordo com sua condição de peso cor-
poral e presença ou ausência de hipertensão. As proporções encontradas nas diversas categorias aparecem
na tabela a seguir.

Tabela: Condição de Peso Corporal e Hipertensão

Condição em relação ao peso

Acima Normal Abaixo Total


Sim 0.10 0.08 0.02 0.20
Hipertenso
Não 0.15 0.45 0.20 0.80
Total 0.25 0.53 0.20 1.00

Qual é a probabilidade de que uma pessoa selecionada ao acaso desse grupo tenha hipertensão?
Vamos usar o símbolo e para denotar hipertensão. Então, queremos saber _e . Esse valor é igual a 0.20
e escrevemos _e = 0.20. Qual é a probabilidade que uma pessoa selecionada ao acaso desse grupo te-
nha peso acima do normal. Vamos usar o símbolo l para a condição de ter peso acima do normal. Então,
_l = 0.25.

Essas duas probabilidades são probabilidades não condicionadas. Suponha agora que uma pessoa
é selecionada ao acaso e ela tem peso acima do normal. Qual é a probabilidade de que ela seja hipertensa.
Como sabemos que ela tem peso acima do normal, o conjunto de pessoas a serem consideradas se reduz a
54

25% do total. Dessas 25%, 10% são hipertensas. Então a probabilidade considerada é igual a 0.10/
0.25 = 0.40. Portanto, dada a informação de que a pessoa tem peso acima do normal, a probabilidade de
ser hipertensa é igual a 40% e escrevemos:

_e|l =
.2 = 0.40

.

Considere agora o evento: a pessoa é hipertensa e tem peso acima do normal. Denotamos esse
evento por e ∩ l, ou simplesmente el. Então _el = 0.10, ou seja, existem 10% de pessoas que satis-
fazem as duas condições ao mesmo tempo. Note que no cálculo da probabilidade condicional usamos a

razão 0.10/0.25, que nesse caso coincide com a razão


Ino
Io
. De fato, essa coincidência não é fortuita e

vale sempre, de tal forma que podemos utilizar essa relação para o cálculo da probabilidade condicional.

A probabilidade condicional de e dado l é denotada por _e|l e é definida pela fórmula

_el
_e|l =
_l

desde que _l > 0. Equivalentemente, essa fórmula pode ser escrita como

_el = _e|l _l

Essa versão da fórmula é chamada de lei da multiplicação da probabilidade.

Similarmente, a probabilidade condicional de B dado A pode ser expressa como

_el
_e|l =
_e

de tal forma que podemos escrever também

_el = _l|e _e

que é uma versão diferente da lei da multiplicação.

Uma situação que merece especial atenção é aquela em que a probabilidade condicional _e|l é
igual à probabilidade incondicional _e . A informação de que o evento l ocorreu não tem influência na
55

determinação da probabilidade do evento A. Então, _e|l = _e e nesse caso dizemos que os eventos
e e l são estatisticamente independentes.

Dois eventos e e l são independentes se

_e|l = _e

Se dois eventos não são independentes dizemos que eles são dependentes.

Condições equivalentes são

_l|e = _l ou _el = _e _l .

No estudo sobre hipertensão e peso corporal, ter peso acima do normal é independente de ser hi-
pertenso? Lembre-se que _e = 0.2 e _e/l = 0.40. Então os eventos não são independentes. Pesso-
as que têm peso acima do normal têm maior probabilidade de serem hipertensos.

Um exemplo clássico de eventos independentes é a extração de números de uma loteria. Suponha


que um número da loteria é formado por 5 dígitos, e que cada dígito é sorteado sequencialmente de uma
urna com os dígitos 0,1,2, . . . ,9, sendo que cada dígito sorteado retorna à urna para o próximo sorteio. En-
tão, a chance de que cada digito seja sorteado é sempre 1/10, independente dos dígitos que foram sortea-
dos anteriormente. Portanto, cada sorteio é independente dos anteriores. Assim a chance de que o bilhete
11.111 seja sorteado é a mesma que o bilhete 25.734. Se o bilhete 75.366 foi sorteado numa determinada
semana, a chance de alguém que tenha o bilhete 75.366 ser sorteado na próxima semana continua sendo
igual a 1/100.000.

Distribuição de Probabilidades
Em muitas situações, os resultados possíveis de um experimento são números. Por exemplo, o di-
âmetro de uma peça sendo fabricado, o valor do rendimento da poupança num determinado dia, o volume
negociado diariamente na bolsa de valores de São Paulo, o tempo de vida de um equipamento, etc. Quan-
do o resultado não é numérico, podemos fazer uma associação dos resultados possíveis com um número.
Por exemplo, podemos atribui o número 1 ao sexo masculino e o número 2 ao sexo feminino. Portanto, é
56

sempre possível associar um número ao resultado de um experimento. Dessa forma, simbolizamos os


possíveis resultados de um experimento aleatório por uma letra ( em geral X, Y, Z), e chamamos essa le-
tra de variável aleatória. Então, variável aleatória nada mais é do que uma função que tem como valores
todos os resultados possíveis de um experimento aleatório.

Tipos de variáveis aleatórias


É comum classificar as variáveis aleatórias de acordo com o número de resultados possíveis que
ela pode assumir. Se o número de valores possíveis é finito ou infinito enumerável chamamos a variável
aleatória de discreta. Se o conjunto de valores possíveis é infinito não enumerável, então a variável aleató-
ria é contínua.

Exemplos de variáveis aleatórias discretas: o número de filhos de um casal, o número de estrelas


visíveis numa determinada noite, o rendimento de uma família expressa em múltiplos inteiros de um salá-
rio mínimo, etc.

Exemplos de variáveis aleatórias contínuas: o tempo de vida de um equipamento, a taxa de juro


diária, a altura de uma pessoa, etc.

Como já discutimos anteriormente, a rigor não existe variável aleatória continua, pois todo siste-
ma de medida tem sensibilidade limitada e a escala resultante é discreta. Mas é conveniente adotarmos
como modelo que a sensibilidade do sistema de medidas é tão grande como se queira de tal forma que
podemos ter como resultado da medida qualquer valor dentro de um intervalo.

Distribuição de Probabilidade Discreta


Suponha que em uma determinada cidade foi feito um censo, e se anotou para cada família o nú-
mero de filhos do casal, encontrando-se os resultados apresentados na tabela seguinte.

Uma família é escolhida ao acaso nessa cidade. Qual é a probabilidade que ela tenha 2 filhos? Pe-
los resultados censitários acima esse valor é 35%. Se chamarmos de X o número de filhos de um casal es-
57

colhido ao acaso, vemos que X pode assumir os valores {0,1,2,3,4} com probabilidades {0.10, 0.30, 0.35,
0.20, 0.05} respectivamente. Então, X é uma variável aleatória discreta.

Nº de Filhos %.

0 10%

1 30%

2 35%

3 20%

4 5%

À tabela que associa os valores possíveis de X com as respectivas probabilidades de ocorrências


de cada valor chamamos de distribuição de probabilidades da variável aleatória X. Essa distribuição é en-
tão:

X 0 1 2 3 4 Soma

P(X) 0.10 0.30 0.35 0.20 0.05 1

Observe que a soma das probabilidades tem de ser igual a 1.

Podemos representar graficamente a distribuição de probabilidade da seguinte forma:


58

Exemplo: A distribuição de probabilidades de um dado honesto é:

X 0 1 2 3 4 5 6 Soma

P(X) 1/6 1/6 1/6 1/6 1/6 1/6 1/6 1

Média ou Valor esperado


Já nos referimos anteriormente ao conceito de média populacional e variância populacional (lem-
brar que variância é igual ao quadrado do desvio padrão). Essas quantidades são os equivalentes da média
e variância amostral quando os cálculos são efetuados com todos os elementos da população.

Se dispusermos dos valores da variável para cada elemento da população, então o cálculo da mé-
dia e da variância é direto. Como veremos a seguir, é possível calcular esses dois parâmetros se o que dis-
pomos é a distribuição de probabilidades da variável de interesse. Considere a distribuição do número de
filhos por família apresentado anteriormente. Qual é o número médio de filhos por família? Considerando
uma base de 100 famílias, 10 tem 0 filhos, 30 tem 1 filho, 35 tem 2 filhos, 20 tem 3 filhos e 5 tem 4 fi-
lhos. Então o número médio de filhos é :
59

0 × 10 + 1 × 30 + 2 × 35 + 3 × 20 + 4 × 5

100

= 0 × 0.10 + 1 × 0.30 + 2 × 0.35 + 3 × 0.20 + 4 × 0.05 = 1.8

Como você percebeu, para se calcular a média populacional em uma distribuição discreta, basta
multiplicar os possíveis valores da distribuição pelas respectivas probabilidades. Ou seja, se a variável X
tem distribuição { , _ ; & = 1,2, . . . , }, onde _ = _ =  , então, #é%&' = ∑S'q89 ×
)98r'r&q&%'%$ , ou


s = t  _


onde s representa a média populacional. Outra notação utilizada para média nos livros é a , onde se lê
a como valor esperado ou esperança matemática.

Exemplo Baseado nos seus registros de venda, uma revendedora de carros usados determi-
nou a distribuição do número de carros vendidos por dia (X). O resultado está apresentado na tabela abai-
xo.

Distribuição do número de carros vendidos por dia

x 0 1 2 3 4 5 Total

P(x) 0.10 0.10 0.20 0.30 0.20 0.10 1.00

Distribuição do número de carros vendidos por dia

Distribuição do número de carros vendidos por dia

x 0 1 2 3 4 5 Total
60

Distribuição do número de carros vendidos por dia

P(x) 0.10 0.10 0.20 0.30 0.20 0.10 1.00

xP(x) 0.00 0.10 0.40 0.90 0.80 0.50 E(x) = 2.7

ou seja, a loja vende em média 2.7 carros por dia.

Interpretação do Valor Esperado


Quando decisões são feitas na presença de incerteza, elas raramente são baseadas apenas nas pro-
babilidades envolvidas. Em muitas situações, nós precisamos saber algo sobre as potenciais consequên-
cias da decisão (ganho, perda, etc.). Suponha que você vá investir no mercado de ações, e que para as
ações de uma determinada empresa há uma probabilidade de ganho de 20% e uma probabilidade de perda
de 80%. Para tomar a decisão de comprar ou não ações dessa companhia é importante saber qual será o
ganho e qual será a perda. Se o ganho, caso ocorra, for de R$120,00 por ação e a perda for de R$27,00 a
distribuição do ganho, e o ganho médio por ação estão apresentadas na tabela abaixo.

Ganho (g) 120,00 -27,00 Total

P(g) 0.20 0.80 1.00

gP(g) 24,00 -21,60 2.40

Então, o ganho médio por ação é de R$2.40, ou seja, embora a chance de perda seja grande, na
média há um ganho. É importante entender esse resultado como sendo um ganho esperado numa longa sé-
rie de compras de ações. Num dia específico há um ganho ou uma perda, dependendo do que ocorre.
61

Se uma tábua de vida da população brasileira diz que uma mulher com 50 anos tem esperança de
vida de mais 15 anos, isso não significa que uma mulher em particular irá viver mais 15 anos. Algumas
pessoas morrerão antes, outras viverão mais que 15 anos. É a média de sobrevida de todas as mulheres
com 50 anos que é igual a 15 anos. Se uma pesquisa alimentar encontra que o brasileiro toma em média
500 ml de leite por dia, isso não significa que cada brasileiro toma 500 ml de leite por dia.

Exemplo: Aplicação do Valor Esperado em processos decisórios: Uma fábrica de móveis deve
decidir se realiza uma ampliação da capacidade instalada agora ou se aguarda mais um ano. Uma análise
econômica diz que se ela expande agora e as condições econômicas permanecerem boas, ela realizará um
lucro de R$328.000,00 no próximo ano; caso haja uma recessão, ela terá um prejuízo de R$80.000,00. Se
ela adia a expansão para o próximo ano, ela terá um lucro de R$160.000,00 se as condições permanece-
rem boas e terá um lucro de R$16.000,00 se houver recessão. Se as chances de que ocorra uma recessão é
de 2/3, qual é a decisão que maximiza seu lucro?

O lucro esperado se ela expande agora é:

1 2
328.000 × + −80.000 × = 56.000
3 3

O lucro esperado se ele adia a expansão é:

1 2
160.000 × + 16.00 × = 64.000
3 3

1 2
160,000 x + 16,000 x = 64,000
3 3

Então, adiar a expansão maximiza o lucro esperado.

Propriedades da Média
Seja ' e r duas constante e  e \ duas variáveis aleatórias. Então:

a) a' = '

b) ar = ra
62

c) a' +  = ' + a

d) a' + r\ = 'a + ra\

Variância
A média fornece uma medida de centralidade da distribuição. É necessário introduzir uma medida
de dispersão dos valores em torno do valor médio. Essa medida é a variância. Para uma distribuição dis-
creta, a variância é calculada como:

G'9 = t − s 
_

A variância é também denotada por u  . Se  é medida em metros, anos, ou qualquer outra uni-
dade de medida, a variância é medida no quadrado dessa unidade e é inconveniente apresentar a medida
de dispersão dessa forma. Então medimos a dispersão em termos do desvio padrão σ que é a raiz quadra-
da da variância, ou seja

u = %$RS&8 )'%9ã8 = ]G'9

Pode-se mostrar que

G'9 = a  − Xa Y

sendo a  = ∑  _

Propriedades da Variância
Sejam ' e r duas constantes e  e \ variáveis aleatórias. Então

a) G'9 não pode ser negativa

b) G'9' = 0

c) G'9' +  = G'9

d) G'9r = r  G'9
63

e) G'9' + r = r  G'9

f) G'9 ± \ = G'9 + G'9\ , se  e \ são estatisticamente independentes.

É importante compreender e dominar as propriedades da média e da variância. Elas serão úteis no


estudo de controle estatístico do processo, experimentos planejados, estabelecimento de tolerâncias, pes-
quisas de mercado, etc.

Exemplo Um sistema de envasamento consiste em encher um vidro com líquido. Os vidros utili-
zados têm peso médio de 20g e desvio padrão 0.5g. A quantidade de líquido em peso que é colocada no
litro pode ser regulada, sendo o valor nominal igual a 185g. O desvio padrão do sistema de envasamento é
2g. Qual é o peso médio e o desvio padrão do vidro cheio?

)$R8 6é%&8 = 20 + 185 = 205w

G'9xMy = G'9zL{| + G'9}}~JM = 0.5 + 2 = 2.5

€. _.xMy = √2.5 = 1.58w


64

Capítulo 3. Modelos Probabilísticos

Modelos Probabilísticos Discretos


Quando estudamos fenômenos que apresentam como resultados variáveis aleatórias discretas, po-
demos observar que muitos deles têm características comuns. Por exemplo, quando anotamos o sexo de
um recém-nascido, os resultados possíveis são dois: Masculino ou Feminino; uma peça pode ser classifi-
cada como defeituosa ou não defeituosa com respeito à sua condição de uso; um cheque tem ou não fun-
dos, etc. Em todos esses exemplos, só temos dois resultados possíveis, e é possível estabelecer um mode-
lo probabilístico que seja aplicável em todos os casos e que se diferencie apenas pelo valor das probabili-
dades atribuídas a cada resultado possível. A vantagem de estabelecer um modelo é que podemos estudar
suas propriedades de uma única vez. Uma vez estabelecido o modelo, se a situação real se encaixa no
modelo, o problema que nos resta é só determinar as probabilidades específicas para aquele caso.
Um modelo probabilístico é expresso em termos de parâmetros desconhecidos que estão relacio-
nados com as características da população em estudo. Traçando um paralelo com a Física, existe uma lei
que estabelece que a corrente e a voltagem de um circuito elétrico estão relacionadas da seguinte forma:
U899$ W$ = ‚ ∗ S8qW'w$6
sendo ‚ um parâmetro (1/resistência) que depende de cada circuito em particular.
O mesmo acontece com os modelos probabilísticos. Por exemplo, existe uma infini-
dade de características cuja distribuição de sua medida é simétrica em torno da média e cuja
forma da distribuição é parecida com um sino. Essa distribuição é conhecida como distribui-
ção normal ou gaussiana, e depende apenas de dois parâmetros para caracterizá-la, a média e
o desvio padrão da distribuição. Outra situação bastante típica é aquela em que os resultados
possíveis do experimento são apenas dois. Por exemplo, condição de uma peça (defeituosa ou
não defeituosa), preferência de um consumidor perante duas formulações de um mesmo pro-
duto (formulação A ou B), sexo de um consumidor (M ou F), etc. Em todos esses casos, e sob
certas condições de amostragem, o modelo probabilístico depende apenas da proporção p de
um dos resultados possíveis presentes na população.
Um modelo, para ser útil, deve possuir algumas propriedades, que são:
65

1) Adequabilidade - O modelo deve refletir os mecanismos aleatórios


que governam o processo.
2) Simplicidade - O modelo deve ser o mais simples possível. Isso faz
com que geralmente o modelo seja tratável e inter-
pretável. Por simplicidade queremos também dizer
economia no número de parâmetros que caracteri-
zam o modelo. Se dois modelos descrevem adequa-
damente um mesmo fenômeno, o mais simples e
com menos parâmetros deve ser preferido.
O que vamos estudar agora é uma série de modelos probabilísticos que tem uma infi-
nidade de aplicações na prática. Uma área de grande aplicação desses modelos é em controle
de qualidade.

Ensaios de Bernoulli: Sucesso - Falha


Consideramos repetições sucessivas de um experimento ou observação. Cada repeti-
ção é chamada de um ensaio. Além disso, nós consideramos que existem apenas 2 possíveis
resultados para cada ensaio individual. É convencional designar esses dois resultados possí-
veis de Sucesso (S) e Fracasso (F), sendo que esses termos não devem ser entendidos de for-
ma literal. É costume designar o resultado de maior interesse do pesquisador de Sucesso e o
outro de Fracasso. Por exemplo, se estamos estudando o sexo de recém-nascidos, podemos
designar por S o sexo Feminino e por F o sexo Masculino, ou vice-versa.
Situações que envolvem esse tipo de situação são muito freqüentes e são chamados
de ensaios de Bernoulli. Eles podem ser modelados em termo de probabilidades da seguinte
forma:
a) Em cada ensaio podem ocorrer somente dois resultados possíveis, chamados
tecnicamente de Sucesso (S) e Fracasso (F).

_< , é a mesma, e é denotada por p, ou seja, _< = ). A probabilidade de


b) Para cada ensaio, a probabilidade de que ocorra um sucesso, denotada por

um Fracasso, _„ é dada por 1-p, ou seja, _„ = 1 − ). A quantidade


1 − ) é denotada por …. Temos então ) + … = 1.
c) Cada ensaio é independente.
66

sim, definimos uma variável aleatória  que pode assumir os valores 0 e 1 com a seguinte
É comum associarmos o número 1 ao evento “S” e o número 0 ao evento “F” . As-

distribuição de probabilidades:

 _

1−)

A média e a variância de , são:

a = 0 × 1 − ) + 1 × ) = )

G'9 = a  − Xa Y = X0 × 1 − ) + 1 × )Y + ) = )1 − )

Distribuição Binomial
Quando um número fixo de ensaios de Bernoulli são realizados de forma indepen-
dente com probabilidade ) de Sucesso em cada ensaio, estamos interessados em contar quan-
tas vezes ocorre o resultado S. Denotemos por  a quantidade de vezes que ocorre o resultado
S. A variável  pode assumir os valores 0, 1, 2, ... n, com diferentes probabilidades. Vamos
denotar por _ = 6 a probabilidade que em n repetições do ensaio de Bernoulli ocorram

frase por 6 = 0,1,2, . . , ). A variável aleatória  recebe o nome de Distribuição Binomial .


exatamente m Sucessos, sendo que m pode assumir os valores 0, 1, 2, ..., n. (denota-se essa

Pode-se mostrar, com algum trabalho, que



_ = 6 = † ‡ )J 1 − ) ?J
6
67


Sendo † ‡ =
!
6 J!?J !

para 6 = 0,1,2, . . . , . Observe que o cálculo das probabilidades da distribuição bi-


nomial dependem apenas de , o tamanho da amostra e de ), a probabilidade de ocorrer S.
Denotamos a distribuição binomial por l , ) .

Características da distribuição Binomial


Pode-se mostrar que:
O número esperado de sucessos em n ensaios de Bernoulli é igual a ) ou se-
ja, s = );
1)

2) O desvio padrão do número de sucessos é ] )1 − ) , ou seja, u =

] )1 − ) ; portanto a variância é dada por )1 − ) . Se definirmos

)̂ = , a proporção de sucessos em ensaios, então,


@

a)̂ = ) e G'9)̂ =
Š ?Š


Exemplo: Numa pesquisa de mercado, 20 pessoas são selecionadas ao acaso de


uma população e perguntadas se são a favor (S) ou contra (F) uma proposta de mudança da

dança. Então, \ segue a distribuição binomial com parâmetros 20, ) . É comum utilizarmos
embalagem de um produto tradicional. Seja Y o número de pessoas que são favoráveis à mu-

\/ , a proporção de pessoas favoráveis à mudança, como um estimador de p, a proporção de


pessoas na população favoráveis à mudança. Tecnicamente, denominamos )̂ =
@

de estima-
dor de p.
Suponha que \ = 8 pessoas são favoráveis à mudança. Então, )̂ = 8/20 = 0.4 .
Podemos calcular o desvio padrão de )̂ e avaliarmos a incerteza associada à estimati-
va.

)1 − )
€. _. )̂ = =

68

Esse valor pode ser estimado substituindo-se o valor de p na fórmula por p̂ . Então,

)1 − ) 0.4 × 0.6


€. _. )̂ = = == = 0.11
20

Por razões que serão explicadas mais adiante, podemos afirmar com 95% de confian-
ça que o intervalo (0.19, 0.64) cobre o verdadeiro valor do parâmetro p. Em lugar de expres-
sarmos a estimativa através de um valor, no caso 0.4, expressamos a estimativa através de in-
tervalo, incorporando nessa estimativa a incerteza contida na amostra. Estimativa por interva-
lo serão descritas mais à frente.

com uma porcentagem ) de peças defeituosas é retirada uma amostra aleatória simples (com
A distribuição binomial aplica-se naturalmente nas seguintes situações. De um lote

igual chance de seleção para cada peça do lote) de n peças com reposição, ou seja, uma peça

seja retirada. Seja \ o número de peças defeituosas na amostra. Então, as condições de vali-
é retirada, examinada, sua condição registrada e devolvida ao lote antes que a próxima peça

dade da distribuição binomial estão satisfeitas, e \ segue a distribuição l , ) .


Tabelas para a distribuição Binomial estão disponíveis na maioria dos livros de esta-
tística. A maioria dos softwares estatísticos permite calcular diretamente probabilidades asso-
ciadas à distribuição Binomial.
Exemplo Uma empresa produz um tipo de leite enlatado. Normas governamentais
estabelecem um limite inferior para o peso líquido da lata. Suponha que o processo de produ-
ção é tal que 1% das latas produzidas tem peso líquido inferior ao limite.
1. Se uma amostra aleatória simples de 20 latas é retirada da produção, qual é a
probabilidade que
a) Nenhuma lata da amostra esteja fora das especificações?
b) Não mais que uma lata da amostra esteja fora das especificações?
2. Qual é o número médio esperado de latas fora de especificação na
amostra?
3. Qual é o tamanho da amostra para que a amostra contenha em média uma la-
ta fora das especificações?
69

Solução: Seja  o peso líquido da lata. Então ~ l20,0.01 .


_ = 0 = † ‡ 0.01
0.99 

= 0.99
= 0.818
0
1.a

_ ≤ 1 = † ‡ 0.01
0.99 

+ † ‡ 0.01 0.99 D
=
0 1
1.b
0.818 + 0.165 = 0.983
2. s = ) = 20 × 0.01 = 0.2
3. 1 = ) = × 0.01 ⇒ = 100

Distribuição Hipergeométrica
No exemplo do lote de peças, se a amostra é retirada sem reposição, então a probabi-
lidade de que uma peça retirada seja defeituosa se altera em cada retirada, pois depende de
que tipo de peça foi retirada anteriormente. Nesse caso, a distribuição binomial não se aplica.
Considere uma coleção de  =  +  objetos, sendo  pertencentes a uma de
duas categorias possíveis e e e (por exemplo, e = %$Ž$&WV8R' e e =
ã8 %$Ž$&WV8R'), e N2 pertencentes à outra categoria. Uma amostra de n objetos é retirada
aleatoriamente sem reposição (com igual chance de seleção em cada retirada). Seja \ o nú-
mero de objetos pertencentes à categoria A1. Então, pode-se mostrar que
 
†
‡†  ‡
_\ = 5 = 5 − 5 , 5 = 1,2, … , ; ≤  ; ≤ 
 
† ‡

e dizemos que \ segue a distribuição Hipergeométrica.

Características da distribuição Hipergeométrica


Pode-se mostrar que:
1) O número esperado de sucessos é igual a ) ou seja, s = );
70

O desvio padrão do número de sucessos é E )1 − )  ; portanto, a


:?
:?
2)

variância é dada por )1 − )  :? .


:?

As distribuições Binomial e Hipergeométrica estão relacionadas. A diferença entre


elas se relaciona ao esquema amostral empregado.
Binomial  Amostragem com reposição
Hipergeométrica  Amostragem sem reposição
Se  e  são grandes comparados a , então é possível mostrar que a distribuição
Hipergeométrica pode ser aproximada pela distribuição Binomial, ou seja, se o lote é grande,
então é irrelevante se a amostragem é feita com reposição ou sem reposição. Em ambos os
casos aplica-se a distribuição Binomial.
Exemplo: Um lote de 10 peças é formado com 2 defeituosas e 8 não defeituosas.
Uma amostra de 5 peças é retirada ao acaso sem reposição.

1. Qual é a probabilidade que na amostra


a) Uma peça seja defeituosa?
b) Pelo menos uma peça seja defeituosa?
2. Qual é o número médio esperado de peças defeituosas na amostra?

Solução: Seja  o número de peças defeituosas na amostra. Temos:


 = 2,  = 8, ) = 0.2, = 5

†‡†‘‡
1.a _ = 1 = 
= 0.55
†
‡
2
71

† ‘

‡†
‡
1.b _ ≥ 1 = 1 − _ = 0 = 1 − = 0.77
†
‡
2

2. s = ) = 5 × 0.2 = 1

Distribuição Multinomial
A distribuição Multinomial é uma extensão da distribuição Binomial quando o núme-
ro de respostas possíveis é maior que 2. Por essa razão o modelo é chamado de Multinomial.
A distribuição Binomial é um caso particular da distribuição Multinomial.
A distribuição Multinomial se aplica nas seguintes situações:
O resultado de cada ensaio pertence a uma de 5 categorias mutuamente ex-
clusivas, denominadas e , e , … , ed .
a)

A probabilidade de um resultado de um ensaio cair na categoria e é


) , & = 1,2, . . . , 5, sendo ∑ ) = 1. As probabilidade ) permanecem constan-
b)

tes para todos os ensaios.


c) Os ensaios são independentes.
Considere que ensaios são realizados nas condições acima e seja  o número de
observações que caem na categoria e . Então:
!
_ = ,  =  , … , d = d = ) C ) “ … )d ”
  
! ! … d! 
onde ∑ ) = 1

O número esperado de observações na categoria e é dado por ) .

A Distribuição Geométrica

cesso constantes e iguais a ). Em vez de fixar o número de ensaios a serem realizados, vamos
Considere novamente a repetição de ensaios de Bernoulli com probabilidades de Su-

vel de interesse  agora é o número de ensaios até que ocorra um sucesso. Os valores possí-
considerar a situação em que realizamos ensaios até que ocorra o primeiro Sucesso. A variá-
72

veis de  são 0,1,2, . .. . Teoricamente poderíamos repetir ensaios um número muito grande de
vezes sem observar nenhum Sucesso. Então dizemos que  pode assumir qualquer valor in-
teiro de 0 a infinito.
É possível mostrar que
_ = 6 = … J? ).

O número esperado de ensaios até que ocorra o primeiro Sucesso é dado por Š.

Eventos raros e a Distribuição de Poisson


A distribuição de Poisson é um modelo probabilístico útil para se aplicar em eventos
que ocorrem ao acaso ao longo do tempo ou do espaço, nos casos em que:
a) a probabilidade de ocorrer um sucesso é muito pequena;
b) o número de repetições do experimento é muito grande:
o que se sabe não é ) = _98r'r&q&%'%$ %$ <VU$RR8, mas o número médio
de ocorrências, ).
c)

Exemplo: A incidência de daltonismo em uma população é 4%. Suponha que


uma amostra de 200 pessoas é examinada. Qual é a probabilidade de que encontremos 5 pes-
soas, ou menos, daltônicas na população?
Nesse caso, = 200 e ) = 0.04. Então, usando a expressão para o cálculo de proba-
bilidade do modelo binomial, temos de calcular:

_ ≤ 5 = _ = 0 + _ = 1 + _ = 2 + _ = 3 + _ = 4 + _ = 5

que pode ser denotada por


2
200 0.04 J 0.96 

?J
_ ≤ 5 = t † ‡
6
J

73

Nesse caso o cálculo da probabilidade é possível, embora seja trabalhoso. Veremos


posteriormente como usar o modelo de Poisson para calcular essa probabilidade de forma
mais fácil.
Exemplo: Contagem de Microorganismos: Eventos podem ocorrer no tempo como

que descreva o número  de microorganismos que existe em um litro de leite cru retirada de
no espaço. Suponha que nós estejamos interessados em encontrar um modelo probabilístico

um reservatório. A unidade de volume é um litro, que pode ser considerado como formado de
um número muito grande de micro- volumes, cada um desses micro- volumes podem conter
ou não um microorganismo. Então, existe um número muito grande (virtualmente infinito) de
micro- volumes, cada um correspondendo à realização de um ensaio de Bernoulli, onde a
ocorrência de Sucesso é encontrar um microorganismo, sendo que a probabilidade de ocorrer
um sucesso é muito baixa.
Os exemplos descritos acima podem ser chamados de eventos raros, porque cada
evento tem uma probabilidade muito baixa de ocorrer no ensaio considerado. Outros eventos
raros são: O número de partículas emitidas por uma fonte radioativa, o número de acidentes
por dia num determinado cruzamento, o número de erros de impressão numa página de um
livro, etc.
A distribuição de Poisson é muito importante e pode ser aplicada em diversas situa-
ções. Uma aplicação interessante na Biologia é em situações em que queremos determinar se
a distribuição de indivíduos no espaço se faz de forma aleatória, ou se existe um padrão de
agrupamento. A distribuição aleatória corresponde ao modelo de Poisson. Se pudermos, por
algum mecanismo, verificar se o modelo de Poisson se aplica, então podemos concluir que o
padrão de agrupamento é aleatório.
Vamos definir o modelo de Poisson através de alguns postulados. Nas situações em
que esses postulados são válidos podemos aplicar o modelo de Poisson.

Definição formal da Distribuição de Poisson


Um evento S ocorre no tempo (ou espaço) obedecendo aos seguintes postulados:
a) Independência: O número de vezes que S ocorre em qualquer intervalo de
tempo é independente do número de ocorrências de S em qualquer outro in-
tervalo de tempo disjunto.
74

b) Falta de agrupamento: A chance de duas ou mais ocorrências de S simultâ-


neas pode ser assumida como sendo zero.

constante, denotada por •, e ela não muda com o tempo.


c) Razão: O número médio de ocorrências de S por unidade de tempo é uma

Seja  o número de ocorrências de S num intervalo de tempo unitário. Se os três pos-


tulados anteriores são válidos, então a distribuição de  é denominada por Distribuição de
Poisson e é definida por:

$ ?– •0
_ =  = ,  = 0, 1, 2, …
!

onde “$” simboliza o exponencial, valendo 2.71828.


O parâmetro • na distribuição de Poisson é o número médio de ocorrências de  num

aproximar a distribuição Binomial, • = ).


intervalo de tempo unitário. Nos casos em que estamos usando a distribuição de Poisson para

Pode-se mostrar que a média e a variância de uma variável com distribuição de Pois-
son é dada pelo parâmetro λ da distribuição, ou seja,
a = • e G'9 = •

aproximada pela distribuição de Poisson. Temos = 200 e ) = 0.04. Então, • = 200 ×


Exemplo: No exemplo dos daltônicos apresentado anteriormente, pode ser

0.04 = 8. Então,
2
$ ?– •0
_ ≤ 5 = t = 0.191
!
0

Tabelas para a distribuição de Poisson estão disponíveis na maioria dos livros de es-
tatística. A maioria dos softwares estatísticos permite calcular diretamente probabilidades as-
sociadas à distribuição de Poisson.
Exemplo
Solução:  tem distribuição _5 .
75

_ = 1 = = 0.034
 —˜ 2C
!
1.a

1.b _ ≥ 2 = 1 − _ ≤ 1 = 1 − 0.04 = 0.96

2 _ = 0 = 0.007 _ = 1 = 0.034 _ = 2 = 0.085


_ = 3 = 0.140 _ = 4 = 0.175 _ = 5 = 0.176
_ = 6 = 0.146 P(X = 7) = 0.105

Portanto, o número mais provável de falhas é 5.


Aproximação da distribuição Binomial pela distribuição de Poisson
Quando é grande e ) é pequeno, a distribuição Binomial pode ser aproximada pela
distribuição de Poisson com • = ), ou seja,
$ ?Š  ) 0
_ = 5 = † ‡ )d 1 − ) d

5 !
Exemplo Considere o exemplo do leite em pó enlatado com dosador discutido ante-
riormente. Considere que o lote é formado por 10.000 latas e que o processo de enlatar é tal
que a probabilidade que uma lata esteja sem dosador é 0.0005. Qual é a probabilidade que em
um lote uma lata esteja sem o dosador? Temos:
10.000
_ = 1 = † ‡ 0.0005 0.9995D.DDD = 0.03366
5
Compare esse valor com a probabilidade calculada através da distribuição de Pois-
son.
• = ) = 10.000 × 0.0005 = 5
$ ?2 5
_ = 1 = = 0.03369
1!

Distribuições de Variáveis Aleatórias Contínuas

Função Densidade de Probabilidade


76

Variáveis aleatórias contínuas surgem quando lidamos com quantidades que são me-
didas numa escala contínua, como por exemplo o tempo de vida de um equipamento, o volu-
me de um produto, o nível de umidade de um composto, a taxa de colesterol, etc. Como já
dissemos anteriormente, uma escala contínua é um modelo conveniente em muitas situações,
embora qualquer medida seja feita numa escala discreta devido às limitações do instrumento
de medida.

res { , _ }, e isso é tudo que precisamos saber para caracterizar a distribuição de probabi-
Quando a variável aleatória é discreta, representamos a distribuição pelo par de valo-

lidades.
Se dispusermos de uma amostra de uma característica de qualidade, o peso de barras
de chocolate produzidas, por exemplo, e construirmos um histograma da frequência relativa,
então, se quisermos estimar a proporção de barras de chocolate produzidas que tem peso infe-
rior a certo valor especificado x, basta calcularmos a área do histograma à esquerda do ponto
x0, como exemplificado na figura abaixo.

A medida que o tamanho da amostra aumenta, podemos construir intervalos de classe


com amplitude cada vez menor. O histograma se torna mais suavizado, de tal forma que po-
demos representar o histograma por uma curva contínua. Com o aumento do tamanho da
amostra nós também nos aproximamos da população. Então, usamos uma curva contínua pa-
77

ra representar a distribuição de uma característica contínua de uma população, como é mos-


trado na figura abaixo.

Da mesma forma que a área do histograma sob um intervalo mede a freqüência rela-
tiva ou proporção de valores da amostra que caem naquele intervalo, a área da curva sob um
intervalo mede a probabilidade de que um indivíduo sorteado ao acaso tenha como medida
um valor dentro do intervalo considerado.

probabilidade (fdp) e é representada por Ž . A probabilidade que um valor esteja dentro
A curva contínua que representa a distribuição é chamada de função densidade de

do intervalo ', r é representada por _' <  < r e é calculado como


œ
_' <  < r = › Ž %
M

O símbolo de integral substitui, no caso de variáveis contínuas, o símbolo de somató-

se conhece Ž , se resume no cálculo de uma integral definida. Esse problema não vai exis-
rio usado no caso de variáveis discretas. A dificuldade no cálculo de probabilidade, dado que

tir na maioria dos casos, pois estudaremos algumas distribuições contínuas que são as mais
importante e mais utilizadas, e para as quais essas integrais se encontram tabeladas.
A função densidade de probabilidades Ž é uma curva que descreve a distribuição
de probabilidades de uma variável aleatória contínua e possui as seguintes propriedades:
78

1) Ž ≥ 0 ∀ ;
2) A área sob a curva definida por Ž é igual a 1
3) P' ≤  ≤ r = área sob a curva entre os pontos a e b.

Atente para o fato de que Ž não é a probabilidade de que a variável aleatória  se-
ja igual a , ou seja, Ž ≠ _ =  . Se X é uma variável aleatória contínua, então
_ =  = 0 qualquer que seja !

Função Distribuição Acumulada (FDA)


Se X é uma variável contínua e definimos „ = _ ≤  , então é fácil verificar
que „ é uma função de  com as seguintes propriedades

1) „ é uma função não decrescente de x


2) „−∞ = 0
3) „∞ = 1

Obs: Por „∞ e por „−∞ queremos simbolizar o limite de quando  cresce para
∞e decresce para −∞ respectivamente.
„ é chamada de Função Distribuição Acumulada (FDA), e sua forma geral é dada
por:
79

Função Distribuição Acumulada


1.0

0.8
P(X<x)

0.6
p

0.4

0.2

0.0
-3.50 -1.75 0.00 x 1.75 3.50
X

Exemplo: Na figura a seguir:

A probabilidade de que y seja menor que algum valor Z


, representada por
_Z < Z
, será igual a área sob o histograma, a esquerda de Z
( para ilus-
1.

trar, com Z
igual a 60 no diagrama abaixo, _ Z < 60 = 0.361, igual à
área no histograma, anterior à região pintada).
A probabilidade _Z > Z
,de que y seja maior que Z
, será igual a área
sob o histograma à direita de Z
(fazendo Z
= 70, corresponde à área após
2.

a região pintada).
A probabilidade _Z
< Z < Z , de que Z seja maior que Z
, mas menor
que y1, será igual a área sob o histograma entre Z
e Z . A área pintada na fi-
3.

gura anterior é igual a 0.545, para Z


= 60 e Z = 70. Então, _60 <
Z < 70 = 0.545.
80

Uma variável aleatória contínua , em geral, também tem uma média e uma variân-
cia com o mesmo significado e as mesmas interpretações discutidas anteriormente para o ca-
so discreto, mas o seu cálculo envolve integrais e não serão objeto de nosso trabalho aqui. Pa-
ra as distribuições que estudaremos aqui, a média e a variância serão fornecidas em cada ca-
so.

A Distribuição Normal
Dentre as muitas distribuições contínuas usadas em estatística, a mais importante é a
Distribuição Normal ou Gaussiana. Ela tem a forma de um sino e está associada com os no-
mes de Pierre Laplace e Carl Gauss. Seu estudo remonta ao século XVIII. Gauss derivou a
curva normal como sendo a distribuição que ocorre quando a variável analisada provém de
erros de medida e chamou-a de "Lei normal dos erros". Posteriormente, cientistas e analistas
de dados nas mais diversas áreas de atuação, ao fazer gráficos dos dados que estavam anali-
sando na forma de um histograma, encontravam uma forma que se aproximava da forma da
distribuição normal. Nos primórdios de seu uso, muitos acreditavam que todas as observa-
ções de processos reais deveriam seguir a lei gaussiana; daí a origem do nome normal. Quan-
do isso não acontecia, suspeitava-se dos dados. Posteriormente, observou-se que em muitas
situações a distribuição não seguia a forma da normal.
A aparência desta distribuição é mostrada a seguir:
81

Razões para a importância da Distribuição Normal


Dois fatos explicam a importância da distribuição normal:
1. O "efeito central do limite"
2. A robustez ou insensibilidade dos procedimentos estatísticos mais comumen-
te usados a desvios da suposição de distribuição normal.

O Efeito Central do Limite


As distribuições dos erros tendem a ser aproximadamente normais. Tal tendência é
esperada, segundo um teorema em probabilidade chamado Teorema Central do Limite.
Normalmente, um erro "total" ε é um agregado de um número grande de componen-
tes. Tipicamente, por exemplo, uma medida da produção obtida por uma rodada experimental
estará sujeito a erros analíticos, erros de amostragem e erros do processo. Erros do processo
podem ser produzidos pelos erros no ajuste das condições experimentais, erros devido a vari-
ações na matéria prima, etc.

ros,   ,   , … ,  . . Se a porcentagem individual de contribuição dos erros é relativamente pe-


Desta forma, o erro total ε será uma função dos muitos componentes dos

quena, é possível aproximar o erro total, em um conjunto específico de condições, como uma
função linear dos seus componentes, distribuídos independentemente:
82

  = '   + '   + ⋯ '  


onde os '′R são constantes.
O teorema central do limite diz que, sob certas condições, normalmente encontradas
no mundo real das experimentações, a distribuição de tal combinação linear dos erros tenderá
a normalidade quando o número de componentes torna-se grande, independentemente das
distribuições dos diversos componentes. Uma condição importante é que várias fontes de erro
devem contribuir para o erro total e, em particular, que nenhuma fonte simples de erro domi-
nará todo o resto.

Ilustração: Tendência Central do Limite para Médias


As figuras a seguir apresentam os escores de um jogo de dados não viciados. Consi-
derando que um dado tenha seis lados, ao jogá-lo um determinado número de vezes obtemos
uma distribuição para os resultados dado em (a). Observe que todas as 6 faces do dado têm a

res, 1, 2, 3, 4, 5, 6, será s = 3.5.


mesma probabilidade, representada pelo comprimento das barras. A média de todos os esco-

Suponha agora, que joguemos dois dados. A distribuição da média dos dois escores
obtidos é dada em (b). Na figura (c), (d) e (e) são apresentadas as distribuições das médias
dos escores ao jogarmos 3, 5 e 10 dados.
Na equação acima,   ,   , … ,  . , representam os resultados obtidos no lançamento de
dados e ' = ' = ⋯ = ' . Note que a distribuição original das observações individuais

dias podem ser aproximadas pelas ordenadas da distribuição normal, mesmo para tão pe-
está muito longe de ter a forma da normal. Contudo, as ordenadas da distribuição para as mé-

queno quanto = 5. (A distribuição dos resultados de um dado são, necessariamente, dis-


creta, enquanto que a aproximação é feita por uma distribuição normal, contínua).

Procedimentos Robustos Derivados da suposição de Normali-


dade
Muitas técnicas estatísticas são derivadas da suposição de normalidade das observa-
ções originais. Em muitos casos, aproximação, em vez de normalidade exata, é tudo que se
requer para que estes métodos sejam aplicáveis. Considerando isto, eles são ditos robustos à
83

não-normalidade. Desta forma, a menos que seja especificamente alertado, não se deve ter
excessiva preocupação acerca de normalidade exata.
Figura 1 - Distribuição das Médias de um, dois três e cinco dados

Caracterizando a Distribuição Normal


Uma vez que a média µ e o desvio padrão σ de uma distribuição normal são dadas, a
distribuição inteira estará caracterizada. A notação N(µ,σ) é freqüentemente usada para indi-
car uma distribuição normal tendo média µ e desvio padrão σ. Muitos livros adotam a nota-
ção N(µ,σ2)
Uma distribuição Normal tem função densidade dada por

1 1 (x - µ )2
f(x) = e
-
2 σ2 - ∞< x< ∞ - ∞< µ < ∞ σ >0
2Π σ 2

Algumas probabilidades básicas, e que são úteis para se fazer análises rápidas com

com amplitudes que dependem de u. Se  tem distribuição s, u  , então:


dados com distribuição normal, são apresentados em termos de intervalos em torno da média,
84

_s − u <  < s + u = 0.683


_s − 2 × u <  < s + 2 × u = 0.954
_s − 3 × u <  < s + 3 × u = 0.997
Essas probabilidades são válidas qualquer que seja a distribuição normal e estão re-
presentadas na figura abaixo.

Cálculo de probabilidades com a distribuição Normal


O cálculo direto de probabilidades envolvendo a distribuição normal é trabalhoso,

Para a distribuição Normal com média zero e desvio padrão 1, 0,1 , essas probabilidades
pois envolve o cálculo de integrais que devem ser resolvidas por procedimentos numéricos.

encontram-se tabeladas. Essa tabela está disponível em qualquer livro texto de Estatística. A

associadas à distribuição Normal. A distribuição 0,1 é denominada de Distribuição Nor-


maioria dos softwares estatísticos dispõe de função programada para calcular probabilidades

mal Padrão. Denotamos a Normal padrão pela letra ¢.


Por exemplo, se quisermos calcular _¢ < 1.5 , basta consultar a tabela da 0,1 e
encontrar o valor 0.9332 para essa probabilidade.
85

Distribuição N(0,1)
0.5

0.4

0.3
Prob

0.2

0.9332
0.1

0
-3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
Z

Cálculo de probabilidades com a £¤¥, ¦§ ¨

vendo uma variável ~s, u  em termos de probabilidades envolvendo a variável


É possível, mediante uma transformação simples, expressar probabilidades envol-

¢~ 0,1 . Com isso, podemos calcular qualquer probabilidade envolvendo distribuições


normais a partir da tabela da 0,1 .

Observe que se ~s, u  , então


@?O
N
tem média 0 e desvio padrão 1, pois

−s 1 1 1
a© ª = a − s = a − s = s − s = 0
u u u u
−s 1 1 u
G© ª =  G − s =  G =  = 1
u u u u

Pode-se mostrar também que se  tem distribuição Normal, então « =


@?O
N
também
segue a distribuição Normal. Então,
−s
«= ~0,1
u
Então, se quisermos calcular _ < r fazemos:

_ < r = _ < = _¢ < «


, «
=
@?O r−s œ?O
N u N
86

e procuramos na tabela da 0,1 o valor «


= para encontrar a _ < r .
œ?O
N

Exemplo: As notas atribuídas em um teste seguem uma distribuição normal


com média 14 e desvio padrão 2. Se as pessoas que tem menor ou igual a 11 são reprovadas,
qual é a porcentagem de pessoas reprovadas?
Temos:
 − 14 11 − 14
_ < 11 = _ ¬ < ­ = _¢ < −1.5 = 0.0668
2 2

ou seja, 6.8% das pessoas serão reprovadas.


Exemplo: Uma máquina enlata leite evaporado. O peso líquido de cada lata tem dis-
tribuição normal com média 273,3 g e desvio padrão 3,9 g. Se o limite inferior de especifica-
ção é 264,3 g, qual é a porcentagem de latas que são produzidas fora de especificação?
 − 273,3 264,3 − 273,3
_ < 264,3 = _ © < ª = _¢ < 2,3 = 0.01
3,9 3,9
A seguir, apresentamos alguns exemplos de distribuições normais e suas formas.
Figura - Exemplos de Distribuições Normais
87

Assim, a expressão 30,5 identifica uma distribuição normal com uma média de
s = 30 e desvio padrão u = 5.
Soma de variáveis aleatórias Normais
O seguinte resultado é útil quando temos de trabalhar com a soma de duas ou mais
variáveis aleatórias Normais.

Se  ~ s , u ) , i=1,2,...,n são variáveis aleatórias independentes então

t  ~ †t s , t u ‡

ou seja, a soma de variáveis Normais também tem distribuição Normal.


Exemplo O peso bruto de um produto é a soma do peso líquido mais o peso da em-
balagem. Suponha que a máquina que embala o produto é tal que o peso líquido colocado na
embalagem tem distribuição Normal com média igual a 300 g e desvio padrão igual a 2 gra-
mas. O peso da embalagem tem distribuição Normal com média igual a 5 g e desvio padrão
igual a 0.5 g.
88

a) Qual é a distribuição do peso bruto do produto?


b) Qual dos dois processos é mais preciso?
Solução:
Seja  o peso líquido do produto e \ o peso da embalagem. Então
~300; 4 e \~5; 0,25 . O peso bruto é dado por ¢ =  + \. En-
a)

tão, ¢~305; 4,25 .


b) FG@ = 2/300 = 0.0067
FG® = 0.5/5 = 0.1
Portanto, o processo de embalagem é mais preciso.

A aproximação da distribuição Binomial pela distribuição Nor-


mal
A distribuição Normal pode ser usada para aproximar a distribuição Binomial. Essa
aproximação é tão mais acurada quanto maior for o valor de n e quanto mais próximo de 0.5
estiver o valor de p.
Se  é uma variável aleatória com distribuição l& 86&'q , ) , temos que s = ) e
u = )1 − ) . Se fizermos


 − )
¢=
] )1 − )
então ¢ tem distribuição aproximadamente Normal com média 0 e variância 1. Esse
resultado é uma aplicação do Teorema Central do Limite exposto anteriormente.
Exemplo Se 20% das peças produzidas por uma máquina forem defeituosas, qual é
a probabilidade que em uma amostra aleatória de 100 peças não mais que 15 serão defeituo-
sas.
a) usando a distribuição Binomial
2
100 0.2 J 0.8
?J
_ ≤ 15 = t † ‡ = 0.1285
6
J

b) usando a distribuição Normal


89

s = ) = 100 × 0,2 = 20 u  = )1 − ) = 100 × 0,2 × 0,8 = 16


então,
 − 20 15 − 20
_ ≤ 15 = _ © < ª = _¢ < 1,25 = 0,1056
4 4
O uso desse tipo de aproximação se justificava antigamente pela dificuldade de cal-
cular probabilidades com a distribuição Binomial. Hoje, com a disponibilidade de softwares
que calculam probabilidades da distribuição Binomial diretamente não há necessidade do uso
dessa aproximação.

Checando se os dados seguem uma distribuição Normal


Em muitas situações, quando coletamos uma amostra e medimos uma característica
nos elementos da amostra, queremos verificar se a suposição de que as medidas obtidas tem
distribuição Normal é plausível.
Embora existam procedimentos estatísticos formais para testar essa suposição, é
muito comum hoje em dia verificar se é razoável supor distribuição Normal através de proce-
dimentos gráficos .Embora esses procedimentos contemplem uma certa dose de subjetividade
no julgamento, é possível detectar desvios com respeito à distribuição Normal que possam
comprometer a análise.
Um desses procedimentos é o gráfico probabilístico normal . Os dados da amostra
são ordenados e plotados contra os escores normais num gráfico chamado de gráfico proba-
bilístico normal. Os escores normais são calculados de tal forma que se os dados seguem
uma distribuição Normal, então o gráfico resultante será aproximadamente uma reta.
Mesmo que a amostra tenha sido obtida a partir de uma distribuição Normal, os da-
dos graficados contra os escores normais não se alinharão exatamente de acordo com uma re-
ta devido às flutuações amostrais. O que se procura observar nesse gráfico são desvios anor-
mais em relação a uma reta, o que indicaria que a suposição de que a distribuição Normal se
aplica aos dados não é razoável.
Exemplo A tabela abaixo apresenta uma amostra
a) de 30 valores de uma distribuição 0,1 .
b) de 30 valores de uma distribuição Lognormal.
90

X Y

----------------------

-1,6245 0,1970

0,4001 1,4920

-1,6631 0,1895

-0,0024 0,9976

-1,9902 0,1367

0,4476 1,5646

-1,0564 0,3477

1,6507 5,2104

-0,6148 0,5408

-0,3855 0,6801

-0,6469 0,5237

0,6744 1,9629

-0,6713 0,5110

1,2229 3,3969

-0,4550 0,6344

-0,4050 0,6670

-1,0347 0,3553

0,0776 1,0806

-0,1372 0,8718

-1,6101 0,1999

-0,1330 0,8754

0,7742 2,1689

0,0685 1,0709
91
X Y
13 28
12 26

11 24

10 22
20
9
18
8
16
No of obs

No of obs
7
14
6
12
5
10
4
8
3 6
2 4
1 2
0 0
-3 -2 -1 0 1 2 3 -2 0 2 4 6 8 10 12
Upper Boundaries (x <= boundary) Upper Boundaries (x <= boundary)

-1,0885 0,3367
Box & Whisker Plot
0,5012 1,6507 12

0,2120 1,2362 10

8
2,3542 10,5300
6
0,9572 2,6044
4
-0,4615 0,6303
2

1,8076 6,0957
0

-2
Y

Os gráficos abaixo apresentam o histograma, o Box-plot e o gráfico probabilístico


normal para cada uma das amostras. Observe o comportamento do gráfico probabilístico
quando a amostra segue a distribuição Normal (praticamente uma reta) e quando a amostra
não segue a distribuição normal. A forte assimetria de Y pode ser notada no histograma e no
Box-plot.
O uso do gráfico normal para verificar a suposição de normalidade é bastante facili-
tado pelos recursos dos softwares disponíveis.
A análise do gráfico probabilístico normal exige certa experiência acumulada. Essa
experiência pode ser acelerada através da simulação de diversas distribuições diferentes utili-
zando o computador, e da verificação do comportamento dos respectivos gráficos normais.
92

A Distribuição t de Student

Nas discussões acima, supomos que o desvio padrão, u, era conhecido. Na prática, é
comum não se conhecer u. Temos então que substituí-lo pelo valor s da amostra. Desde que
u não é conhecido, não podemos calcular «
=
[¯ ?O
N
e usarmos a distribuição normal pa-
drão. Em vez disto, ao substituirmos u por R,

Z
− s
poderemos calcular

W=
Box & Whisker Plot

R
3,5

2,5

W=
[¯ ?O
1,5 Com base em certas suposições,

}
0,5
tem uma distribuição conhecida. Es-

buição W de Student. Sua forma é definida pe-


-0,5
ta importante distribuição é chamada distri-

padrão da amostra, R.
lo número de graus de liberdade do desvio
-1,5

-2,5
X

Normal Probability Plot


X Normal Probability Plot
2,5 Y
2,5

1,5
1,5
Expected Normal Value

Expected Normal Value

0,5
0,5

-0,5
-0,5

-1,5
-1,5

-2,5
-2,5 -1,5 -0,5 0,5 1,5

A forma precisa da distribuição W


-2,5
Value -2 0 2 4 6 8
Value

depende do grau de incerteza em R  , que é medido pelo número de graus de liberdade, °, no


qual a estatística R  está baseada. Quando ° = ∞, isto é, quando o tamanho da amostra é in-
finito, não existe incerteza na estimativa de R  , e a distribuição W transforma-se na distribui-
ção normal padrão de «.
93

Quando o número de graus de liberdade é pequeno, a possibilidade de variação em R 


resulta em uma grande probabilidade de desvios nos extremos e portanto em uma distribuição
com caudas mais pesadas.

razoável aproximação da distribuição W quando ° é maior que aproximadamente 15.


Exceto nos extremos das caudas da distribuição, a distribuição normal produz uma

Suposições para validade da Distribuição ±

A quantidade W = tem uma distribuição W com ° graus de liberdade se:


[¯ ?O
}

1. Z tem distribuição normal com média s e desvio padrão u.


2. R é distribuída independentemente de Z.
3. a quantidade R  , com ° graus de liberdade, é calculada de observações inde-
pendentes e normalmente distribuídas com variânciau  .
Figura - Algumas Distribuições t de Student
94

A distribuição W de Student tem importantes aplicações no estudo de testes de hipóte-


se e intervalos de confiança para médias populacionais. Esses temas serão tratados posterior-
mente.
95

Capítulo 4. Estimação e distribuições amos-


trais

População e Amostra
Quando coletamos dados para estudar um determinado problema, temos como objetivo o
conhecimento de uma certa realidade. Se uma empresa de pesquisa de opinião pública sai a
campo para fazer uma pesquisa eleitoral, o objetivo é saber como os eleitores se comportam
com respeito aos candidatos, partidos, etc. Quando anotamos a quantidade de litros consu-
midos e o total de quilômetros rodados por um carro, queremos saber sobre o desempenho
do carro com respeito ao consumo. Quando variamos a temperatura e a pressão de um reator
químico e medimos o rendimento em cada set-up, queremos saber como o rendimento de-
pende da temperatura e da pressão.

Existe uma infinidade de situações que poderiam ser listadas aqui. Uma questão importante
a ser levantada é: Como nós deveríamos proceder para obter informações que sejam relevan-
tes para um determinado problema? Obviamente o assunto é vasto e não vamos tratá-lo aqui
em detalhes. Queremos chamar a atenção para alguns aspectos que devem ser considerados
quando nos propomos a coletar e analisar dados, ou mesmo quando examinamos dados cole-
tados e analisados por outras pessoas.

Existem três formas principais de se obter dados: amostragem e censo; estudos observacio-
nais ou dados históricos e; experimentos controlados.

Amostragem e censo
Amostragem é um processo em que indivíduos de uma população são selecionados e nos
quais são realizadas medidas ou observações. O censo envolve a observação ou medida de
todos os indivíduos da população. Quatro aspectos principais estão presentes nesse processo:
96

a) A definição de variáveis de interesse e a forma de medi-las;

b) A definição da população e a forma de amostrá-la;

c) A realização da amostragem, ou censo, e o cálculo de quantidades ou relações entre


as variáveis;

d) A inferência sobre a população (no caso de uma amostra), a partir dos resultados da
amostra.

As questões b, c e d são as mais envolventes do ponto de vista da Estatística. Técnicas de


amostragem serão objeto de estudos mais à diante. Na sumariação dos dados e no cálculo de
estatísticas de interesse são usadas as técnicas de estatística descritiva já descritas anterior-
mente. O processo inferencial será discutido mais à diante.

Estaremos interessados aqui em situações onde a amostragem é probabilística. Por amostra-


gem probabilística queremos dizer que os indivíduos são selecionados da população com
probabilidades conhecidas.

Uma questão fundamental é a definição da população de interesse. Ela é chamada de popu-


lação objetivo. Em muitos casos, a definição de quem faz parte da população não é fácil de
ser feita. Se você for convidado a fazer parte de uma equipe que realizará uma pesquisa com
os desempregados do estado de São Paulo, como você define quem faz parte dessa popula-
ção?

Definida a população, se o tamanho da mesma for muito grande, pode ser muito difícil, ou
muito caro, realizar medidas em todos os indivíduos. Essa é uma das razões que levou ao de-
senvolvimento de todo um conjunto de técnicas para se medir os indivíduos de apenas uma
parte da população, que chamamos de amostra. Uma outra razão para se usar amostragem é
a precisão da informação. Medir implica em gasto de tempo e de dinheiro. Quando realiza-
mos medidas, estão envolvidos erros de natureza estatística e não-estatística. Os erros de na-
tureza não-estatística podem ser minimizados se um cuidado maior for tomado pelo respon-
sável pela medida. Se medimos uma grande quantidade de indivíduos, esse cuidado extra
97

pode não ser viável, o que faz com que esses erros se acumulem e tornem os resultados de
pouca utilidade. Se temos de medir uma quantidade menor de indivíduos, como é feito nu-
ma amostra, as medidas podem ser feitas com mais cuidados, e o resultado final é mais preci-
so.

Outro fato que merece ser mencionado é que a precisão dos resultados obtidos através de
uma amostra não dependem, necessariamente, da proporção do tamanho da amostra em re-
lação ao tamanho da população, ou seja, o fato da população ser muito grande não implica
que o tamanho da amostra tenha que ser proporcionalmente grande para que obtenha boa
precisão nos resultados.

Os objetivos de uma amostragem ou censo são:

1. Responder questões específicas sobre a população;

2. Fornecer informações sobre inter-relações entre as variáveis na população e fornecer


dicas sobre possíveis relações causais;

3. Fornecer uma base para comparações com medidas futuras;

4. Medir mudanças através de uma sequência de amostragens ou censos.

Estudos Observacionais ou Dados Históricos


Estudos observacionais são aqueles em que coletamos dados da forma em que estão disponí-
veis, e procuramos estabelecer conclusões a partir deles. Nesses casos a população sob estudo
tem uma definição geográfica ou circunstancial. Por exemplo, ao estudar a criminalidade na
cidade de São Paulo, investigamos os arquivos policiais e coletamos as informações que nos
interessam. Nesse tipo de estudo não há um controle sobre os fatores que afetam as variáveis
em estudo e nem é possível estabelecer um plano amostral (embora possamos amostrar os
arquivos se a quantidade de informações for muito grande para ser totalmente coletada).

Esse tipo de estudo ocorre com frequência na indústria quando utilizamos registros de pro-
dução. Hoje., com os modernos métodos de coletas de dados e com as possibilidades de ar-
98

mazenamento e processamento dessas informações em meio computacional, é possível dis-


ponibilizar e analisar dados de processo praticamente on-line.

A definição da população de interesse não é uma tarefa simples. Nesse tipo de estudo é ne-
cessário quase sempre a utilização de modelagem. Grandes avanços do conhecimento são fei-
tos através de estudos observacionais, e um bom exemplo disso é a Física, e em particular a
Astronomia.

Experimentos Controlados
Em experimentos controlados, fatores que potencialmente afetam uma determinada resposta
são variados de uma forma controlada, e o efeito dessas mudanças são avaliados. Existem
técnicas apropriadas para a montagem do plano experimental. Esse tipo de experimento é
amplamente utilizado em vários ramos da ciência e na indústria. Questões inferenciais são
críticas nesse tipo de estudo, visto que:

1. A população de interesse pode não estar claramente definida;

2. A população de interesse, embora definida, é hipotética e só se realiza num tempo in-


finito.

Em experimentos controlados, geralmente fazemos a alocação aleatória dos indivíduos (cha-


mados tecnicamente de unidades experimentais) aos tratamentos. Exemplos de experimentos
controlados:

1. Estudar o efeito de alguns fatores, tais como temperatura e pressão, no rendimento


de um processo.

2. Estudar o efeito de diferentes drogas na redução do colesterol.

A maior diferença entre os estudos observacionais de um lado, e os experimentos controla-


dos e a amostragem do outro, é a utilização do processo de aleatorização, ou mecanismos de
chance, na escolha dos indivíduos que pertencem à amostra ou na alocação dos indivíduos
aos tratamentos. Dados históricos não envolvem aleatorização. O uso da aleatorização permi-
99

te o estabelecimento de significância estatística para os resultados sem necessidade, em geral,


de se estabelecer suposições externas aos dados. A análise de dados históricos envolve, em
geral, a utilização de modelos.

Em todas as situações descritas acima, dois elementos são fundamentais: População e Amos-
tra.

População
População, de uma forma bastante ampla, é a coleção de todas as observações que conceitu-
almente podem ocorrer como resultado de se realizar uma particular medida em indivíduos,
processo de produção, produtos, etc.. Poderíamos considerar a população levando em conta
os indivíduos, ou elementos, sobre os quais as medidas são realizadas. Não faremos distinção
aqui entre as duas situações.

De uma forma geral, população é o conjunto de elementos de interesse para um determinado estudo.
Uma população é finita se é constituída de um número finito de elementos. Uma população é
infinita se é constituída de um número infinito de elementos. Em geral, populações infinitas
se referem a um processo sobre o qual realizamos medidas. Para que o processo gere uma
população é necessário que o processo esteja estatisticamente estável e operando sobre as
mesmas condições.

Um indivíduo pertencente a uma população gera as observações, de acordo com as variáveis


de interesse. Numa pesquisa eleitoral majoritária, a população é formada por todos os indi-
víduos aptos a votar. As observações que cada eleitor gera depende do questionário elabora-
do. Num experimento controlado para se verificar o efeito do ângulo de corte e do tipo de
material de uma serra no diâmetro final de uma peça, a população é formada por todas as
peças que seriam produzidas sob essas condições, ou pelas medidas geradas por essas peças.

Amostra
100

Amostra é também uma coleção de valores, mas de apenas uma parte da população. Amos-
tras podem ser retiradas de forma intencional ou de forma aleatória.

Uma amostra é aleatória quando, em princípio, cada elemento da população tem uma pro-
babilidade conhecida de pertencer à amostra.

Uma amostra que é retirada baseada em um julgamento de quem deve fazer parte da amos-
tra é uma amostra intencional.

A vantagem de se realizar uma amostragem aleatória ou probabilística é que podemos usar


as ferramentas da probabilidade e da estatística para estabelecer a precisão das estatísticas
calculadas. Estabelecer a precisão das estatísticas calculadas é de suma importância em qual-
quer trabalho de investigação. Suponha que você é produtor de suco de laranja para exporta-
ção. Uma informação de alto valor econômico é a quantidade de pés de laranja plantados
numa determinada região citrícola. Você contrata um técnico para fazer essa estimativa, e ele,
usando técnicas amostrais, retorna com a informação que existem 20.000.000 de pés de laran-
ja plantados. O que você faz com essa informação? Possivelmente pouca coisa se você não
souber a precisão dessa estimativa. Se a precisão dessa estimativa é de ±15.000.000 de pés, en-
tão a estimativa é de pouca utilidade. Por outro lado, se a precisão é de ±1.000.000 a informa-
ção é relevante.

Como calcular a precisão de uma estimativa? Isso só é possível se for utilizada amostragem
aleatória ou probabilística.

Erros amostrais e não amostrais


O processo de projetar um plano amostral e de executá-lo está sujeito a erros. Devemos dis-
tinguir entre dois tipos de erros que afetam esses processos: erros amostrais e erros não amos-
trais.

Erro amostral é a diferença entre o resultado obtido na amostra e o resultado que seria obtido
pela observação de toda a população utilizando-se os mesmos procedimentos. Erros amos-
101

trais podem ser controlados e minimizados através da escolha do plano amostral. Por exem-
plo, se o objetivo é estimar a renda média por família de uma população podemos selecionar
ao acaso n famílias da população e calcular a renda média das famílias da amostra. Essa es-
timativa tem uma certa precisão. Se estratificarmos a população por região geográfica e reti-
rarmos amostras por estrato, provavelmente a precisão da estimativa com o novo plano será
maior e o erro amostral menor.

Erros não amostrais surgem, por exemplo, quando utilizamos método não adequado para
medir a resposta (instrumento não calibrado, por exemplo), quando um pesquisador preen-
che incorretamente os questionários, quando pessoas que fazem parte da amostra se recusam
a responder, etc.

Amostragem Aleatória Simples


Existem muitas possibilidades de se selecionar uma amostra aleatória. O plano mais simples
estruturalmente é conhecido como amostragem aleatória simples. A sua definição depende da
população ser finita ou infinita.

População finita: Uma amostra aleatória simples de tamanho n de uma população finita é
aquela em que cada subconjunto de n elementos da população tem a mesma chance de ser se-
lecionada. Quando retiramos uma amostra sem reposição onde cada elemento restante na
população tem a mesma chance de ser selecionado, a amostra resultante satisfaz a condição
de ser amostra aleatória simples. Para que possa retirar uma amostra aleatória simples de
uma população finita é necessário que se tenha à disposição uma lista com todos os elemen-
tos da população.

População infinita: Quando a população é infinita, não é possível listar todos os elementos e
sortear uma amostra. População infinita é, em muitas situações, um modelo conceitual. Por
exemplo, se um processo produz leite tipo A e amostramos unidades de volume para medir
uma característica de qualidade X do leite, a população é formada por todas as unidades de
102

volume produzidas ou que venham a ser produzidas nas mesmas condições. É conveniente
modelar a quantidade X através de uma variável aleatória com uma certa distribuição.

Se retirarmos uma amostra de tamanho n e denotarmos por { ,  , … ,  } essa amostra, en-


tão { ,  , … ,  } é uma amostra aleatória simples se:

1. As variáveis aleatórias  ,  , … ,  são estatisticamente independentes

2.  ,  , … ,  tem a mesma distribuição de probabilidade.

Observe que a condição 2 requer que o processo esteja sob controle estatístico. A condição 1 é
mais difícil de ser verificada.

Se de um processo com população infinita formamos lotes, então esses lotes formam uma
população finita. Por exemplo, o leite produzido é envasado em caixas de 1 litro. Um dia de
produção, por exemplo, forma um lote cujas unidades são caixas de um litro.

Procedimentos gráficos para verificar a condição de


amostra aleatória simples
Alguns procedimentos gráficos simples podem (e devem) ser utilizados para verificar se há
evidência de que as suposições de amostra aleatória simples não estão sendo satisfeitas pela
amostra. Esses procedimentos aplicam-se principalmente quando a amostra é retirada se-
quencialmente, situação que é muito comum quando estamos amostrando um processo de
produção.

Gráficos das observações versus a sequência: Se o gráfico apresenta tendência ou


alteração de variabilidade significativas ao longo do tempo, então a suposição de que os va-
lores amostrais tem mesma distribuição é violada. Se o gráfico apresenta uma dispersão alea-
tória em torno de um valor constante não há evidência de que as suposições de independên-
cia e mesma distribuição estejam sendo violadas.
103

Exemplo Considere novamente os dados referentes à produção de barras de chocolate. O


gráfico das medidas contra a sequência em que foram obtidas é:

Gráfico do Peso*Tempo
172

171.6

171.2
PESO (grama)

170.8

170.4

170

169.6

169.2
8 9 10 11 12 13 14 15 16
TEMPO

Pode-se notar no gráfico que há uma tendência de aumento das medidas com o tempo. Por-
tanto, a amostra não provêm de uma mesma população.

Histograma da amostra O histograma dos valores amostrais não devem apresentar


mais que uma moda significativa. Caso o histograma tenha duas ou mais modas deve-se des-
confiar de que a amostra é proveniente de duas ou mais distribuições.

Exemplo O gráfico abaixo apresenta um histograma bimodal, indicando que os dados que
geraram o histograma provêm de duas distribuições.
104

Histograma
26
24
22
20
18
16
No of obs

14
12
10
8
6
4
2
0

Gráficos de dispersão: O gráfico dos pares  , 3 não deve apresentar nenhuma tendên-
cia. Caso contrário, suspeita-se de que a suposição de independência não está sendo satisfei-
ta.

Outros procedimentos formais podem ser aplicados. Esses procedimentos serão discutidos
posteriormente.

Parâmetros e Estatísticas
Outra diferença entre população e amostra reside na forma com que nos referimos às quanti-
dades que são calculadas. Quando as quantidades são calculadas usando a população cha-
mamos essas quantidades de parâmetros. Quando são calculadas na amostra chamamos de es-
tatísticas. Por exemplo, suponha que você calcule a média aritmética de um conjunto de da-
dos. Se o conjunto de dados é formado por todos os elementos da população, então o que te-
mos é um parâmetro que é a média populacional. Se o conjunto de dados é obtido de uma
amostra temos uma estatística que é a média amostral. Em geral usamos letras gregas quando
nos referimos a parâmetros populacionais. Por exemplo, usamos a letra s para média popu-
lacional e σ para desvio padrão populacional.
105

Se medimos uma característica X nos elementos de uma população finita com  elementos,
podemos representar todos os valores por  ,  , … , : , onde  é o valor de  no i-ésimo
elemento da população. Então,

s=
∑²
1BC @1
:
é a média populacional e

u=E

1BC01 ?@
∑²
:
é o desvio padrão populacional.

Se a população tem um número infinito não enumerável de elementos, então não é possível
listar todos os valores de X. Nesse caso, representamos a população por uma distribuição de
probabilidades Ž e definimos a média e o desvio padrão através de integrais. O que deve
ficar claro aqui é que a média e o desvio padrão também existem, com as mesmas interpreta-
ções.

Se de uma população qualquer retiramos uma amostra aleatória simples de n elementos, e


em cada elemento da amostra medimos a característica X obtendo  ,  , … ,  , então,

 = 1BC
∑ ²
@1
:
é a média amostral e

<=E

1BC01 ?@
∑²
?
é o desvio padrão amostral.

Parâmetros populacionais só são acessíveis se realizamos um censo. Quando coletamos uma


amostra e calculamos uma estatística relacionada com um parâmetro dizemos que essa esta-
tística é uma estimativa do parâmetro. Por exemplo, numa pesquisa eleitoral a proporção de
pessoas que votam num determinado candidato no universo de eleitores é estimada pela
proporção de pessoas na amostra que declaram seu voto a este candidato. Obviamente a
proporção encontrada na amostra não coincide necessariamente com a proporção na popula-
ção. É intuitivo, e isso é feito constantemente, usar  e < como aproximações de s e u respec-
tivamente. Para discutirmos a precisão dessa aproximação ou estimativa é necessário intro-
duzir o conceito de distribuição amostral.
106

Distribuição Amostral
Um conceito importante em Estatística é o de distribuição amostral. Quando retiramos uma
amostra de uma população e calculamos algumas estatísticas como a média amostral ou o
desvio padrão amostral, notamos que esses valores dependem dos valores da amostra. Se ti-
rarmos duas amostras nas mesmas condições, os valores dessas estatísticas não serão neces-
sariamente iguais. Em função disso, é importante determinar como esses valores variam de
amostra para amostra, qual é a média e o desvio padrão desses valores, em suma, qual é a
distribuição da estatística em consideração.

Para ilustrar o conceito, vamos utilizar um exemplo simples que pode ser trabalhado em sua
totalidade. Considere uma população de tamanho 5 composta dos seguintes elementos:
{3, 5, 7, 9 $ 11}. A média populacional é então:

3 + 5 + 7 + 9 + 11
s= =7
5
e o desvio padrão amostral é:

3 − 7  + 5 − 7  + 7 − 7  + 9 − 7  + 11 − 7 
u== = √8
5

Agora, se nós retiramos uma amostra aleatória simples de tamanho 2 dessa população, temos
10 possibilidades, a saber:

(3,5) (3,7) (3,9) (3,11) (5,7)


(5,9) (5,11) (7,9) (7,11) (9,11)
e a média e o desvio padrão amostral  , < são, respectivamente:

(4,2) (5,8) (6,18) (7,32) (6,2)


(7,8) (8,18) (8,2) (9,8) (10,2)
Como cada amostra tem probabilidade 1/10 de ser selecionada, a distribuição da média
amostral é então:
107

X 4 5 6 7 8 9 10

Prob 0.10 0.10 0.20 0.20 0.20 0.10 0.10

O gráfico da distribuição da média amostral é apresentado abaixo.

Figura - Distribuição das Médias Amostrais

A distribuição do desvio padrão amostral s é:

s √ √
2 8 18 32

P 0 0
rob .40 .30 .20 .10

A média de  é:

1 1 2 2 2 1 1
s@ = 4 × +5× +6× +7× +8× +9× + 10 × =7
10 10 10 10 10 10 10
e a variância de  é:
108

1 1 2 2
u@ = 4 − 7 
× + 5 − 7  × + 6 − 7  × + 7 − 7 
× + 8 − 7 
10 10 10 10
2 1 1
× + 9 − 7  × + 10 − 7  × =3
10 10 10
Então, u@ = √3 .

Observe que, para esse exemplo, s@ = s, ou seja, a média das médias amostrais é igual à mé-
dia populacional, o que nos diz que a distribuição das médias amostrais está centrada no
mesmo valor que a média populacional. Essa relação é importante e vale em geral.

O desvio padrão da média amostral é √3, que é menor que o desvio padrão populacional, ou
seja, a média amostral; tem distribuição mais concentrada que a população original. Esse re-
sultado também é válido em geral. Se a população é finita () e o tamanho da amostra ( ) é
grande relativamente ao tamanho da população e, se retiramos uma amostra aleatória sim-
ples da população, então

u −
u@ = =
√  − 1
Caso a população seja infinita, ou N seja muito grande comparado com n, temos:

u
u@ =

Com base nesse exemplo pode-se verificar que:

1. A distribuição de  para uma amostra aleatória simples está centrada, ou tem como
média, o mesmo valor da média populacional.

2. O desvio padrão da média amostral é menor que o desvio padrão populacional e de-
cresce com o aumento do tamanho da amostra.

3. A distribuição de  torna-se mais simétrica e aproxima-se da distribuição normal


com o aumento do tamanho da amostra.

Esses resultados são válidos em geral.


109

Estatística
A média e o desvio padrão amostral são funções dos valores da amostra. Pode-se definir ou-
tras funções da amostra, como, por exemplo, a mediana, a amplitude, os percentis, a curtose,
etc.. Qualquer função da amostra é denominada Estatística.

O valor de uma estatística depende dos valores da amostra. Para cada amostra possível a es-
tatística em questão assume um valor dentre um conjunto de valores possíveis com uma cer-
ta distribuição de probabilidades. Essa distribuição de probabilidade da estatística é chamada
de distribuição amostral e é importante na determinação da precisão da estatística

Para introduzir o conceito de distribuição amostral usamos um exemplo simples que pode
ser trabalhado em toda a sua extensão, ou seja, foi possível calcular a distribuição da média
amostral e do desvio padrão amostral, bem como calcular a média e o desvio padrão dessas
distribuições. Esse procedimento não é prático de ser aplicado quando a população é grande.
Em geral, a derivação da distribuição amostral das estatísticas de interesse são feitas através
de recursos matemáticos que podem ser bastante sofisticados. Esses procedimentos não serão
cobertos nestes textos.

Por outro lado, parâmetros que nos interessam nesse momento são: a média e o desvio pa-
drão populacional. Apresentaremos a forma de estimá-los a partir da amostra e fornecere-
mos, sem prova, as respectivas distribuições amostrais.

Estimação da Média e do Desvio Padrão Populacional


Retirada uma amostra da população, representada por  ,  , … ,  , os parâmetros s e u são
estimados, respectivamente por

 =  1 e < = E ?
∑0 ∑01 ?@  “
110

Estimativas como essas são chamadas de estimativas pontuais, já que se constituem apenas de
um número.

Embora essa seja a maneira mais comum de se apresentar estimativas, ela deixa algumas
questões em aberto, pois não contém nenhuma informação sobre o tamanho do erro amostral
da estimativa, e esse erro existe. Uma outra forma de apresentar estimativas é através de in-
tervalos de confiança. A estimativa é apresentada na forma de um intervalo, o qual julgamos,
que cobre o verdadeiro valor do parâmetro com um nível de confiança especificado. Antes de
falarmos sobre o intervalo de confiança, vamos apresentar a distribuição de  .

Distribuição de ³́.
Serão apresentados dois resultados importantes com referência à distribuição de  . O primei-
ro resultado fornece a distribuição exata de  , quando a distribuição original é gaussiana:

Baseado numa amostra aleatória de tamanho n de uma população com distribuição normal
com média s e desvio padrão u, a média amostral  tem distribuição normal com média s e
N
√
desvio padrão .

Quando a amostra é retirada de uma população não-gaussiana, a forma da distribuição de 


depende da distribuição original. Porém, o Teorema Central do Limite afirma que quando o
tamanho da amostra é suficientemente grande, a distribuição de  é aproximadamente nor-
mal, independentemente da distribuição original.

Em uma amostra aleatória de uma população com distribuição arbitrária com média s e des-
vio padrão u, a distribuição de  é aproximadamente normal com média s e desvio padrão
N
√
. Em outras palavras,

@?O
¢ = N/ é aproximadamente 0,1
√

Quando o tamanho da amostra é pequeno e u é estimado da amostra por <, temos:


111

@?O
W = µ/
√

tem distribuição aproximada W de Student com − 1 graus de liberdade.

Intervalo de confiança
Embora o mais comum seja apresentar estimativas por meio de estimativas pontuais, essa
forma não contém informações sobre o tamanho do erro amostral da estimativa, e essa in-
formação, como já enfatizamos anteriormente, é essencial para a interpretação da estimativa e
conseqüente tomada de decisão.

Uma forma de se apresentar estimativas é através de intervalos de confiança. A estimativa é


apresentada na forma de um intervalo de valores, o qual cobre o verdadeiro valor do parâ-
metro com um nível de confiança especificado.

Uma estimativa por intervalos de um parâmetro ¶ da população é apresentada na forma

· ≤ ¶ ≤ <
onde LI é o limite inferior e LS o limite superior do intervalo.

Para ilustrar essa forma de apresentar a estimativa vamos recorrer às pesquisas eleitorais. Os
institutos de pesquisa apresentam geralmente os resultados da seguinte forma: O candidato
A tem 35% das intenções de voto; a margem de erro é de ± 3% com um nível de confiança de
95%. Essa última afirmativa sobre o nível de confiança não é, em geral, divulgada na impren-
sa; só aparece nos relatórios técnicos. Como interpretar esse resultado? O verdadeiro valor da
proporção p de votantes é desconhecida. Na amostra, 35% manifestaram intenção de votar
no candidato A.

Através de técnicas que não serão discutidas agora, é possível afirmar que o intervalo
(32%;38%) cobre o valor de p com 95% de confiança. Noventa e cinco por cento de confiança
significa o seguinte: a proporção estimada varia de amostra para amostra; consequentemente
os limites do intervalo também variam de amostra para amostra. Alguns intervalos podem
acertar ao cobrir o verdadeiro valor p. Outros erram. Em 100 amostras retiradas nas mesmas
112

condições é esperado que o número de intervalos certos seja 95. Não é possível estreitar a
amplitude do intervalo de confiança nem aumentar o nível de confiança sem pagar um preço,
que na maioria dos casos é aumentar o tamanho da amostra.

Intervalo de Confiança para µ.


Considere a situação mais simples em que uma amostra aleatória simples de tamanho n é re-
tirada de uma característica  com distribuição normal, e que a média s é desconhecida e o
desvio padrão u é conhecido. Por exemplo, suponha que estejamos amostrando a produção
de caixas de leite longa vida e não sabemos se a máquina envasadora está ou não calibrada,
mas sabemos a precisão da máquina. Além disso, supomos que o processo está estabilizado.
O objetivo da amostragem é estimar a quantidade de leite que está sendo colocada na caixa.

Se  é usado como estimativa de s, então sabemos que:

1. a = s

u =
N
√
2.

 ~ †s, ‡
N
√
3.

Das propriedades da distribuição normal sabemos que aproximadamente 95% das amostras
retiradas sob as mesmas condições terão média amostral entre s ± 2u/√ . Esse tipo de resul-
tado tem interesse quando queremos verificar se a média amostral fornece evidência de que
um processo não está calibrado de acordo com um valor médio especificado s
.

O interesse aqui é, a partir de  , estabelecer um intervalo que sirva de estimativa para s.

Se substituirmos  por s no intervalo acima teremos:

2u 2u
© − ,  + ª
√ √
Chamamos esse intervalo de intervalo de estimação para s com 95% de confiança, ou sim-
plesmente intervalo de confiança de 95% para s.
113

Como interpretar esse resultado. A interpretação é equivalente àquela dada para o intervalo
de confiança da porcentagem de eleitores de um candidato.

Exemplo Uma máquina empacotadeira de macarrão deve colocar 1000 gramas em cada pa-
cote. Suponha que o desvio padrão da máquina seja conhecido e igual a 5 gr, e que a máqui-
na está calibrada em 1000 gr. Uma amostra de 10 pacotes é retirada e pesada em uma balança
com alta precisão (para efeitos práticos assuma que a precisão é infinita, ou seja, que o desvio
padrão é zero). Calcula-se a média dos pesos dos 10 pacotes e encontra-se 998.38gr. O inter-
valo de confiança, usando-se a expressão acima, é dado por:

5 5
©998.38 − 2 × , 998.38 + 2 × ª
√10 √10
ou

995.2 , 1001,5
Afirmamos então que o intervalo acima contém s, e nesse caso a afirmativa está correta (lem-
bre-se que a máquina está calibrada em 1000g). Suponha que retiramos outra amostra nas
mesmas condições, resultando em uma média amostral igual a 997.6. O intervalo correspon-
dente é então (994.4 , 1000.7), e novamente o intervalo contém o valor 1000. Uma terceira
amostra é retirada nas mesmas condições resultando em  = 1004.13. O intervalo de confi-
ança é então (1001.0 , 1007.3). Nesse caso dizemos que a média µ está entre 1001.0 e 1007.3 e
cometemos um erro. Para algumas amostras o intervalo contém o valor 1000. Para outras não.

Quando calculamos um intervalo de confiança e dizemos que esse intervalo contém µ, essa
afirmação está sujeita a erros. Quando afirmamos que a confiança é de 95% queremos dizer
que se retirarmos 100 amostras nas mesmas condições, em média vamos acertar 95 vezes
(95%) e errar 5 vezes. Essa é a interpretação que se dá ao intervalo de confiança.

A amplitude do intervalo de confiança é dada por

2u 2u 2u
e = < − · =  + −  + =2ש ª
√ √ √
114

Em geral, o desejável é que o intervalo tenha a menor amplitude possível. A amplitude de-
cresce com o aumento do tamanho da amostra. Se diminuirmos a constante que multiplica
u/√ ( até agora usamos essa constante igual a 2) também podemos diminuir a amplitude.
Por exemplo, se usarmos a constante igual a 1, a amplitude se torna 2 × u/√ , mas o nível de
confiança cai para 67% ( lembre-se que na distribuição normal o intervalo de ± um desvio
padrão em torno da média tem probabilidade de 67%)

Genericamente, o intervalo de confiança para s é dado por

u u
© − «¸/ ;  + «¸/ ª
√ √
onde «¸/ é o ponto na distribuição 896'q0,1 que deixa uma área de ¹/2 na cauda,
0 < ¹ < 1.

Os elementos do intervalo de confiança são:

1. : tamanho da amostra, escolhido pelo interessado

2. u: precisão dada pela distribuição

3. ¹:1- nível de confiança, escolhido pelo interessado. é comum usar ¹ = 5% ou


¹ = 10%

4. «¸/ : ponto correspondente na distribuição 0,1 que deixa uma área de ¹/2 na
cauda superior da distribuição.

Portanto, para se calcular um intervalo de confiança para a média populacional µ as seguin-


tes etapas devem ser cumpridas:

1. Escolher o tamanho da amostra

2. Escolher o nível de significância 1 − ¹

3. Retirar a amostra e calcular 

4. Calcular «¸/ a partir da tabela da 0,1


115

Calcular † − «¸/ ;  + «¸/ ‡


N N
√ √
5.

Exemplo No caso da empacotadeira de macarrão, escolhemos = 10 e ¹ = 0.05. Retiramos


uma amostra de 10 pacotes, pesamos os pacotes e obtivemos os seguintes valores:

994.16 999.54 1004.751009.68 996.00


990.53 1010.721002.34 994.481003.81
 = 1000.60 e IC(95%) : ( 997.4 , 1003.7 )
Na situação descrita acima foi suposto que o desvio padrão populacional era conhecido. Se
não conhecemos o desvio padrão populacional, então temos de substituir σ pelo desvio pa-
drão amostral s. Mas quando isso é feito, a expressão

 − s
</√
tem distribuição W de Student com − 1 graus de liberdade. O intervalo de confiança é então
dado por

< <
 − W? ,¸/ ,  + W? ,¸/
√ √
onde W? ,¸/ corresponde ao ponto na distribuição t de Student que deixa uma área de ¹/2 à
sua direita.

Exemplo Usando os dados do exemplo anterior e supondo σ desconhecido, calculamos


< = 6.81. Da tabela da distribuição W obtemos WD , 0.025, e o intervalo de confiança de 95% para
µ é dado por

6.81 6.81
©1000.6 − 2.262 × , 1000.6 + 2.262 × ª
√10 √10
ou
995.7 , 1005.5
116

Observe que a amplitude do intervalo é maior. É o preço a pagar por ter que estimar σ a par-
tir da amostra.

Se o tamanho da amostra é suficientemente grande, o valor W? ,¸/ é aproximado por «¸/ .
Então, um intervalo de confiança de 100 × 1 − ¹ % para µ é dado por

< <
 − «¸/ ,  + «¸/
√ √

Intervalo de confiança para Variâncias


Em muitas situações, o que se deseja é estimar a precisão de um conjunto de medidas. Por
exemplo, um técnico de laboratório quer avaliar a precisão de um novo método de análise
antes de implementá-lo na rotina do laboratório. Além de estimar pontualmente a precisão
do novo método, o que é feito através do cálculo do desvio padrão, é desejável construir um
intervalo de confiança para a estimativa. O procedimento para construir intervalos de confi-
ança para o desvio padrão é descrito a seguir.

A construção de intervalos de confiança para o desvio padrão envolve o uso da distribuição


Qui-quadrado. A distribuição Qui-quadrado depende de um parâmetro que é o número de
graus de liberdade. Os graus de liberdade estão relacionados com o tamanho da amostra uti-
lizada no cálculo do desvio padrão amostral, ou seja, se o tamanho da amostra é , o número
de graus de liberdade da distribuição Qui-quadrado é − 1. Essa distribuição é muito utili-
zada em procedimentos estatísticos. O cálculo de probabilidades envolvendo a distribuição
Qui-quadrado pode ser feito através de tabelas encontradas em livros de estatística ou atra-
vés de softwares estatísticos.

Considere uma amostra  ,  , … ,  de uma distribuição 896'qs, u  . Para construir um


intervalo de confiança de 1 − ¹ × 100% para u  , procedemos da seguinte forma:

Calculamos <  = ∑ , que é a estimativa de u  .


01 ?@ “
?
1.
117

2. Obtemos os valores e = χ ?

»
,?
e e = χ»,? a partir da distribuição ¼?

, sendo
“ “

e = χ ?

»
,?
o valor da ordenada na distribuição ¼?

que deixa área igual a 1 − ¹/2
“

à sua direita e e = χ»,? o valor da ordenada na distribuição ¼?



que deixa área
“

igual a ¹/2 à sua direita.

Probability Density Function


y=chi2(x;n-1)

3. O intervalo de confiança de 1 − ¹ × 100% para u  é dado por

 − 1 <   − 1 < 
½ , ¾
e e
E um intervalo de confiança para u é dado por

 − 1 <   − 1 < 
¿= ,= À
e e

Exemplo O tempo que um técnico de laboratório levou para realizar uma determinada análi-
se foi medida em 16 ocasiões diferentes. A média e o desvio padrão dos tempos foram:

 = 4.3 6& e < = 0.6


118

Para obtermos um intervalo de confiança de 95% para o desvio padrão, calculamos

<  = 0.6 ¹ = 0.05 = 0.025 1 − = 0.975


¸ ¸
 
1.

2. e = χ ?

»
,?
= χ
,DÁ2; 2 = 6.262
“

e = χ¸,? = χ
,
2; 2 = 27.488


3. O intervalo de confiança para σ2 é dado por

15 × 0.6 
15 × 0,6
½ = ¾ = X0,20; 0,86Y
27.488 6.262
Calculando a raiz quadrada desses limites, obtemos um intervalo de confiança para σ. Esse
intervalo é dado por

X044; 0,93Y

Intervalo de confiança para a razão de duas variâncias


Vamos motivar o assunto através de um exemplo. Suponha que existam dois métodos para
medir uma característica de um produto, e queremos saber se os métodos são igualmente
precisos. Seis determinações com cada método foram realizadas em amostras homogêneas e
obteve-se os seguintes resultados:

Mét Nº de M D
odo Determ. édia .P.

1 6 20 0
.00 .19

2 6 20 0
.02 .13
119

Vamos resolver essa questão através da construção de um intervalo de confiança para a razão
u  / u , onde u e u são os desvios padrão dos métodos 1 e 2 respectivamente. . Para constru-
ir um intervalo de confiança de 1 − ¹ × 100% para u  / u , assumimos que as determi-
nações foram feitas de forma independente e seguem a distribuição normal.

A construção de intervalos de confiança para razões entre variâncias depende da distribuição


de F de Snedecor. Essa distribuição depende de dois parâmetros, 9 e 9 , que são os graus de
liberdade da distribuição. A distribuição „ é uma razão de duas distribuições Qui-quadrado
independentes, cada uma com 9 e 9 graus de liberdade respectivamente, sendo 9 os graus
de liberdade da Qui-quadrado do numerador e 9 os graus de liberdade da distribuição Qui-
quadrado do denominador. Portanto, se quisermos construir um intervalo de confiança para
u  / u , e usarmos <  e < para estimar u  e u respectivamente, então 9 = − 1 e 9 =  −
1.

Para calcularmos o intervalo de confiança, procedemos da seguinte forma:

1. Calculamos <  e < , as variâncias amostrais.

Obtemos os valores de l = „»;{C; e l = „»;{“,{C , sendo,


“
2.
“ “

e) „»;{C; o valor da ordenada da distribuição de „{C , 9 que deixa uma área de


¸
“ 
à sua
“

direita.

„»;{“,{C o valor da ordenada da distribuição de „{,“ {C que deixa uma área de


¸

f) à sua
“

direita.

Esses valores podem ser obtidos a partir da tabela da distribuição F, ou calculados por meio
de software.
120

Função Densidade de Probabilidade


F de Snedecor

3. O intervalo de confiança é dado por:

1 <  < 
¿ ; „ À
„¸;{
¸
<  ;{“ ,{C <
 C;“

No exemplo, temos:

1. <  = 0.19 
< = 0.13 

2. = 6 ⇒ 9 = 5  = 6 ⇒ 9 = 5

¹ = 0.05 = 0.025
¸


„
,
2;2,2 = 7.15
NC“
N““
3. Um intervalo de confiança de 95% para é dado por

1 0,19  0,19 
½ ; 7,15 ¾ = X0,298; 15,27Y
7,15 0,13 0,13
Como o intervalo de confiança contém o valor 1, concluímos que não há evidência, ao nível
de 5%, de que os desvios padrões sejam diferentes para os dois métodos.
121

Observe que a amplitude do intervalo é muito grande. Essa é uma característica de intervalos
de confiança para razões entre variâncias.

Intervalo de confiança para proporções


Para estimar a proporção de ocorrência de um evento, usamos / , onde  é o número de
vezes que o evento ocorreu em n repetições do experimento. Por exemplo, se retirarmos uma
amostra de objetos de um lote e verificarmos que  deles não atendem à especificação, en-
tão / é a proporção de objetos na amostra que não atendem à especificação, e é uma esti-
mativa pontual da proporção p de objetos defeituosos no lote.

Para obter-se um intervalo de confiança para ), algumas dificuldades se apresentam:

1. Como  é uma variável aleatória discreta, pode ser impossível encontrar um interva-
lo de confiança com nível de significância exata.

2. O desvio padrão de )̂ = / é dado por )1 − ) , dependendo assim de ) que é


desconhecido.

Existem duas abordagens para se calcular um intervalo de confiança para ).

Usando aproximação normal


Como foi visto no capítulo 3, se )̂ = / é usado para estimar ), e  tem distribuição
l& 86&'q , ) , então

)̂ − )
¢=
E)1 − )

tem distribuição aproximada 896'q 0,1 .

Então, o intervalo

)1 − ) )1 − )
)̂ − «¸\ = ; )̂ + «¸\ =

122

é um intervalo de aproximadamente 1 − ¹ × 100% para ). A aproximação é tão mais exata


quanto maior for o valor de e quanto mais próximo de 0.5 ) estiver.

Exemplo Em uma amostra de 200 funcionários, 104 se declararam satisfeitos com o atendi-
mento do restaurante da empresa. Vamos construir um intervalo de confiança aproximado
de 90% para a proporção de funcionários satisfeitos com o atendimento do restaurante.

Temos:

)̂ = 104/200 = 0.52 ¹ = 0.10 ¹/2 = 0.05 «¸/ =


1.645
)̂ 1 − )̂ / = 0.52 × 0.48 /200 = 0.00125
Então, o intervalo de confiança é dado por

 0.52 − 1.645√0.00125 , 0.52 + 1.645√0.00125


ou

0.46 , 0.58
Então, podemos dizer que o intervalo ( 0.46, 0.58) cobre o valor da proporção de funcionários
satisfeitos com o restaurante com 90% de confiança.

Tamanho da amostra para estimar a média


Uma questão sempre presente para o usuário da Estatística é:Qual é o tamanho da amostra
necessário para estimar um certo parâmetro populacional?

Por exemplo, na determinação do teor de gordura de leite em pó, uma amostra é retirada, e a
partir da amostra calcula-se o teor médio de gordura  . Se o desvio padrão das medidas, u, é
conhecido, um intervalo de confiança de 95% para o teor médio de gordura é dado por

© − 1.95 × ;  + 1.95 × ª


√ √
σ σ
123

A determinação do tamanho da amostra necessário para estimar o teor médio de gordura é


feita levando-se em conta dois fatores:

1. A precisão com que queremos estimar o teor médio de gordura.

2. A “confiança” na estimativa.

Em termos do intervalo de confiança, devemos fixar antecipadamente a amplitude desejada


para o intervalo. A amplitude do intervalo, para um nível de confiança fixado 1 − ¹ ×
100%, é dado por

e = ¤ + «¸/ u/√ ¨ − ¤ − «¸/ u/√ ¨ = 2«¸/ u/√

Dessa forma, temos

«¸/ u 
=© ª
e/2


Fazendo € = e/2, temos: = † ‡ onde € é metade da amplitude.
Ä»/“ N
H

Escolhido € e ¹, e sendo u conhecido, é possível determinar o tamanho da amostra para es-


timar a média com precisão desejada. O problema é que, em geral, u não é conhecido. Nesse
caso, u tem de ser estimado a partir da amostra. Usamos uma amostra piloto de tamanho
para calcular <, uma estimativa de u e substituímos u por < na expressão acima. Só que ao
usarmos < em lugar de u temos de substituir «¸/ por W? ,¸/ . Dessa forma, calculamos o va-
lor de . Se > 1, completamos a amostra para obter a precisão desejada.

Exemplo Deseja-se estimar o teor de gordura do leite em pó produzido através de um inter-


valo de confiança de 95% com amplitude de 0.1 unidades. Uma amostra piloto de tamanho 6
forneceu os seguintes valores:

20.6 20.5 20.7 20.6 20.8 21.0

Então,

 = 20.7 < = 0.179 e = 0.1 € = 0.05 W2;


,
2 = 2.571
124

2.571 × 0.179 
=© ª = 84.7
0.05

Portanto, o tamanho da amostra necessário é 85. Como já foram feitas 6 determinações, é ne-
cessário realizar mais 79 medidas.

Tamanho da amostra para estimar proporções


Vimos anteriormente que um intervalo de confiança de 1 − ¹ × 100% aproximado para ),
usando aproximação normal, é dado por

)1 − ) )1 − )
)̂ − «¸\ = ; )̂ + «¸\ =

A amplitude do intervalo é dada por

)1 − )
e = 2 × «¸\ =

Então, fixada uma amplitude e um nível de confiança desejado, o valor aproximado de é


dado por

)̂ 1 − )̂ «¸\

)̂ 1 − )̂ «¸\

= =
e/2  € 

sendo )̂ calculado de uma amostra piloto e e/2 = €.

Exemplo Uma amostra piloto com 20 funcionários mostrou que 11 deles aprovaram o aten-
dimento oferecido pelo restaurante da empresa. Deseja-se estimar a proporção de funcioná-
rios satisfeitos com mais ou menos 1 ponto percentual com nível de confiança de 95%. O ta-
manho da amostra necessária para se atingir essa precisão é dado por:

)̂ 1 − )̂ «¸\

=
€ 
125

onde )̂ = 11/20 = 0.55, e = 1, € = 0.5, ¹ = 0.05 e «¸\ = 1.95.


Então,

 = 0.55 × 0.45 × 1.95  /0.05 


= 376.4

Portanto, o tamanho da amostra requerida é 377.

Intervalo de confiança para a diferença de duas médias


Até esse momento, apresentamos técnicas de estimação e de intervalo de confiança para a
média, desvio padrão e proporção para uma população. Existem muitas situações em que
queremos comparar as médias de duas populações de interesse. Esse tipo de problema surge
naturalmente quando queremos comparar dois processos, duas condições experimentais, etc.
Considere os exemplos seguintes.

Exemplo 1: Duas máquinas são usadas para envasar leite longa vida. O desvio padrão do vo-
lume envasado pela máquina 1 é conhecido e igual a 0.01 litro e o da máquina 2 é 0.015 litro.
Uma amostra de = 25 pacotes da máquina 1 e  = 20 pacotes da máquina 2 é retirada e o
volume de cada pacote é medido encontrando-se  = 1.041 e  = 1.071. Deseja-se verificar
se, com base nos medidas realizadas, as máquinas estão calibradas de forma diferente, ou se-
ja, se o volume médio da máquina 1 é igual ao volume médio da maquina 2.

Exemplo 2 : Dois métodos A e B usados para medir o teor de umidade de um produto devem
ser comparados para verificar se eles medem a mesma quantidade. Dois quilos de produto
são separados da produção, homogeneizados e divididos em 20 porções de 100 gramas cada.
Dez porções são sorteadas e submetidas ao método A; as outras 10 porções são submetidas
ao método B. Dos resultados obtidos com cada método, calcula-se a média e o desvio padrão,
obtendo-se n = 21.031, o = 20.07, <n = 3.4 e <o = 2.7. Com base nesses dados, deseja-se
concluir se os dois métodos são equivalentes.

Esses estudos são chamados de estudos comparativos, e seu objetivo é verificar se os métodos
ou processos estudos são equivalentes, além de medir as diferenças se elas existirem. Os es-
126

tudos comparativos podem ser observacionais ou experimentais. As características de cada um


deles foi discutida anteriormente. O exemplo 1 é um estudo observacional enquanto que o
exemplo 2 é um estudo experimental. Deve-se observar também que no exemplo 1 os desvios
padrões de cada máquina são conhecidos, enquanto que no exemplo 2 eles são estimados a
partir dos resultados do estudo.

Usaremos a técnica de construção de intervalos de confiança para a diferença de médias,


s − s , para responder às questões propostas, ou seja, se os dados experimentais permitem
concluir que as populações (métodos, processo, etc.) tem média diferente. Construído o in-
tervalo de confiança de 1 − ¹ × 100% para s − s, se o intervalo contém o valor zero con-
cluímos que não há diferença significativa entre as médias dos dois processos ao nível ¹, caso
contrário declaramos que a diferença é estatisticamente significante. Veremos no próximo
capítulo como testar hipótese de igualdade de dois processos utilizando a técnica de Teste Es-
tatístico de Hipóteses.

As técnicas de construção de intervalos de confiança são similares tanto para os estudos ob-
servacionais como para os estudos experimentais. Os estudos experimentais serão tratados
com detalhe no capítulo de Planejamento de Experimentos.

Estudos Observacionais
Os dois esquemas amostrais mais utilizados em estudos observacionais são denominados de
amostras independentes e amostras pareadas ou dependentes.

Amostras independentes
Um esquema amostral com amostras independentes é um estudo observacional em que
amostras aleatórias simples de tamanho n1 e n2 respectivamente são retiradas de forma in-
dependente de duas populações.

A estrutura dos dados é dada por:


127

Amos-
tra 1 1 1,2 .. 1,n1

Amos-
tra 2 ..
¤ , ,  , , … ,  ,C ¨ e ¤, , , , … , ,“ ¨
2,1 2,2 2,n2

sendo: amostras independentes com médias e desvios padrões s , s , u e u respectivamen-


te.

Caso 1: Amostras independentes, ¦Å e ¦§ conhecidos


Consideraremos primeiro o caso em que u e u são conhecidos. A estimativa da diferença
s − s é dada por  −  . O desvio padrão  −  de é dado por:

Eu  / + u / 

Então, um Intervalo de Confiança de 95% para s − s é dado por:

u  u u  u
¿ −  − «
,
2 = + ;  −  + «
,
2 = + À
 

O valor de «
,
2 é igual a 1.96.

No exemplo1, o intervalo de confiança de 95% é dado por:

0,01  0,015  0,01  0,015 


¿1,04 − 1,07 − 1,96= + ; 1,04 − 1,07 + 1,96= + À
25 20 25 20

= X−0,037; −0,022Y

Portanto, como o intervalo não contém o valor zero, concluímos que há diferença significati-
va entre as médias das duas máquinas.

Caso 2: Amostras independentes, ¦Å e ¦§ desconhecidos, ¦Å = ¦§ = ¦


128

A estimativa da diferença s − s é dada por  −  . O desvio padrão de  −  é dado por

uE +

C “
.

Nesse caso, é necessário estimar u e u a partir da amostra através de

< = E∑d e < = E∑d


C  0C” ?@C “ “ 0“” ?@“ “
C ? “ ?

e estimar u por meio <, sendo < dado por

 − 1 <  +   − 1 <
<==
+  − 2

Então, o intervalo de confiança é dado por

1 1 1 1
¿ −  − W
,
2,C3“? <= + ;  −  + W
,
2,C3“? <= + À
 

Supondo que no exemplo 1 tivéssemos obtido < = 0,012 e < = 0,02, primeiro calcularía-
mos <.

240,012 + 190,02 
<== = 0,016
43

O valor de W
,
2,4. 2.02. O intervalo de confiança é então:

1 1 1 1
¿1,04 − 1,07 − 2,02 × 0,016= + ; 1,04 − 1,07 + 2,02 × 0,016= + À
25 20 25 20

= X−0,04; −0,02Y

Portanto, como o intervalo não contém o valor zero, concluímos que há diferença significati-
va entre as duas médias.

Os resultados apresentados acima para intervalos de confiança são exatos se as amostras são
retiradas de populações com distribuição Gaussiana e são aproximados se as amostras são re-
129

tiradas de populações cujas distribuições não são Gaussianas. A aproximação depende essen-
cialmente do “afastamento” da distribuição original em relação à distribuição Gaussiana e do
tamanho das amostras.

Amostras pareadas ou dependentes


A amplitude do intervalo de confiança para a diferença de duas médias com amostras inde-
pendentes é dada por

1 1
e = 2 × W
,
2,C3“? × < × = +


Para e  fixos, a amplitude depende de <, o desvio padrão estimado das observações Æ .
Quando se junta as observações dos dois processos em estudo, verifica-se que a variabilidade
das medidas pode ser explicada por dois componentes. Um dos componentes é devido à di-
ferença que por ventura existe entre os dois processos. A outra parte é devido ao que cha-
mamos de erro experimental. O erro experimental tem várias origens, sendo uma das mais im-
portantes a diferença que existe entre os objetos ou indivíduos que são tratados pelos proces-
sos. Por exemplo, se queremos avaliar dois processos metalúrgicos para tratar chapas de me-
tal com respeito à resistência das chapas tratadas, podemos selecionar = +  chapas e
tratar delas escolhidas ao acaso com o processo A e as outras  chapas com o método B.

As possíveis diferenças que existam entre as chapas, tal como a espessura da chapa não tra-
tada, e que possam afetar a resistência final certamente contribuirão para aumentar o erro
experimental, e conseqüentemente o valor de <. Como se espera que a variabilidade de es-
pessura dentro de cada chapa seja menor que a variabilidade entre chapas, um procedimento
experimental adequado seria selecionar m chapas e dividi-las em duas partes. Uma parte se-
ria tratada com o processo A e a outra com o processo B, sendo que a escolha de qual parte
recebe o tratamento A feita por sorteio. Se Zn, e Zo, são as resistências finais medidas na i-
ésima chapa, calcula-se a diferença

€ = Zn, − Zo,
130

e constrói-se um intervalo de confiança para a média dos € ‘s. Dessa forma, a diferença que
existe entre as placas é controlada e removida do erro experimental, aumentando assim a
sensibilidade do experimento e diminuindo a amplitude do intervalo de confiança para a di-
ferença entre as duas médias.

Em estudos experimentais essa técnica de agrupar unidades que sejam hormogôneas entre si
é denominada de blocagem e será discutida em detalhes mais à frente.

Em estudos observacionais, o projeto amostral que agrupa os elementos da amostra em pares


homogêneos com respeito a características que podem estar relacionadas com a resposta de
interesse é denominado de pareamento.

A estrutura dos dados resultante em ambos os caso e dada por:

Amos-
tra 1 1,1 1,2 .. 1,n

Amos-
tra 2 2,1 2,2 .. 2,n

Dife-
rença 1 2 .. n

Sendo % =  , − , . Construir um intervalo de confiança para a diferença das médias dos
dois processos é equivalente a construir um intervalo de confiança para a média das diferen-
ças % =  , − , , sL = s − s , sendo s e s as médias dos dois processos.

O intervalo de confiança de 95% para sL = s − s é dado por

<L <L
Ç%̅ − W
,
2,? ; %̅ + W
,
2,? É
√ √

sendo <L = E∑
L1 ?L “
?
a estimativa do desvio padrão das diferenças.
131

Capítulo 5.Testes de Hipóteses

Introdução
A coleção e a análise de dados são componentes importantes do método científico aplicado
ao processo de desenvolvimento do conhecimento. A pesquisa científica é um processo de
aprendizado orientado. A aplicação dos métodos estatísticos torna esse processo tão eficiente
quanto possível.

Dados são usados tanto para tentar refutar teorias existentes como para revisar velhas teorias
e também para formular novas. Teorias e hipóteses deveriam ser sempre contrastadas com
dados coletados, se possível, de experimentos planejados. Se os dados contradizem a teoria,
deveria se procurar outro modelo teórico que explicasse os dados experimentais e que esti-
vesse de acordo com o conhecimento anterior.

O processo de aprendizado pode ser colocado, de uma forma sistemática, como um ciclo.
Uma hipótese inicial é estabelecida e, através de um processo de dedução, estabelecemos cer-
tas conseqüências, as quais devem ser confrontadas com dados experimentais. Quando as
conseqüências não concordam com os dados, é necessário modificar as hipóteses através de
um processo de indução. Nova hipótese é formulada e inicia-se o ciclo novamente. Em mui-
tas situações, onde não existe uma teoria, uma análise exploratória de dados pode fornecer
um ponto de partida para formular hipóteses e dar início ao ciclo.

Quando coletamos dados, eles vêm "contaminados" por erros de diversas naturezas. (erros
de medida, variabilidade no material experimental, etc.). A Estatística é a única ferramenta
que nos possibilita tratar esse "ruído". Essa afirmação não diz que é impossível avançar o co-
nhecimento sem o uso de Estatística. De fato, existem vários caminhos que podem ser percor-
ridos para se chegar a um mesmo objetivo. Alguns são mais eficientes que outros. É possível
conduzir uma investigação sem o uso da Estatística. Entretanto, se um investigador compe-
tente usa a metodologia estatística ele será mais eficiente.
132

Essas observações iniciais servem para ilustrar o fato de que dados amostrais são rotineira-
mente utilizados para se tomar decisões frente a hipóteses formuladas. Teste Estatístico de Hi-
póteses é uma técnica estatística que lida com procedimentos para medir a evidência que os
dados experimentais fornecem contra uma hipótese formulada. Sua utilização é ampla em
todas as áreas da estatística, como análise de regressão, planejamento de experimentos, análi-
se de séries temporais, análise de sobrevivência, confiabilidade, etc.

Embora a discussão anterior possa levar o leitor a concluir que essas técnicas só se aplicam à
investigação científica "stricto sensu", testes de hipóteses são amplamente utilizados na rotina
diária de empresas, hospitais, órgãos governamentais, etc.

Exemplo Um fabricante de eletrodomésticos está considerando a compra de uma nova má-


quina para estampar chapas metálicas. A máquina atual estampa em média 200 chapas por
hora. Só interessa adquirir a nova máquina se o número médio de chapas estampadas for
maior que 200. Ele resolve, de comum acordo com o fornecedor, realizar um experimento
com a nova máquina. Nesse exemplo, o parâmetro em consideração é o número médio de
chapas estampadas por hora. Formalmente ele considera uma hipótese que a nova máquina é
equivalente à atual. Se µ representa o número médio de chapas estampadas por hora, então
escrevemos:

Ê
: s = 200

Onde Ê
é chamada de hipótese nula. A outra hipótese é que a nova máquina é mais produtiva
que a atual, e escrevemos

Ên : s > 200

Onde Ên é chamada de hipótese alternativa. Um experimento bem elaborado deve fornecer


subsídios para que a decisão seja tomada.

A técnica de teste de hipóteses não será desenvolvida formalmente aqui. Através de três
exemplos apresentaremos as 4 etapas que devem ser cumpridas para a realização de um teste
de hipóteses. Do ponto de vista do usuário da estatística é importante entender conceitual-
133

mente esses 4 passos. A montagem e a realização dos testes, nas mais diferentes situações, se-
rão apresentadas ao longo do curso e analisadas com o recurso do computador. O mais im-
portante é saber como traduzir um problema prático na forma de um teste. Saber qual teste
aplicar e interpretar o resultado que o computador fornece.

Os quatro passos importantes na construção de um teste são:

1. Formalização do teste, ou tradução do problema a ser resolvido na forma de um teste


de hipóteses;

2. Construção de um critério para realizar o teste;

3. Derivação de uma distribuição de referência para comparar o critério;

4. Cálculo do nível de significância do teste.

Exemplo 1 Você vai para o trabalho todos os dias e percebeu que, dependendo das condi-
ções de trânsito, o tempo gasto no trajeto varia de dia para dia (vamos considerar que o traje-
to é sempre o mesmo). “Suponha que você é uma pessoa organizada” e tem registrado o
tempo gasto diariamente para realizar o percurso durante os últimos dois anos. Baseado nes-
ses dados, você sabe que o tempo médio gasto é de 30 minutos com desvio padrão igual a 1.
Construindo um histograma com os dados você observa que os dados seguem uma distribui-
ção aproximadamente normal. Com isso, você sabe que em 95% dos dias você completa o tra-
jeto entre 28 e 32 minutos.
134

28 29 30 31
32
Um colega lhe propõe um novo trajeto e lhe afirma que é possível percorrê-lo em um tempo
menor. Você resolve testar para verificar se o novo trajeto é realmente melhor. O primeiro
passo é construir a hipótese Ê
e Ên .

Vamos chamar de s o tempo médio gasto com o novo trajeto. Observe que não sabemos qual
é esse valor. As hipóteses para esse problema ficam da seguinte forma:

Ê
: s = 30 6&
Ên : s < 30 6&
e o passo 1 do processo está concluído.

No dia seguinte você percorre o trajeto e gasta 29 minutos. Essa informação é suficiente para
rejeitarmos a hipótese nula e concluirmos que o novo trajeto é melhor que o antigo? Obvia-
mente não. Devido à presença de variabilidade (condições de trânsito) hoje gastou-se 29 mi-
nutos, amanhã você poderá gastar 32 minutos. É necessário percorrer o trajeto por um certo
número de dias, cronometrar o tempo gasto e analisar os resultados.

Você decide conduzir um experimento da seguinte forma: durante 9 dias o trajeto é percorri-
do e o tempo anotado. O próximo passo é calcular o tempo médio gasto,  . Suponha que o
135

tempo médio gasto é 29 minutos. Agora a evidência de que o novo caminho é melhor (Ê
é
falsa), é igual ou maior do que quando realizamos apenas uma observação (observe que a di-
ferença para o valor da hipótese Ê
é a mesma: 1 minuto)?

Existe um sentimento intuitivo de que agora a evidência é maior. Como podemos quantificar
esse sentimento? A precisão de uma observação, medida em termos de desvio padrão é u, a
precisão de uma média de n observações, é, como visto anteriormente

u

Além do mais, se uma medida tem distribuição centrada em s e a média  de observações


também tem distribuição centrada em s.

Precisão é o inverso do desvio padrão. Portanto, quanto maior for o tamanho da amostra,
menor é a dispersão em torno da média e maior é a precisão. O primeiro passo na construção
de um critério é comparar  com a média estipulada em Ê
. Um critério natural é dado pela
diferença entre  , a média observada, e s, o valor postulado em Ê
, ou seja:

F9&Wé9&8 F ∗ :  − s

que, nesse caso, é igual a: 29 - 30 = -1.

Considere a mesma diferença absoluta e duas situações :

a) A variabilidade do tempo de percurso do novo trajeto é baixa (Desvio Padrão (D.P.)


baixo);

b) A variabilidade do tempo de percurso do novo trajeto é alta ( D.P. alto).

A diferença de -1 minuto "fala" da mesma forma contra Ê


?

A resposta é não. Pois quanto maior for a variabilidade do tempo de percurso, maiores dife-
renças podem ocorrer. Para corrigir o critério F ∗ , para o efeito da dispersão, dividimos a dife-
rença acima pelo desvio padrão de  :
136

 − s
F=
u/√
Essa medida agora é adimensional e não depende da escala de medida. O segundo passo está
completo; o critério está construído.

Assumindo que o desvio padrão do tempo de percurso do novo trajeto é igual ao do tempo
antigo (nem sempre essa suposição é válida), ou seja, que σ = 1, e que a média é 29, temos:

29 − 30 −1
F= = = −3
1/√9 1/3

Com F = −3 nós rejeitamos Ê


?

Se Ê
é verdadeiro, esperamos encontrar F = 0. Quanto mais F se afasta de 0, maior é a evi-
dência contra Ê
. Para sabermos se -3 é suficientemente afastado para que a gente decida re-
jeitar Ê
é necessário comparar C com uma referência. Para isso é necessário saber como F se
distribui. F é um valor que depende da média amostral; portanto depende dos dados da
amostra. Para cada amostra de 9 observações, C terá um valor, provavelmente, diferente.
Nesse exemplo, o tempo de percurso tem distribuição aproximadamente gaussiana. Se a hi-
pótese Ê
é correta (tecnicamente dizemos “sob Ê
"),  tem distribuição Gaussiana com mé-
dia 30 e desvio padrão = 1/3, ou seja,

 ~30,1/3

e F tem distribuição 0,1 (veja no final do capítulo 3). Essa é a distribuição de referência para
o critério F.

Esse afastamento é medido com uma nova régua que introduziremos agora.

Calculamos na distribuição de referência a área à esquerda do valor F = −3.


137

Essa área é denominada de nível de significância (n.s.) do teste. Quanto menos for essa área, ou
de outra forma, quanto menor for o nível de significância, maior é a evidência contra Ê
.
Usualmente rejeitamos Ê
para níveis de significância inferiores a 5%, mas isso não é uma re-
gra absoluta. A decisão de rejeitar Ê
não deve ser baseada apenas no nível de significância.
Devemos levar em conta as conseqüência da nossa decisão.

No exemplo, . R. = _F < −3 = 0.001, e concluímos que há uma forte evidência de que o
novo caminho tem tempo médio de percurso menor que 30 minutos.

Dessa forma, completamos os 4 passos.


1. Teste:

Ê
: s = 30 6&

Ên : s < 30 6&

2. Critério

 − s
F=
u/√

3. Distribuição de referência:

F~0,1

4. Nível de significância
138

_F < −3 = 0.001

Em outras situações, dependendo do problema, o teste pode mudar e conseqüentemente te-


mos de construir outro critério, que terá outra distribuição de referência. Mas os passos serão,
essencialmente, os mesmos.

No exemplo acima consideramos que o desvio padrão do novo percurso era igual ao do ante-
rior, ou seja, que u era conhecido. Essa não é a situação usual. O comum é que o desvio pa-
drão não seja conhecido. Caso isso aconteça, temos de estimar u a partir da amostra. Nesse
caso, a estimativa de u é o desvio padrão amostral <.

 −  
< = =t
−1

Essa estimativa, como vimos anteriormente, tem  − 1 graus de liberdade.

No critério, substituímos u por < e agora o critério

 − s
</√

recebe o nome de ± e tem como referência uma outra distribuição, chamada de t de Student
com n-1 graus de liberdade. Essa distribuição é simétrica em torno de zero e é muito parecida
com a Normal. Essa distribuição encontra-se tabelada no final do capítulo 3 e em muitos li-
vros de estatística. O nível de significância é calculado da mesma forma; é a área à esquerda
do valor do critério.

Se nesse exemplo os tempos de percurso da amostra fossem:

(30.1, 29.7, 27.3, 29.1, 28.3, 28.4, 31.0, 28.1, 29.0)

teríamos:  = 29,0, < = 1,132, W= = −2,65 e = 9, s


= 30
@ ?O¯
µ/√

O nível de significância seria:

_W‘ < −2.65 = 0.015.


139

A distribuição t de Student foi derivada por um químico inglês chamado Gosset, que traba-
lhava na cervejaria Guiness na década de 20. A derivação do teste e da distribuição foram fei-
tas em função da necessidade de testar processos de fabricação na cervejaria.

Gostaríamos de chamar a sua atenção para uma questão que geralmente provoca mal enten-
dido:

Uma diferença que é estatisticamente significante pode não ser significante do ponto de vista
prático.

No exemplo acima, ganhamos em média 1 minuto com o novo percurso, e esta diferença é es-
tatisticamente significante. Mas pode ser praticamente irrelevante para que você decida mu-
dar de trajeto.

Exemplo 2 Um médico tem como hipótese que certa doença que requer internação é igual-
mente comum entre homens e mulheres. Em uma amostra de 900 internados ele encontrou
480 homens e 420 mulheres. O resultado da amostra contradiz ou suporta a hipótese?

Seja p a proporção de homens internados. Então, de acordo com a hipótese do médico,


) = 0.5.
140


Podemos escrever o problema na forma de um teste de hipóteses da seguinte forma:

Ê
∶ ) = 0.5 vs Ên ∶ ) ≠ 0.5

Temos de construir um critério para medir o afastamento da amostra com respeito à hipóte-
se.

Se a hipótese Ê
estiver correta, 450 é o número esperado de internações do sexo masculino e
feminino.

Foram observados 480 e 420 internações do sexo masculino e feminino, respectivamente.

480-450=30 e 420-450=-30

foram os desvios observados com relação à hipótese nula.

Então, um critério é:

+30  −30 
¼ = + = 2+2 =4
450 450

O número esperado é colocado no denominador para introduzir o tamanho amostral na


quantidade a ser calculada .

De uma forma geral, o critério é:

Ž − „  Ž − „ 
¼ = +
„ „

onde Ž e Ž são as frequências observadas e, „ e „ , são as freqüências esperadas.

Distribuição de referência: Este critério tem distribuição conhecida como ¼  e neste exem-
plo a distribuição tem 1 grau de liberdade.

Tanto o critério como a distribuição foram formulados por Karl Pearson em 1899.

A distribuição de Qui-quadrado encontra-se tabelada para diferentes valores de graus de li-


berdade.
141

Prob (χ2(1) > x)

.90 .75 .50 .25 .10 .05 .025 .010 .005

.02 .10 .45 .32 .71 .84 .02 .63 .88

No exemplo do médico: ¼  = 4. O nível de significância está entre 0.05 e 0.025. Existe uma
forte evidência de que a proporção de homens internados é maior que a proporção de mulhe-
res.

Algumas observações são pertinentes:

1. Teste de significância não é uma regra automática para se tomar decisões.

2. Experiência e conhecimentos prévios sobre o problema em estudo devem ser levados


em conta na decisão.

3. O tamanho da amostra também é importante:

Com amostras pequenas, o teste provavelmente produzirá resultados significantes somente


se a hipótese nula é muito errada. Se este é o caso, uma possível conclusão de um teste com
uma amostra pequena seria:

"Embora o desvio da hipótese nula não foi significante, a amostra é tão pequena que este re-
sultado fornece apenas uma fraca confirmação da hipótese nula."

Com uma amostra grande, pequenos afastamentos da hipótese nula podem ser detectados
como estatisticamente significantes. Neste caso, uma possível conclusão de um teste seria:

"Embora estatisticamente significante, a diferença entre as duas proporções foi tão pequena
que não foi considerada importante do ponto de vista prático, e assim foi ignorada nas análi-
ses subseqüentes".
142

É importante, além de olhar para o nível de significância, calcular o intervalo de confiança


para o parâmetro ).

Suponha que no caso do médico o tamanho da amostra seja 10 e que 4 mulheres estavam in-
ternadas. Então ¼  = 0,4 para testar Ê
: ) = 0,5, e o resultado é consistente com a hipótese. O
intervalo de confiança de 95% para p é (0.15, 0.74). Qualquer valor do parâmetro populacio-
nal p entre 15% e 74% é consistente com o resultado da amostra. O fato de encontrar um re-
sultado não significante quando testamos a hipótese de que ) = 0,5 não assegura que ) é 0.5
ou próximo de 0.5.

Exemplo 3 Uma empresa recebe de um fornecedor matéria prima em lotes de tamanho


N. Cada item do lote é classificado como Defeituoso (D) ou Não-defeituoso (ND) de acordo
com um critério estabelecido. O fornecedor especifica que seu processo de produção é tal que
não mais que 1% dos itens produzidos são defeituosos, e essa especificação é adequada para
a empresa cliente. Esse valor é geralmente denominado de NQA (Nível de Qualidade Acei-
tável).

Mesmo que o fornecedor esteja produzindo de acordo com o especificado, alguns lotes conte-
rão mais que 1% de itens defeituosos. Com o objetivo de se precaver, e também de auditar a
qualidade do fornecedor, o cliente monta um plano amostral para recebimento dos lotes (
examinar todos os itens é impraticável).

O plano consiste em retirar uma amostra aleatória simples de n itens do lote, examinar cada
um, e registrar a quantidade  de defeituosos (ou a proporção / de defeituosos).

Para simplificar os cálculos, vamos assumir que o tamanho do lote é grande comparado com
n, de tal forma que a distribuição binomial possa ser empregada. Seja Ì a proporção de peças
defeituosos no lote. Na linguagem de testes de hipóteses temos:

Ê
: ) = 0,01 versus Ê : ) > 0,01

Suponha que o tamanho da amostra seja 30. O número esperado de peças defeituosas na
amostra, se Ê
é correto, é 0.3. O critério a ser utilizado é examinar o número de peças defei-
143

tuosas na amostra. Quanto maior esse número, maior é a evidência de que o lote não atende
às especificações. Suponha que numa amostra de um lote são encontrados 2 itens defeituo-
sos. A probabilidade de se encontrar dois ou mais itens defeituosos na amostra se o lote foi
produzido de acordo com as especificações é:

30
_ ≥ 2 = t † ‡ 0.01 @ 0.99 .
?@
= 0.036

@

e esse valor é o nível de significância do teste.

Baseado no nível de significância, aceita-se ou rejeita-se o lote, lembrando que quanto maior
for o nível de significância, maior é a evidência de que a hipótese Ê
é falsa, ou seja, de que o
lote não atende às especificações.

Na prática das empresas, utiliza-se uma abordagem diferente. Especifica-se um nível de sig-
nificância, simbolizado por α , para todos os lotes (em geral esse valor é 5%). Se o nível de
significância do lote for menor que α o lote é rejeitado, caso contrário é aceito. Em função do
nível de significância especificado, determina-se qual é o número de peças defeituosas a par-
tir do qual o lote é rejeitado. O valor α é também conhecido como risco do produtor.

No exemplo acima temos:

_ ≥ 1 = 0.260

_ ≥ 2 = 0.036

_ ≥ 3 = 0.003

Então, se a amostra tem 2 ou mais itens defeituosos, ele é rejeitado, caso contrário ele é aceito,
e esse plano atende ao nível de significância de 5%.

Os erros Tipo I e Tipo II


No exemplo acima, suponha que o lote atende à especificação e em uma amostra do mesmo
foram encontrados 2 itens defeituosos. O lote é rejeitado e um erro de decisão é cometido: re-
144

jeitar um lote que atende à especificação, ou de outra forma, rejeitar Ê


quando Ê
é verda-
deiro.

Vamos considerar agora outra possibilidade. Suponha que o processo de produção é tal que
5% das peças fabricadas são defeituosas. Nessas condições, a probabilidade que uma amostra
de 30 itens tenha 0 ou 1 item defeituoso é dado por


30
_ ≤ 1 = t † ‡ 0,05 0 0,95 .
?0
= 0,554

0

ou seja, existe uma probabilidade positiva de que o lote seja aceito mesmo que não atenda à
especificação. Nesse caso, uma decisão incorreta é tomada.

As situações descritas no exemplo 3 são típicas de um teste de hipóteses. No primeiro caso,


quando rejeitamos Ê
sendo Ê
verdadeiro, o erro que se comete é chamado de erro do Tipo I e
a probabilidade de se cometer esse erro é simbolizado por ¹. O erro de não rejeitar Ê
quan-
do Ê
é falso é chamado de erro do Tipo II, e a probabilidade de se cometer esse tipo de erro é
simbolizado por Í, ou seja:

¹ = _$998 Î&)8 · = _9$Ï$&W'9 Ê


…V' %8 Ê
é S$9%'%$&98

Í = _$998 Î&)8 ·· = _ ã8 9$Ï$&W'9 Ê


…V' %8 Ê
é Ž'qR8

A situação descrita acima pode ser sumariada através da seguinte tabela

Não rejeita Ê
Rejeita Ê

Ê
é verd. decisão correta erro Tipo I

Ê
é falsa erro Tipo II decisão correta

Assim, no nosso exemplo temos:

¹ = _$998 Î&)8 · = _ ≥ 2|) = 0,01 = 0,036

Í = _$998 Î&)8 ·· = _ ≤ 1|) = 0,05 = 0,554


145

No cálculo da probabilidade do erro Tipo II escolhemos arbitrariamente o valor ) = 0,05. En-


tretanto, para qualquer valor de ) maior que 0.01 o processo não atende à especificação. Na
realidade, a probabilidade do erro Tipo II é uma função de ) para ) pertencente ao subcon-
junto dos valores definido por Ê . No exemplo, Í é função de p para p > 0.01. Essa relação fi-
cará mais clara quando introduzirmos a curva característica de operação.

No exemplo 1, o teste estatístico tem a seguinte forma:

Ê
: s = 30

Ê : s < 30

Se fixássemos a priori o nível de significância em ¹ = 0,05, então a regra de decisão seria:

Rejeitar Ê
se  < F

Não rejeitar Ê
se  ≥ F

sendo F determinado em função de ¹, ou seja,

 − 30 F − 30 F − 30
0,05 = _ < F|s = 30 = _ Ð u − u Ñ = _ Т < u Ñ
√ √ √

F − 30
⇒ u = −1,65

1,65u 1 1,65
⇒F=− + 30 = −1,65 × + 30 = − + 30 = 29,45
√ √9 3

Então, se o tempo médio  for menor que 29.45 rejeita-se Ê


, caso contrário não rejeita-se Ê
,
e nesse caso o teste tem nível de significância de 5%.

Testes monocaudal e bicaudal


Em algumas situações, podemos querer testar hipóteses do tipo:

Ê
: s = s

146

Ê : s ≠ s

Nesse caso, a região de rejeição será do tipo:

Rejeita-se Ê
se  ≤ F ou  > F

Não rejeita-se Ê
se F <  < F

sendo que F e F são determinados em função de ¹.

No exemplo 1, o teste é chamado de monocaudal ou unilateral. No caso acima o teste é cha-


mando de bicaudal ou bilateral. A escolha da hipótese alternativa como mono ou bicaudal de-
pende de cada problema em particular.

Observe que a hipótese Ê


é definida através de um único ponto, enquanto que a hipótese Ê
é usualmente definida através de um conjunto de pontos. Quando uma hipótese é definida
por apenas um único valor ela é chamada de hipótese simples. Quando é definida por dois ou
mais pontos é chamada de hipótese composta. É conveniente definir Ê
através de uma hipóte-
se simples. Assim, o valor de ¹ fica unicamente determinado.

Curva Característica de Operação


Vamos considerar novamente o exemplo 3. Para uma amostra de 30 itens extraídos ao acaso
do lote, o lote é rejeitado se o número de defeituosos na amostra () for maior ou igual a 2.
Definida a região de rejeição do lote, a curva característica de operação, ÒF, do teste é definida
como:

ÒF) = _'U$&W'9 Ê
%'%8R …V$ ' )89U$ W'w$6 %$ %$Ž$&WV8R8R 8 q8W$ é )

ou

ÒF) = _ ≤ 1|)

Como ) é um valor entre 0 e 1, ÒF) tem a seguinte forma:


147

No exemplo, o valor AQL acertado foi ) = 0,01. Dessa forma, o teste tem a seguinte forma:

Ê
: ) = 0,01

Ê : ) > 0,01

Portanto, ¹ = 1 − ÒF0,01 = 0,036 e Í) = ÒF) para ) > 0.01. Por exemplo, Í0,05 =
ÒF0,05 = 0,554.

Ide