Aulas Teóricas - PEX502 (Estatística Básica)

ESTATÍSTICA BÁSICA (PEX 502)
AULAS TEÓRICAS
Prof. Alex de Oliveira Ribeiro

Departamento de Estatística - UFLA
LAVRAS
2021
0
1- INTRODUÇÃO À ESTATÍSTICA
1.1- INTRODUÇÃO
Ao praticar a atividade científica, o pesquisador se depara com situações onde
ele deve analisar e entender um conjunto de dados referente ao seu objeto de estudo.
Assim, ele terá que manipular os dados para obter informações, compará-las com outros
resultados, ou ainda, julgar sua adequação a alguma teoria. A estatística surge então
como uma ferramenta que auxilia o pesquisador neste trabalho, fornecendo
metodologias adequadas de coleta, redução, análise e modelagem dos dados.
Diante do exposto, podemos entender a estatística como a ciência que se ocupa
com as técnicas de coleta, organização, análise e interpretação de dados, tendo um
modelo por referência.
1.2- CONCEITOS BÁSICOS
1.2.1- POPULAÇÃO
Entende-se por população ao conjunto de elementos que têm uma determinada
característica em comum. Uma população pode ser finita quando esta possui um
número limitado (ou enumerável) de indivíduos, ou infinita, quando não conseguimos
enumerar os seus elementos, uma vez que temos um número ilimitado de indivíduos.
Exemplos: Alunos matriculados na UFLA no 2º sem/2016 (POPULAÇÃO FINITA)
Peças produzidas por lote (POPULAÇÃO FINITA)
Plantas de uma espécie de Pinus (POPULAÇÃO INFINITA)
Clientes potenciais de uma empresa (POPULAÇÃO INFINITA)
Em complemento, quando coletamos informações de todos os elementos de uma
população finita, dizemos que foi realizado um censo.
Adotaremos, na disciplina, a notação N para representar a quantidade de
elementos em uma população finita.
1.2.2- AMOSTRA
Uma amostra corresponde a um subconjunto ou uma parte da população. A

notação que representa o número de elementos de uma amostra é n.
1
Na verdade, a grande maioria dos trabalhos de pesquisa é realizado através de
amostras. Alguns dos motivos que levam os pesquisadores a trabalharem com amostras são:
 uma população infinita só pode ser estudada através de amostras;
 as populações finitas muito grandes também devem ser estudadas por meio de
amostras;
 redução de tempo e custo da pesquisa;
 o estudo cuidadoso de uma amostra tem mais valor científico do que o estudo
sumário de toda a população.
1.2.3- VARIÁVEIS
Quando realizamos um levantamento de dados, temos o interesse em conhecer
ou avaliar uma determinada característica da população, como por exemplo, o peso, o
diâmetro, o número de defeitos por peça, a produtividade de madeira de uma espécie de
Pinus, a escolaridade dos indivíduos de uma comunidade, dentre outras. Essas
características são chamadas de variáveis e visam descrever a população sob estudo. As
variáveis podem ser classificadas em:
a) Qualitativas: Correspondem a atributos ou categorias. Elas são subdivididas em
nominais quando suas categorias não são passíveis de ordenação, e ordinais, no caso de
existir uma ordenação natural para seus atributos.
Exemplos: Sexo (Masculino, Feminino) – VQN
Substâncias Químicas (Ácidos, Bases, Hidrocarbonetos, etc) - VQN
Tipos de Linguagem de programação (Java, PHP, R, Delphi, MATLAB
dentre outros) – VQN
Escolaridade (Fundamental, Médio e Superior) – VQO
Classe Social: (Alta, Média e Baixa) - VQO
b) Quantitativas: Correspondem a números resultantes de contagens ou medidas.
Quando se trata de contagens a variável é dita discreta (sendo representada por números
inteiros não-negativos). No caso de medidas, a variável é classificada como contínua
(sendo que seus valores podem ser representados por quaisquer números reais).
Exemplos: Número de peças com defeito – VQD
Temperatura – VQC
Diâmetro de barras de aço – VQC
2
Esta classificação é extremamente importante na análise de dados, uma vez que,
o tipo de variável a ser trabalhada é um ponto de partida para se determinar os métodos
de análise mais apropriados ou mesmo válidos.
2- APRESENTAÇÃO DE DADOS
2.1- Introdução
Em uma pesquisa, coletamos dados sobre a(s) variável(is) de interesse. Muitas

vezes esses dados surgem de forma desordenada através do qual não conseguimos
detectar, a primeira vista, um comportamento que mereça uma explicação plausível.
Uma das formas de descrever o comportamento dos dados é organizá-los em tabelas ou
gráficos.
2.2- Tabelas de Distribuição de Frequências Simples
2.2.1- Conceitos Básicos
a) Frequência: Medida que quantifica a ocorrência dos valores de uma variável. Pode
ser classificada em: absoluta (fa), relativa(fr) e percentual (fp).
a.1) Frequência Absoluta: para variáveis qualitativas, nada mais é do que o número de
observações ocorridas em cada classe da variável sob estudo.
a.2) Frequência Relativa: é obtida pela divisão da frequência absoluta pelo número
total de dados ou observações.
a.3) Frequência Percentual: é calculada multiplicando-se o valor da frequência
relativa por 100.
2.2.2- Construção de Tabelas de Distribuição de Frequências
a) Variáveis Qualitativas
Exemplo: Em 2006 a Associação Nacional de Comerciantes de Material de Construção
(ANAMACO) solicitou uma pesquisa para determinar o perfil de produtos do setor da
3
construção civil com maior saída nas lojas. Foram visitadas 30 lojas e os produtos mais
vendidos em cada uma estão no quadro abaixo.
Tintas Tubos Cerâmica Cimento Cimento Argamassa
Cimento Tubos Tintas Tubos Tintas Cerâmica
Tubos Cerâmica Tintas Cimento Cimento Tintas
Cimento Tintas Cimento Cerâmica Cimento Tubos
Argamassa Cimento Cimento Tintas Cimento Cimento
Obter:
a) as frequências absolutas;
b) as frequências relativas;
c) as frequências percentuais;
d) montar a tabela de distribuição de frequências.
Solução:
a) frequências absolutas (fa):

cimento = 12 tintas = 7 tubos = 5 cerâmica = 4
argamassa = 2
b) frequências relativas (fr):
12 7
cimento =  0, 40 t int as   0, 23
30 30
5 4
tubos =  0,17 cerâmicas =  0,13
30 30
2
argamassa =  0, 07
30
c) frequências percentuais (fp):
cimento = 0, 40 100  40%

t int as  0, 23 100  23%
tubos = 0,17 100  17%
4
cerâmica = 0,13 100  13%
argamassa = 0,07  100  7%
d) Tabela de distribuição de frequências:
Tabela 1: Distribuição de frequências referente aos principais produtos comercializados em

30 lojas do setor de materiais de construção.
Produtos fa fr fp(%)
Cimento 12 0,40 40
Tintas 7 0,23 23
Tubos 5 0,17 17
Cerâmica 4 0,13 13
Argamassa 2 0,07 7
Totais 30 1,00 100
Fonte: Dados Fictícios.
 Para Variáveis Qualitativas Ordinais, a construção de uma tabela de distribuição de

frequências segue o mesmo procedimento adotado para as Variáveis Qualitativas
Nominais. Apenas deve-se dispor os atributos na ordem natural da variável.
Exemplo. Os dados a seguir fazem parte de uma pesquisa sobre a possibilidade de

recuperação de 20 caixas de transmissão automotivas classificadas como defeituosas num
processo de controle de qualidade. Os defeitos foram classificados em três níveis:
Leve: fácil de ser recuperada;
Moderado: envolve troca de alguns componentes;
Grave: sem recuperação.
Grave Leve Leve Moderado Leve
Moderado Leve Moderado Leve Grave
Leve Leve Leve Leve Leve
Moderado Grave Grave Moderado Moderado
5
Solução:
Tabela 2: Distribuição de frequências referente aos níveis de defeito de caixas de
transmissão automotivas.
Defeitos fa fr fp(%)
Leves 10 0,50 50
Moderados 6 0,30 30
Graves 4 0,20 20
Totais 20 1,00 100
Fonte: Dados Fictícios.
b) Variáveis Quantitativas Discretas
Conjuntos de dados referentes a variáveis quantitativas, de um modo geral,
podem ser descritos de duas maneiras:
 Distribuição de frequência;
 Medidas numéricas descritivas (média, variância, etc).
O uso de medidas numéricas descritivas será assunto de capítulos futuros.
Quanto às distribuições de frequência de uma variável quantitativa discreta, sua
representação é bastante semelhante à das variáveis qualitativas, pois os valores inteiros que
a variável assume podem ser considerados como “categorias” ou “classes naturais”.
Exemplo: Durante o mês de setembro de 1995, o número de acidentes por dia em certo
trecho da rodovia MG-53 apresentou o seguinte conjunto de dados:
2 0 1 2 3 1 5 1 0 0
1 2 2 1 2 0 1 4 2 3
0 1 0 2 1 2 4 1 1 1
Represente-o através de sua distribuição de frequência. Apresente fa, fr e fp.
Tabela 3: Dist. de frequência do no de acidentes por dia em um trecho da rodovia 32 no
mês de setembro de 1995.
No de acidentes por dia fa fr fp(%)
0 6 0,20 20
1 11 0,37 37
2 8 0,26 26
3 ou mais 5 0,17 17
TOTAIS 30 1,00 100
Fonte: Dados fictícios.
6
C) Variáveis Quantitativas Contínuas
A elaboração de uma tabela de distribuição de frequência para variáveis

contínuas requer a apresentação de alguns conceitos:
C.1) Amplitude Total: corresponde à diferença entre o maior valor e o menor valor de
um conjunto de dados. Em geral, é simbolizada por “A”.
C.2) Amplitude de Classe: Consiste na diferença entre o limite superior e o limite

inferior de uma classe em uma distribuição de frequência. Será aqui simbolizada por “c”
e calculada por:
A
c
k 1
onde: k é o número de classe adotado.
 Algoritmo para a Construção de uma Distribuição de Frequência Relativa a

uma Variável Quantitativa Contínua
Passo 1: Escolha do número de classes (k)
k n
onde: n = número de observações.
Passo 2: Calcula-se a amplitude total dos dados.

A = MVO – mvo
onde: MVO = maior valor observado.
mvo = menor valor observado.
Passo 3: Calcula-se a amplitude de classe c.
A
c
k 1
Passo 4: O limite inferior LI1 da 1ª classe é obtido por:
7
c
LI1  mvo 
2
Passo 5: O limite superior da 1ª classe (LS1) é obtido por:
LS1  LI1  c
Obs: O LS1 é o limite inferior da 2ª classe: LS1 = LI2.
E assim, sucessivamente, as classes vão sendo construídas.
Passo 6: Construídas as classes, são contados quantos dados estão contidos em cada
classe (frequências absolutas de cada classe).
Passo 7: Opcionalmente, são calculadas as frequências relativas e/ou percentuais de

cada classe.
Ex: Sabe-se que a viscosidade de óleos lubrificantes em motores de carros é um

importante fator para a manutenção adequada do veículo. Os óleos mais usados são os
chamados multiviscosos, sendo que os mais comuns são 20W40 e 20W50. Porém para
motores com alta quilometragem sugere-se a utilização de óleo 25W60. Estes dois
números representam a viscosidade em baixa e alta temperatura, respectivamente. Assim,
para o controle de qualidade dessa característica (viscosidade) foi montado um
experimento com 27 amostras desse último tipo de óleo, verificando sua viscosidade em
alta temperatura (aproximadamente 100ºC). Os dados de cada amostra encontram-se no
quadro a seguir:
Tabela 4: Viscosidade (a 100ºC) de 27 amostras de óleo multiviscoso 25W60

submetidas ao controle de qualidade.
50,3 51,0 51,9 54,0 56,6 57,5 59,5 62,5 64,5
50,5 51,1 52,7 56,0 57,0 57,9 60,7 62,7 65,9
50,8 51,7 53,1 56,5 57,2 58,8 60,9 63,0 68,3
Montar a tabela de distribuição de frequências simples.
OBS: É bom que os dados estejam ordenados.
1o passo: no de classes (K) K n

2o passo: Amplitude total, A=MVO-mvo
8
3o passo:Amplitude de classe, c=A/(K-1)
4opasso:LI1 = mvo-(c/2)
5o passo: calcular os demais limites inferior e superior.
6o passo: calcular fa, fr ou fp.
2.2.3- Frequências Acumuladas
No caso de variáveis contínuas a distribuição de frequência pode ainda ser

apresentada de maneira que as frequências passem por uma acumulação sucessiva.
9
2.3 – Representação gráfica
2.3.1- Gráfico de Barras
Usado para descrever o comportamento de variáveis qualitativas (categóricas) e também

para descrever variáveis quantitativas discretas.
Figura 1: Gráfico de barras verticais dos veículos hath médios mais vendidos em 2013.
Figura 2: Gráfico de barras verticais dos veículos hath médios mais vendidos em 2013.
10
Figura 3: Gráfico de barras horizontais do nível de atendimento de recepcionistas de
uma construtora.
Figura 4: Gráfico de barras verticais do número de pessoas do grupo familiar

observadas em uma amostra de 300 famílias de um determinado município.
11
2.3.2- Gráfico de Setores
O gráfico de setores ou gráfico de pizza é um gráfico circular dividido em vários

setores (fatias) que representam cada classe da variável qualitativa.
Figura 5: Gráfico de setores para a distribuição de torcedores de times de futebol

mineiros observados em uma amostra de 300 indivíduos.
12
2.3.3- Histograma
É um gráfico de barras verticais (unidas), usado para representar a distribuição

de frequências de uma variável quantitativa contínua.
Figura 6: Histograma para a distribuição de frequências da resistência (MPa) de 80

corpos de prova de concreto.
2.3.4- Polígono de frequências
É um gráfico de linhas, utilizado para representar a distribuição de frequências

de uma variável quantitativa contínua.
Figura 7: Polígono de frequências para a distribuição da resistência (MPa) de 80 corpos

de prova de concreto.
13
É bastante comum representar o polígono de frequências no mesmo gráfico do
histograma. Deve-se lembrar apenas que como o polígono é formado pelos pontos
médios de cada classe, esses pontos que “amarram” o polígono em cima de cada barra
representam, no eixo horizontal do gráfico, os pontos médios de cada intervalo de
classe.
Figura 8: Distribuição da resistência (MPa) de 80 corpos de prova de concreto.
A figura 8 mostra uma distribuição simétrica, já a figura 9 é assimétrica.
Figura 9: Distribuição do tempo de vida (horas) de 300 lâmpadas.
14
3- MEDIDAS DE POSIÇÃO
3.1- INTRODUÇÃO
As medidas de posição visam sintetizar em um único número o conjunto de

dados. Estas podem ser divididas em medidas de tendência central e separatrizes. As
mais utilizadas na área de saúde são: a média, a mediana e a moda.
3.2- MÉDIA ARITMÉTICA
A média aritmética, representada por x é obtida a partir da soma de todos os

n
dados de um conjunto X i 1
i , dividida pela sua quantidade n. Ou seja:
X i
x i 1
n
Para exemplificar o cálculo da média aritmética, vamos utilizar os seguintes
pesos, em kg, de 10 recém-nascidos:
3,2 2,8 3,2 2,1 2,9 3,1 3,2 3,0 3,5 4,0
X i
3, 2  2,8  3, 2  2,1  2,9  ...  4, 0 31
x i 1
   3,1 kg
n 10 10
Assim, o peso médio desses recém-nascidos é de 3,1 kg.
3.2.1- MÉDIA A PARTIR DE UMA TABELA DE DISTRIBUIÇÃO DE

FREQUÊNCIAS
Quanto os dados encontram-se agrupados em uma tabela de distribuição de

freqüências simples, a média aritmética é calculada utilizando-se a seguinte expressão:
k fa i  pmi k
x ou x   fri  pmi
i 1 n i 1
15
onde: fai : frequência absoluta da classe i;
pmi : ponto médio da classe i;
n : tamanho da amostra.
fri : frequência relativa da classe i.
LIi  LSi
Lembrando que: pmi 
2
EXEMPLO: Considerando a variável Salário dos empregados da seção de orçamentos

da Companhia MB, temos os seguintes dados:
Tabela 3.1: Distribuição de Frequências dos 36 empregados da seção de orçamentos da

Companhia MB, por faixas de salário
Faixa de Renda
fa fr pm
(Salários Mínimos)
[ 04; 08 ) 10 0,278
[ 08; 12 ) 12
[ 12; 16 ) 8 0,222
[ 16; 20 ) 5
[ 20; 24 ) 1 0,028
Totais 36 1,000
a) Complete a tabela.
b) Calcule a renda média desses empregados.
16
3.2.2- PROPRIEDADES
i) Adicionando-se uma constante k a todas as observações de um conjunto de dados, a

nova média será a média original desses dados adicionada à constante k.
Me(X  k)  Me(X)  k
ii) Multiplicando-se uma constante k a todas as observações de um conjunto de dados, a
nova média será a média original desses dados multiplicada pela constante k.
Me(X  k)  Me(X)  k
iii) A soma dos desvios de cada observação em relação à média é sempre igual a zero.
x  x  0
n
i
i 1
3.3- MÉDIA PONDERADA
Existem outros processos de obtenção de médias para um conjunto de dados.

Um deles consiste no cálculo da média ponderada que é largamente utilizada no âmbito
escolar. Um exemplo de sua aplicação é verificado no cálculo da média de um conjunto
de notas onde foi atribuído um peso específico para cada uma dessas notas. Em tal
situação, a média ponderada X p é dada por:
n
pX i i
Xp  i 1
n
p
i 1
i
Em que:
pi - Peso atribuído a nota de índice i.
X i - i-ésima nota.
17
3.4- MEDIANA (Md)
Trata-se do valor que, no conjunto de dados ordenados, é precedido e seguido

pelo mesmo número de observações.
Exemplo: Encontre a mediana dos dados a seguir:
3 4 6 8 9 10 37
Md(x) = 8
Quando o número de observações é par, a mediana é definida como a média

aritmética dos dois valores centrais.
Exemplo: Encontre a mediana dos dados abaixo:
3 7 8 10 12 25
8  10
Md(x) = =9
2
OBS: Se os dados estiverem agrupados em uma tabela de distribuição de frequências, a

mediana será calculada através dos seguintes passos:
Passo 1: Divide-se o total de observações por dois. Acumula-se a frequência absoluta,
até que este acúmulo ultrapasse a metade dos dados. Esta será a classe que contém a
mediana.
Passo 2: A mediana é calculada nesta classe através da seguinte expressão:
 (n / 2)  Fa Anterior 
Md(x)  LI Md    c Md 
 fa Md 
18

Faixa de Renda
fa fr
[ 04; 08 ) 10 0,278
[ 08; 12 ) 12 0,333
[ 12; 16 ) 8 0,222
[ 16; 20 ) 5 0,139
[ 20; 24 ) 1 0,028
Totais 36 1,000
Calcule a mediana desses dados.
PROPRIEDADES:
19
3.5- MODA (Mo)
Trata-se de uma medida que indica o valor ou a gama de valores nos quais a
concentração dos dados amostrais ou populacionais é máxima.
Se os dados forem considerados realizações de uma variável discreta, a moda é o
valor dos dados que ocorre com maior freqüência.
Exemplo: Obtenha a moda do conjunto de dados abaixo:
1 2 2 2 3 4 5
A moda corresponde ao valor 2, pois é o mais frequente.
Mo(x) = 2
OBS: Para variáveis contínuas a moda é definida como o valor que possui maior
densidade de frequência na tabela de distribuição de frequências. Seu cálculo segue os
seguintes passos:
Passo 1: Selecionar a classe que contém maior freqüência. Esta será a classe que
contém o valor da moda.
Passo 2: Calcular a moda nesta classe através da seguinte expressão:
1
Mo( X )  LI Mo   cMo
1   2
onde: 1  dfa Mo  dfa Anterior e  2  dfa Mo  dfa Posterior

LI Mo : Limite inferior da classe que contém a moda.
c Mo : Amplitude da classe que contém a moda.
20

Faixa de Renda
fa fr dfa
[ 04; 08 ) 10 0,278 2,5
[ 08; 12 ) 12 0,333
[ 12; 16 ) 8 0,222
[ 16; 20 ) 5 0,139
[ 20; 24 ) 1 0,028
Totais 36 1,000 -
a) Completar a tabela acima.

b) Calcule a moda desses dados.
PROPRIEDADES:
21
4- MEDIDAS DE DISPERSÃO
Para entender o que é dispersão, imagine que quatro alunos obtiveram, em cinco
provas, as notas apresentadas na Tabela 4.1.
Tabela 4.1 – Notas de quatro alunos em cinco provas.

Aluno Notas Média
Antônio 5 5 5 5 5 5
João 6 4 5 4 6 5
José 10 5 5 5 0 5
Pedro 10 10 5 0 0 5
Todos os alunos obtiveram média igual a 5, mas a dispersão das notas em torno
da média não é a mesma para todos os alunos. A Tabela 4.1 mostra claramente que:
a) As notas de Antônio não variaram (a dispersão é nula).
b) As notas de João variaram menos do que as notas de José (a dispersão das notas
de João é menor do que a dispersão das notas de José).
c) As notas de Pedro variaram mais do que as notas de todos os outros (a dispersão
das notas de Pedro é maior).
Estas observações serão verificadas através das seguintes medidas de dispersão:

amplitude, variância e desvio padrão.
4.1- AMPLITUDE
Por definição, amplitude é a diferença entre o maior e o menor dado observado.

É fácil calcular a amplitude para os dados apresentados na Tabela 4.1. As notas de
Antônio têm amplitude:
A = 5 - 5 = 0,
as notas de João têm amplitude:

A = 6 - 4 = 2,
as de José têm amplitude:
22
A = 10 - 0 = 10,
e as notas de Pedro têm amplitude:

A = 10 - 0 = 10.
A amplitude nem sempre capta certas diferenças. No caso das notas dos alunos,
a amplitude mostra, acertadamente, que as notas de Antônio não variaram ( a = 0) e que
as notas de João variaram menos do que as notas de José ( a = 2, no primeiro caso, e
a = 10, no segundo). Entretanto a amplitude não mostra que as notas de Pedro variaram
mais do que as notas de José ( a = 10, nos dois casos).
A amplitude não mede bem a dispersão dos dados porque, em seu cálculo, usam-se
apenas os valores extremos – e não todos os dados. De qualquer forma, a amplitude é
muito usada, principalmente porque é fácil de calcular e fácil de interpretar.
4.2- VARIÂNCIA
Os dados distribuem-se em torno da média. Então o grau de dispersão de um

conjunto de dados pode ser medido pelos desvios em relação à média.
A variância é definida como a soma dos quadrados dos desvios, dividida pelo
tamanho da amostra menos 1 (n – 1). Os estatísticos chamam o valor (n – 1) de graus de
liberdade. Portanto, a variância, que é indicada por s2, é dada pela fórmula:
s 2

 (x  x ) 2
n 1
Desenvolvendo algebricamente a fórmula da variância, obtém-se:
( x) 2
x  n 2
s2 
n 1
Embora esta fórmula pareça, à primeira vista, difícil, ela na verdade facilita o
trabalho de cálculo. Para conferir esta informação, calcule a variância dos dados 0, 4, 6,
8 e 7, usando esta fórmula. Os cálculos intermediários estão apresentados na Tabela 4.2.
23
Tabela 4.2 – Cálculos intermediários para obtenção da variância.
x x2
0 0
4 16
6 36
8 64
7 49
 x  25 x
2
 165
Agora é fácil obter:
252
165 
s2  5  10, 0
4
Para entender que a variância mede a dispersão dos dados em torno da média,
convém observar novamente as notas apresentadas na Tabela 4.1 e verificar que as
variâncias são os valores dados na Tabela 4.3. Veja que a variância mede a dispersão
porque:
a) Para as notas de Antônio, que não variaram s 2  0 .

b) Para as notas de João, que variaram menos do que as notas de José, s 2  1 ,
menor do que a variância das notas de José, que é s 2  12,5 .
c) Para as notas de Pedro, que variaram mais do que todas as outras, a variância é
s 2  25 , maior do que todas as outras variâncias.
Tabela 4.3 – Média e variância das notas de 4 alunos em 5 provas.

Aluno Notas Média Variância
Antônio 5 5 5 5 5 5 0
João 6 4 5 4 6 5 1
José 10 5 5 5 0 5 12,5
Pedro 10 10 5 0 0 5 25
24
4.3- DESVIO PADRÃO
Como medida de dispersão, a variância tem a desvantagem de apresentar a

unidade de medida igual ao quadrado da unidade de medida dos dados. Por exemplo, se
os dados estão em metros, a variância fica em metros ao quadrado.
Mas existe uma medida de dispersão que apresenta as propriedades da variância
e tem a mesma unidade de medida dos dados. É o desvio padrão, definido como a raiz
quadrada da variância, com sinal positivo. O desvio padrão é representado por s.
Para as notas do aluno José, cuja variância já foi calculada, tem-se o desvio
padrão:
s  12,5  3,54 .
4.4- COEFICIENTE DE VARIAÇÃO
O coeficiente de variação é a razão entre o desvio padrão e a média. O resultado

é multiplicado por 100, para que o coeficiente de variação seja dado em porcentagem.
Então:
s
CV = .100 .
x
Para entender como se interpreta o coeficiente de variação, imagine dois grupos
de pessoas. No primeiro grupo, as pessoas têm idades
3, 1 e 5
e no segundo grupo as pessoas têm idades
55, 57 e 53.
No primeiro grupo, a média de idade é 3 anos e, no segundo grupo, a média de
idade é 55 anos. Nos dois grupos a dispersão dos dados é a mesma. Ambos têm
variância s 2  4 . Mas as diferenças de dois anos são muito mais importantes no
primeiro grupo, que tem média 3, do que no segundo grupo, que tem média 55. Agora,
veja os coeficientes de variação.
2
CV = .100  66, 67%
3
e no segundo grupo, o coeficiente de variação é:
2
CV = .100  3, 64% .
55
25
4.5- BOXPLOT
Constitui uma representação gráfica usada para descrever algumas

características do conjunto de dados. Essas características são:
I) Centro (Mediana);
II) Dispersão (diferença interquartílica e amplitude);
III) Simetria;
IV) Valores extremos (outliers).
A utilização da mediana e da diferença interquartílica visão evitar o efeito dos
outliers nos valores da média e do desvio padrão.
EXEMPLO: Considere as notas de duas turmas A e B na disciplina de estatística.

Turma A
20 25 30 40 45 50 60 70 75 80
84 85 88 90 90 93 94 95 95 98
Turma B
50 52 52 53 54 56 60 60 61 62
62 65 66 67 68 70 71 72 72 99
26
Medidas descritivas
TURMAS Média 1º quartil Mediana 3º quartil DP Mín. Máx.
A 70,35 48,75 82,00 90,75 26,11 20,00 98,00
B 63,60 55,50 62,00 68,50 10,96 50,00 99,00
27
5- TÉCNICAS DE AMOSTRAGEM
5.1- INTRODUÇÃO
Uma amostra deve descrever, indiretamente, a população sob estudo. Para que
os dados fornecidos por uma amostra sejam confiáveis é necessário que esta seja
coletada de forma a conservar as características da população em seus elementos, ou
seja, uma amostra deve ser representativa.
Em nosso curso, estudaremos algumas técnicas de amostragem denominadas
probabilísticas. Essas técnicas são:
 Amostragem Aleatória Simples
 Amostragem Aleatória Estratificada
 Amostragem Aleatória por Conglomerados
 Amostragem Sistemática
5.2- AMOSTRAGEM ALEATÓRIA SIMPLES (AAS)

Neste tipo de amostragem todos os elementos da população têm igual
probabilidade de pertencer à amostra e todas as possíveis amostras têm também igual
probabilidade de ocorrer. Se considerarmos uma população com N elementos e desta
coletarmos amostras com n elementos, o número total de amostras diferentes, sem
N!
reposição dos elementos, será: CN ,n  . Caso haja reposição dos elementos
( N  n)!n !
teremos N n amostras diferentes.

Na prática, a coleta dos elementos no processo de AAS, pode ser feito através de
várias técnicas que garantam o caráter aleatório da amostra. Pode-se por exemplo,
identificar os N elementos da população com números naturais, escrevê-los em pedaços de
papel, colocá-los em uma caixa e sorteá-los. Pode-se ainda realizar este sorteio por meio de
tabelas de números aleatórios ou funções randômicas na calculadora ou computador.
EXEMPLOS: 1) Coletar uma amostra, sem reposição, de 5 elementos a partir de uma
população com 10 elementos. Utilizar a tabela de números aleatórios a seguir:
349 004 079 908 215 407
721 564 308 200 558 492
866 518 259 964 125 007
451 390 715 744 612 139
210 865 853 941 323 500
28
Quantas amostras diferentes poderiam ser obtidas nesta situação?
2) Usando a tabela anterior coletar uma amostra de 12 elementos a partir de uma
população com N = 80 (sem reposição).
5.3- AMOSTRAGEM ALEATÓRIA ESTRATIFICADA (AAE)
Em muitas situações, a população de interesse encontra-se dividida em

subpopulações ou estratos. Nestes casos a variável de interesse tem uma distribuição
aproximadamente homogênea dentro de cada estrato e heterogênea entre os estratos. A
amostragem estratificada consiste em especificar quantos elementos da amostra serão
retirados em cada estrato. Dentre os critérios existentes para esse fim, o mais utilizado é
o proporcional, onde se aplica a expressão abaixo:
Ni
ni  n
N
em que: ni é o tamanho da amostra no estrato i;
N i é o tamanho da população no estrato i;

N e n correspondem ao tamanho total da população e da amostra,
respectivamente.
Um exemplo prático pode ser citado através das classes socioeconômicas em que a
população se divide (A, B, C, D, E), sendo que o comportamento “financeiro” dos
indivíduos de uma mesma classe é semelhante, porém entre classes distintas esse
comportamento se difere com bastante relevância. Considere então que de uma
população com 3000 habitantes desejamos coletar uma amostra de 150 indivíduos. A
distribuição dessa população encontra-se na tabela abaixo:
Classes A B C D E
Ni 135 575 1245 735 310
A) Realizar uma AAE nesta situação.

b) Qual seria o problema que poderíamos ter ao realizar uma AAS para este exemplo?
5.4- AMOSTRAGEM ALEATÓRIA POR CONGLOMERADOS (AAC)
Consiste no processo de subdivisão da população em componentes de mesmas

características com o objetivo de facilitar o processo de coleta dos elementos da
amostra. Assim, um conglomerado em relação ao outro deve ter características mais
29
semelhantes possíveis (homogêneos) e dentro de cada conglomerado as características
devem ser heterogêneas. Na AAC cada unidade de amostragem é um conglomerado e
não um indivíduo da população. Assim o sorteio é realizado sobre os conglomerados.
Como exemplo, consideremos um bairro que possui 300 residências e nestas,
existe em média 5 moradores por domicílio. Se desejamos tomar uma amostra total de
150 moradores do bairro, podemos dividir este bairro em quarteirões de
aproximadamente 10 casas cada um e sortearmos 3 deles. Então teremos:
3 (quarteirões) x 10 (residências) x 5 (pessoas) = 150 pessoas
5.5- AMOSTRAGEM SISTEMÁTICA (AS)
Por esse sistema os elementos da população devem se encontrar ordenados. A

coleta dos elementos da amostra se dá através de intervalos, sendo estes intervalos
determinados através do cálculo dos chamados passos ou intervalos de amostragem,
N
dado por: K  (onde N é o tamanho da população e n é o tamanho da amostra).
n
O processo consiste em sortear o primeiro elemento da amostra dentre os K
primeiros elementos da população. A partir deste sorteio os próximos elementos da
amostra são retirados saltando-se K elementos a partir do primeiro, segundo, terceiro, e
assim sucessivamente, até completar o tamanho da amostra. Se N = 12 e n = 4, teremos
um K = 3 e os elementos da amostra poderiam ser: A = { B, E, H, K}
A B C D E F G H I J K L
OBS: A principal vantagem da AS é facilitar o processo de coleta dos elementos da

amostra, porém deve-se tomar o cuidado de verificar se o valor do K não coincide com
ciclos de variação já existentes na população, pois se isto ocorrer a amostra não será
representativa da população sob estudo.
EXEMPLO: Um lote de 500 peças (enumeradas de 1 a 500) deve ser inspecionado

durante sua produção. As peças que irão compor a amostra serão coletadas na linha de
produção. Selecionar por meio de uma AS uma amostra de 20 peças.
30
6- NOÇÕES SOBRE PROBABILIDADES
6.1 – Conceitos Básicos
a) Probabilidade
É a frequência relativa associada a uma variável descritora de uma população infinita.
b) Espaço Amostral
É o conjunto de todos os resultados possíveis de um experimento, sendo geralmente,
simbolizado pelas letras S ou Ω.
c) Evento
Um evento é um subconjunto do espaço amostral e representa um conjunto de
resultados de interesse do pesquisador. Geralmente é representado por letras latinas.
d) Cálculo de Probabilidades
Como as probabilidades são freqüências relativas, a probabilidade de um evento A
ocorrer é a divisão do número de elementos deste evento pelo número total de
elementos do espaço amostral.
n( A)
P( A) 
n( S )
Exemplos:
1) Consideremos o lançamento de um dado comum. Trata-se de um experimento

aleatório. Calcular:
a) a probabilidade de ocorrer face igual a 5.
b) a probabilidade de ocorrer face ímpar.
2) Considere agora o lançamento de dois dados. Calcular:

a) a probabilidade ocorrerem faces iguais.
b) a probabilidade de ocorrerem soma das faces igual a 10.
c) a probabilidade de ocorrerem soma das faces maior ou igual a 9.
31
6.2 – Axiomas e Teoremas
Axiomas de Kolmogorov (1939).
i) P( A)  0 , para qualquer evento A, pertencente a um espaço amostral S.
ii) P(S )  1, onde S é o espaço amostral.
iii) P( A  B)  P( A)  P( B) , se A e B forem mutuamente exclusivos.
Alguns Teoremas:
iv) P( A  B)  P( A)  P( B)  P( A  B) , para A e B dois eventos quaisquer.
v) P ( A )  1  P ( A) , para o complemento de A.
C
EXEMPLO: Uma urna contém bolas enumeradas de 1 a 15. Determine a probabilidade

de se retirar uma bola desta urna ao acaso e esta ser representada por:
a) um número par;
b) um número ímpar;
c) um número par e múltiplo de 3;
d) um número par ou múltiplo de 3.
32
6.3- Probabilidade Condicional
A probabilidade condicional é utilizada quando o valor da probabilidade de

ocorrência de um determinado evento A, depende da ocorrência de um outro evento B.
Assim, a expressão usada para o cálculo de uma probabilidade condicional é:
P( A  B)
P( A B) 
P( B)
EXEMPLO: Um grupo de pessoas foi classificado quanto ao peso e a pressão arterial.

Os dados encontram-se na tabela a seguir.
Pressão Peso
Totais
Arterial Excesso Normal Baixo
Elevada 20 16 4 40
Normal 30 90 40 160
Totais 50 106 44 200
Determina a probabilidade de uma pessoa, escolhida ao acaso neste grupo, apresentar:
a) pressão elevada;
b) pressão elevada e peso em excesso;
c) sabendo-se que a pessoa escolhida tem excesso de peso, determine a probabilidade
desta pessoa apresentar também pressão arterial elevada.
d) sabendo-se que a pessoa escolhida tem peso normal, determine a probabilidade desta
pessoa apresentar também pressão arterial elevada.
33
6.4- Eventos Independentes
Dois eventos A e B são ditos independentes se, e somente se:
P( A  B)  P( A)  P( B)
6.5- Teorema de Bayes
a) Teorema da Probabilidade Total
Sejam A1, A2,..., An eventos que formam uma partição do espaço amostral S.
Seja B um evento desse espaço.
S
B
A1 A2 A3 A4
Então:
n n
P( B)    Ai  B    P( Ai ).P( B Ai )
i 1 i 1
34
b) Teorema de Bayes
Sejam A1, A2,..., An eventos que formam uma partição do espaço amostral S.
Seja B  S . Considere conhecidas P ( Ai ) e P ( B Ai ) , com i = 1, 2, ..., n. Então:
P( Aj ).P( B Aj )
P( Aj B)  n
, j  1,...n.
 P( A ).P( B A )
i 1
i i
EXEMPLO: Um certo programa pode ser usado com uma entre duas sub-rotinas A e
B, dependendo do problema. A experiência tem mostrado que a sub-rotina A é usada
40% das vezes e B é usada 60% das vezes. Se A é usada, existe 55% de chance de que o
programa chegue a um resultado dentro do limite de tempo. Se B é usada, a chance é de
70%. Considere que em um teste, o programa gerou o resultado dentro do limite de
tempo. Qual a probabilidade de que a sub-rotina A tenha sido escolhida?
35
7- DISTRIBUIÇÕES DE PROBABILIDADE
7.1- VARIÁVEIS ALEATÓRIAS
7.1.1- Conceito
Considere que um casal deseja ter três filhos. O espaço amostral correspondente
ao sexo desses filhos é:
S = {(M, M, M), (F, F, F), (M, F, F), (F, M, F), (F, F, M), (F, M, M), (M, F, M), (M, M, F)}
Podemos organizar os eventos desse espaço amostral de acordo com a
quantidade X de mulheres (sexo feminino - F).
EVENTOS CORRESPONDENTES X P(X)

A1 = {(M, M, M)} 0 P(X=0) = 1/8
A2 = {(F, M, M), (M, F, M), (M, M, F)} 1 P(X=1) = 3/8
A3 = {(M, F, F), (F, M, F), (F, F, M)} 2 P(X=2) = 3/8
A4 = {(F, F, F)} 3 P(X=3) = 1/8
Observe que para cada evento Ai, associamos um valor de X, de acordo com o
número de mulheres em cada um dos resultados do evento. E, cada valor de X está
associado a um valor de probabilidade P(X).
Portanto, podemos dizer que X é uma variável aleatória, pois para cada evento
de interesse, associamos um valor correspondente X. Ainda, cada valor associado ao
evento também está associado a uma probabilidade de ocorrência.
Então, uma variável aleatória é uma função que associa a todo evento
pertencente a uma partição do espaço amostral um único número real.
OBS:
36
7.1.2- Função de Probabilidade
É a função que associa a cada valor assumido pela variável aleatória a

probabilidade do evento correspondente. Deve obedecer as seguintes condições:
I) P( X  x)  0;
II)  P( X  x )  1.
i
i
Vários autores denominam a função de probabilidade como distribuição de

probabilidade de uma variável aleatória discreta X.
7.2- DISTRIBUIÇÕES DE VARIÁVEIS ALEATÓRIAS DISCRETAS
7.2.1 - DISTRIBUIÇÃO DE BERNOULLI
Originam-se de experimentos que admitem apenas dois resultados.

Exemplos:
1) Uma peça é classificada como boa ou defeituosa;
2) Um entrevistado concorda ou não com a afirmação feita;
3) O resultado de um exame médico para detecção de uma doença é positivo ou
negativo;
4) No lançamento de um dado ocorre ou não a face 5.
Situações com alternativas dicotômicas (duas respostas) podem ser

representadas genericamente por respostas do tipo sucesso-fracasso.
Esses experimentos recebem o nome de ensaio de Bernoulli e originam uma v.a.
com distribuição Bernoulli.
 Variável Aleatória de Bernoulli
É uma v.a. X que assume apenas dois valores: 1 se ocorrer sucesso, e 0 se

ocorrer fracasso, e, sendo p a probabilidade de sucesso, 0 < p < 1.
Denotamos por X ~ Bernoulli (p) uma v. a. com distribuição de Bernoulli com
parâmetro p.
37
0, se ocorrer "fracasso"
X
 1, se ocorrer "sucesso"
Repetições independentes de um ensaio de Bernoulli dão origem ao modelo

binomial.
7.2.2- DISTRIBUIÇÃO BINOMIAL
Um Experimento Binomial é aquele que:

(a) que consiste em n ensaios de Bernoulli;
(b) os ensaios são independentes; e
(c) para o qual a probabilidade de sucesso em cada ensaio é sempre igual a p,
0 < p < 1.
A v.a. X, correspondente ao número de sucessos num experimento binomial, tem

distribuição binomial com parâmetros n e p, com função de probabilidade dada por:
n
P(X  x)    .p x .(1  p) n x , X  0,1, 2,..., n
x
onde:  n   n!
 x  x!(n  x)! e n!  n.(n  1).(n  2).....2.1
 
Notação: X ~ B(n; p).
 Média e Variância da Binomial
A Média e a Variância são dadas, respectivamente, por:
E(X) = n.p e Var(X) = n.p.(1-p)
38
Exemplo: Suponha que 20% dos clientes de uma empresa sejam inadimplentes. Se 10
pessoas dessa população forem escolhidas ao acaso, determine:
(a) O nº esperado de inadimplentes.
(b) A probabilidade de selecionar exatamente 3 pessoas inadimplentes.
(c) A probabilidade de selecionar no máximo 3 inadimplentes.
7.2.3- DISTRIBUIÇÃO DE POISSON
A distribuição de Poisson é empregada em experimentos nos quais não se está

interessado no número de sucessos obtido em n tentativas, como ocorre no caso da
distribuição binomial, mas sim no número de sucessos ocorridos durante um intervalo
contínuo, que pode ser um intervalo de tempo, espaço, etc. Alguns exemplos de
variáveis que podem ter a distribuição de Poisson são:
(a) número de defeitos por centímetro quadrado;

(b) n° de clientes por hora;
(c) n° de chamadas telefônicas recebidas por minuto;
(d) n° de falhas de um programa de computador num dia de operação.
Note-se que a unidade de medida (tempo, área) é contínua, mas a variável
aleatória de interesse (número de ocorrência) é discreta.
39
As probabilidades, calculadas agora para todos os números inteiros não
negativos k = 0, 1, 2, ... são dadas da seguinte forma:
e  . x
P(X  x)  , x  0,1, 2,....
x!
onde “X = números de sucessos em um intervalo” é a variável de interesse,

λ > 0 é o número médio de sucessos da variável X e,
“e” é a constante 2,7183 (base dos logaritmos naturais).
Notação: X ~ P(x, λ)
Esperança e Variância: E (X) = Var (X) = λ
EXEMPLO: Um departamento de conserto de máquinas recebe uma média de cinco

chamadas por hora. Supondo que a distribuição de Poisson seja adequada nessa
situação, obter a probabilidade de que, em uma hora selecionada aleatoriamente, sejam
recebidas:
a) três chamadas;
b) até três chamadas.
40
7.2.4- OUTRAS DISTRIBUIÇÕES DISCRETAS
a) Distribuição Geométrica
P(X  x)  p.(1  p) x , X  1,2,... parâmetro : p
b) Distribuição Hipergeométrica
 r  N  r 
 x  n  x 
 
P(X  x)    , X  0,1,2,... parâmetros : N, r, n
N
 
n
onde: r é o número de elementos de N com uma característica de interesse e x é o número
de elementos com a característica de interesse na amostra de n elementos tomada.
41
7.3- DISTRIBUIÇÕES DE VARIÁVEIS ALEATÓRIAS CONTÍNUAS
7.3.1- DEFINIÇÕES
a) Função Densidade de Probabilidade (f.d.p)
Para variáveis aleatórias contínuas não faz sentido associarmos valores de

probabilidade P(X) a valores pontuais de X, como ocorre para variáveis aleatórias
discretas, pois todas essas probabilidades em uma variável aleatória contínua têm
valores tão pequenos que podemos considerá-los nulos. Assim, o cálculo de
probabilidades para esse tipo de variável aleatória é feito através de intervalos de X,
como P(x1 < X < x2). Isso resulta em um tipo de função diferente, que denominamos por
função densidade de probabilidade. As condições que essa função deve seguir, são:

I) 

f ( x)dx  1;

x2
II) P( x1  X  x2 )  x1
f ( x)dx , para quaisquer x1 e x2 .
b) Função de Distribuição Acumulada
Independente da variável aleatória ser discreta ou contínua, se quisermos obter

probabilidades de que a variável em questão esteja abaixo de um determinado valor,
podemos aplicar a função de distribuição acumulada ou simplesmente função de
distribuição. Sua definição é:
k
I) F ( xk )   P( X  xi ) , para v. a. discretas.
i 1
x
II) F ( x)   f ( x)dx , para v.a. contínuas.

7.3.2- DISTRIBUIÇÃO UNIFORME CONTÍNUA
Uma variável aleatória contínua X tem distribuição uniforme no intervalo

 ,   se sua f.d.p. é dada por:
42
 1
 , se   x   ,
f ( x;  ,  )=    
0 ,
 caso contrário.
A esperança e a variância dessa distribuição são:
  
2
 
E( X )  e Var ( X )  .
2 12
Uma das principais aplicações da distribuição uniforme consiste na geração de
números aleatórios, de 0 a 1, implementados na maioria das linguagens de programação,
planilhas e softwares estatísticos. Esses números são chamados de pseudo-aleatórios,
pois é possível repetir uma mesma sequência de números gerados, a partir da mesma
semente.
7.3.3- DISTRIBUIÇÃO EXPONENCIAL
Uma variável aleatória contínua X tem distribuição exponencial de

probabilidade se a sua f.d.p. é dada por:
 e x , x0 ;
f ( x;  )= 
0 , caso contrário.
A esperança e a variância dessa distribuição, com parâmetro α, são:

1 1
E( X )  e Var ( X )  .
 2
A distribuição exponencial é muita usada para modelar situações em que a

ocorrência de uma variável tende a se tornar menos provável à medida que a variável
sob estudo aumenta. Assim, pode-se verificar sua aplicação em estudos do tempo de
vida útil de equipamentos, tempos de falha e tempo de sobrevivência de espécies.
43
EXEMPLO: Uma empresa que produz processadores de computador determinou que a
vida média de um dos seus processadores é de 8.000 horas. Sabendo-se que este tempo
segue uma distribuição exponencial, qual a probabilidade de que essa empresa tenha
que substituir um processador gratuitamente, se ela oferecer uma garantia de:
a) 4.000 horas?
b) 2.000 horas?
7.3.4- DISTRIBUIÇÃO NORMAL
A distribuição Normal é uma das mais importantes distribuições contínuas de

probabilidade. Foi introduzida em 1730 por D´Moivre e depois foi muito utilizada em
Astronomia pelo alemão físico/matemático Gauss, trazendo muita confusão para várias
pessoas que por esse motivo, acham que foi Gauss que a descobriu.
Muitos dos fenômenos aleatórios de interesse comportam-se próximos a essa
distribuição com valores muito freqüentes em torno da média e diminuindo a freqüência
à medida que nos afastamos da média. Algumas variáveis que seguem este tipo de
distribuição são: peso, altura, diâmetro, dentre outras. Ainda que as próprias variáveis
individuais não sejam normalmente distribuídas, as somas e as médias das variáveis
terão uma distribuição aproximadamente normal sob condições adequadas. Essa é a
essência de um famoso teorema em estatística, conhecido como “Teorema do Limite
Central”.
44
a) Função Densidade de Probabilidade da Distribuição Normal
( x  ) 2
1 
f (x; , )  .e 2. , -  x  
2
2.
Parâmetros: μ : média ou valor esperado e σ2: variância
Notação : X ~ N(,  2 )
b) O gráfico da densidade normal
Propriedades:
 A curva normal é simétrica em torno da média μ;

 A moda e a mediana são iguais a μ;
 Os pontos de inflexão são μ- σ e μ + σ;
 A área sob a curva e acima do eixo horizontal é igual a 1.
c) Distribuição Normal Reduzida ou Padronizada ( Z )
Para calcular P(a  X  b) quando X é uma variável normal com parâmetros

μ e , devemos resolver a seguinte integral:
45
( x  )
2
1 

b
.e 2. dx
2
2.
a
Nenhuma das técnicas de integração-padrão podem ser usadas para calcular o

valor da expressão acima.
Porém, quando μ = 0 e  = 1, os valores foram calculados e tabulados para
determinados valores de a e b. Esses valores correspondem a probabilidade da variável
X se encontrar entre dois valores a e b.
A distribuição Normal reduzida ou padronizada, representada pela letra Z, é
então aquela em que μ = 0 e  = 1. Qualquer variável aleatória X pode ser transformada
em uma variável normal padronizada Z, através da seguinte expressão:
X
Z

Onde: X é o valor da variável aleatória que segue uma distribuição normal;

μ é a média da variável normal X;
 é o desvio padrão da variável normal X;
EXEMPLOS:
1) Uma variável aleatória X segue uma distribuição normal com média igual a 100 e
variância igual a 64. Calcule as seguintes probabilidades:
a) a probabilidade de X estar entre 100 e 110;
b) a probabilidade de X estar entre 88 e 114;
c) a probabilidade de X ser maior que 118;
d) a probabilidade de X ser menor que 112.
46
2) Uma máquina que produz rolamentos, inicialmente foi configurada para que o
diâmetro real médio dos rolamentos produzidos seja de 0,500 polegadas. Um rolamento
é aceitável se o diâmetro está dentro de 0,004 polegadas desse valor-alvo. Suponha,
entretanto, que a configuração das máquinas produtoras tenha sido alterada durante o
curso da produção, de forma que os rolamentos tenham diâmetros com distribuição
normal com média 0,499 polegadas e desvio padrão de 0,002 polegadas. Que
porcentagem dos rolamentos produzidos não será aceitável?
47
8- DISTRIBUIÇÕES DE AMOSTRAGEM
8.1- INTRODUÇÃO
Do fato de que os elementos de uma amostra são aleatórios (considerando

amostragens probabilísticas), decorre que qualquer quantidade calculada em função dos
elementos da amostra, também será uma variável aleatória. Essas quantidades
calculadas a partir da amostra são chamadas de estatísticas. Assim, a média, a
proporção e a variância amostrais, que são medidas obtidas a partir de uma amostra,
também terão alguma distribuição de probabilidade, comumente chamada de
distribuição de amostragem.
8.2- DISTRIBUIÇÃO AMOSTRAL DE x
Sendo a população infinita ou a amostragem feita com reposição, diversos

valores da amostra podem ser considerados como variáveis aleatórias independentes e
identicamente distribuídas, com a mesma média e variância populacionais. Portanto, se
tomarmos infinitas amostras dessa população, cada uma terá uma média amostral xi .
Essas médias constituem uma nova variável aleatória com uma distribuição de
probabilidade. A forma da distribuição amostral de x dependerá de dois teoremas
enunciados a seguir:
a) Teorema das Combinações Lineares (de variáveis normais independentes)
Se a distribuição da população for normal, com média  e variância  2 , a

distribuição amostral de x será também normal para qualquer tamanho de amostra, com
média  e variância  2 n .
48
b) Teorema do Limite Central (TLC)
Seja uma população que segue uma distribuição de probabilidade qualquer, de

tamanho infinito, com média  e variância  2 . Se infinitas amostras, suficientemente
grandes, de tamanho n forem coletadas dessa população, então a distribuição amostral
de x será aproximadamente normal, com média  e variância  2 n . Tal aproximação
será cada vez melhor, à medida que n tende ao infinito.
49
Assim, essa condição de normalidade da variável aleatória x dá condição para
que ela possa ser expressa na forma padronizada z, através de:
x 
z
2
n
É importante notar que em ambos os teoremas citados, sugere-se o

conhecimento da variância populacional  2 .
8.3- Distribuição t de Student (Willian S. Gosset)
Na maior parte dos estudos realizados com amostras, a variância populacional

 2 não é conhecida. Mas, podemos calcular a variância amostral s 2 e usá-la no lugar
de  2 . Porém, quando fazemos essa substituição, a variável resultante não tem mais
uma distribuição normal padrão z, mas sim uma distribuição conhecida como t de
Student. Dessa forma, temos:
x 
t
s2
n
Essa distribuição tem um único parâmetro, conhecido como grau de liberdade da

amostra (  n  1 ).
50
8.4 - DISTRIBUIÇÃO APROXIMADA DA PROPORÇÃO AMOSTRAL p̂
É conhecido que a distribuição do número de sucessos observado em um

experimento aleatório que se repete um determinado número de vezes segue uma
distribuição binomial. Portanto, a distribuição amostral de p̂ depende da distribuição
do número de sucessos observado em um experimento. A distribuição exata desse
parâmetro é um pouco mais complicada e pouco usual. Em geral, adota-se sua
distribuição aproximada, que é uma normal com média   np e variância
 2  np(1  p) .
 p(1  p) 
pˆ  N  p, 
 n 
8.5 - DISTRIBUIÇÃO DA VARIÂNCIA AMOSTRAL s2
Lembremos que para o cálculo da variância de uma amostra é necessário

trabalhar com os quadrados dos elementos xi da amostra e depois devemos somar esses
quadrados. Se considerarmos que os elementos da amostra são independentes e
51
retirados de uma população normal com média  e desvio padrão  , esses valores de
xi poderão ser expressos por uma variável z (normal padronizada). Assim, temos que
 xi   
 2 
 
i 1 
   zi   ,
  i 1
2 2
onde 2 é a notação de uma distribuição de probabilidade conhecida com qui-
quadrado. Seu parâmetro é o número de graus de liberdade  da amostra. É interessante

observar na figura a seguir que a distribuição de qui-quadrado se aproxima de uma
normal à medida que os graus de liberdade aumentam.
Se substituirmos  por x na expressão anterior ao gráfico, temos:
n 2 n 2
n
 xi  x 
2   xi  x  n  1   xi  x   n  1 .s 2
 
i 1     
i 1
 2
 2 . i 1
 n 1

 2
  n21 ,
ou seja, a menos de uma constante, a estatística s 2 segue uma distribuição de qui-

quadrado com n-1 graus de liberdade.
52
8.6 - DISTRIBUIÇÃO DA RAZÃO ENTRE DUAS VARIÂNCIAS AMOSTRAIS
s12 / s22
Sabemos pelo item anterior, que a distribuição de probabilidades associada a

uma variância amostral é uma qui-quadrado com   n  1 graus de liberdade. Para uma
razão entre duas variâncias amostrais, teremos uma razão entre duas distribuições de
qui-quadrado, a do numerador com  1  n1  1 graus de liberdade e a do denominador
com  2  n2 1 . Uma razão entre essas duas distribuições de qui-quadrado resulta em

uma nova distribuição, conhecida como F de Snedecor.
2  1
F1 ,  2  2 1
  2
2
As distribuições t de Student e F de Snedecor possuem uma relação entre si,

quando consideramos que o grau de liberdade do numerador da F é igual a 1, dada por:
t2 2,   F ; 1 1,  2  ,
onde  é uma área ou probabilidade (em geral 5% ou 1%).
EXERCÍCIO: O diâmetro interno de um anel de pistão é uma variável aleatória com

valor médio de 12cm e desvio padrão de 0,04cm.
a) Se X é o diâmetro médio para uma amostra aleatória de 16 anéis, qual é o desvio
padrão da distribuição de X ?
b) Se n = 64 anéis, qual será o desvio padrão de X ?
c) Para qual das duas amostras aleatórias, a da letra ( a ) ou a da letra ( b ), X é mais
provável de estar entre 11,99cm e 12,01cm?
d) Qual a probabilidade do diâmetro médio da amostra exceder 12,01cm quando n = 25?
53
9 – TEORIA DA ESTIMAÇÃO
9.1- Introdução
A maior parte dos trabalhos de pesquisa são realizados através de amostras.

Porém, como já sabemos, o foco nesses estudos é a obtenção de informações sobre
determinadas características populacionais. Essas características são chamadas de
“parâmetros populacionais” e em geral correspondem a medidas de posição
(principalmente a média), dispersão (como a variância e o desvio padrão) ou
proporções. Esse processo de utilização de amostras para se afirmar algo sobre a
população é chamado de Inferência Estatística.
De uma forma simplificada, a Inferência Estatística é geralmente subdividida no
estudo da teoria da estimação e na teoria da decisão. A primeira será o nosso foco de
estudo nesse capítulo e consiste nas técnicas que nos permitem determinar valores
aproximados que representam os parâmetros de interesse (estimação pontual), bem
como, o erro associado na determinação desses valores (estimação por intervalo).
9.2- Conceitos Básicos
Parâmetro (θ): medida usada para descrever uma característica da população. Função
dos dados populacionais.
Estimativa: valor aproximado de um parâmetro populacional desconhecido. Função
dos dados amostrais.
Estimador: corresponde à expressão algébrica que permite obter uma estimativa.
Geralmente é simbolizado por letras latinas ou por letras que representam o parâmetro
populacional acompanhadas de um acento circunflexo ( ˆ ).
Estimação: o ato de obter uma estimativa.
9.3- Estimação Pontual
Consiste no processo de obtenção de expressões algébricas ou funções dos dados

amostrais que determinam valores pontuais de parâmetros populacionais de interesse. A
obtenção dessas expressões é feita por processos matemáticos relativamente complexos,
que fogem ao escopo dessa disciplina. Assim, o que nos compete é colocar os principais
54
estimadores, já definidos, que são mais utilizados na prática do dia a dia de um
pesquisador.
 Exemplos de estimadores:
Y X i
pˆ  i  i 1
p̂ é o estimador da proporção populacional p.
n n
1 n
ˆ  X   Xi
n i 1 X é o estimador da média populacional µ.
1 n
S2  
n  1 i 1
( X i  X )2
S 2 é o estimador da variância populacional 
2
para populações infinitas.
( N  1) 
(X i  X )2
ˆ 2  i 1
N n 1 ̂ 2 é o estimador da variância populacional  2
para populações finitas.
 Propriedades desejadas dos estimadores:
a) Não-tendenciosidade: corresponde ao fato de que se tomarmos infinitas amostras de

uma população, o valor médio do estimador ˆ será igual ao valor do verdadeiro
parâmetro populacional  .
b) Precisão: está relacionada com o fato de que se temos dois estimadores para um
mesmo parâmetro populacional, como é o caso da variância, por exemplo, o estimador
mais preciso desse parâmetro será aquele que possuir menor variância entre suas
estimativas.
55
Exemplo – Proporção de pessoas que tem animal doméstico
Numa amostra de 3000 domicílios de Porto Alegre - RS, 600 tinham pelo menos um
animal doméstico (cão ou gato). Estime pontualmente a proporção de domicílios que
tem pelo menos um cão ou gato.
600 1
pˆ   ou 0, 20 ou 20%
3000 5
9.4 – Estimação por Intervalo
Consiste em cercar o valor da estimativa pontual por uma região cuja

probabilidade de conter o verdadeiro parâmetro seja conhecida, gerando um intervalo
conhecido como Intervalo de Confiança (IC) do parâmetro sob estudo.
9.4.1- Notações que serão utilizadas a partir de agora

 (alfa) = nível de significância
1   = nível de confiança
 
tn 1 ; = valor da distribuição t de Student com n-1 graus de liberdade e área à
2 2
direita.

Z  = valor da distribuição normal padrão com área à direita.
2 2
Em geral, os intervalos de confiança para um parâmetro  qualquer, têm uma
forma bastante usual de serem expressos.
IC1 ( ) : ˆ  e
Lê-se: existe probabilidade de 1   de que o verdadeiro valor do parâmetro  esteja no
intervalo de ˆ - e e ˆ + e , em que e é o erro associado à estimativa ˆ .
9.4.2 – Intervalo de confiança (IC) para  (média) de uma população normal
a) Quando a variância  é conhecida.

2
56
Devemos definir primeiro o nível de significância  , geralmente 10%, 5% ou
1%. Feito isto, calculamos o nível de confiança do intervalo 1   . Se, por exemplo,
 =5%, o intervalo de confiança será de 1 – 0,05 = 0,95 ou 95%.
Depois, estimamos pontualmente o valor da média ( X ). Calculamos o erro padrão
 n e finalmente, obtemos o valor tabelado de Z  . O IC será então dado por:
2

IC1 (  ) : X  Z
2 n
b) Quando a variância 
2
é desconhecida.
Deve-se proceder da mesma forma que o item a, porém além de estimar
pontualmente a média deve-se também estimar a variância s2. Nesse caso, troca-se a
distribuição normal padrão Z pela distribuição t de Student, obtendo-se o valor tabelado
de t .
; n 1
2
Com esses valores, podemos obter o intervalo de confiança para a média, através
das fórmulas:
s
IC1 (  ) : X  t , (para populações infinitas)
2
; (n-1) n
ou
s N n
IC1 (  ) : X  t . (populações finitas)
; n 1 n N
2
OBS: os termos que são somados e subtraídos da média amostral X , nesses intervalos
constituem o erro de estimação da média. Portanto, para populações infinitas, com
variância desconhecida, o erro é dado por:
s s2
e  t  
ou e 2  t 2 
.
 ; n 1 n  ; n1 n
2  2 
Com base nesse erro, podemos dimensionar o tamanho de amostras.
9.4.3 – Intervalo de confiança (IC) para p (proporções) – aproximação normal
57
A estimativa pontual para uma proporção é dada diretamente pela proporção
amostral. É muito útil construirmos um intervalo em torno da estimativa pontual que
possua uma probabilidade conhecida de conter a verdadeira proporção populacional.
pˆ (1  pˆ )
IC1 ( p) : pˆ  Z 
2
n
(para populações infinitas)

ou
pˆ (1  pˆ ) N n
IC1 ( p) : pˆ  Z  .
2
n N
(para populações finitas)
Se:
 = 10%, Z   Z 0,05  1, 645 ;
2
 = 5%, Z   Z 0,025  1,96 ;

2
 = 1%, Z   Z 0,005  2,576 .

2
OBS: a margem de erro na estimação de proporções, em populações infinitas, é dada

por:
pˆ (1  pˆ )
e  Z
2
n
Trabalhando esta expressão, podemos dimensionar tamanhos de amostra, utilizando:
Z2 2 pˆ (1  pˆ )
n
e2
OBS: quando p não é estimado, utilizamos o valor 0,5 como estimativa para p. Dessa
forma, atribuída uma margem de erro e , encontramos um tamanho de amostra máximo
( nmáx ) para um dado estudo.
9.4.4 – Intervalo de confiança (IC) para  2 (variância) de uma população normal
58
Seja uma variável aleatória X ~ N ( ,  2 ) associada a uma população da qual é
retirada uma amostra aleatória de tamanho n. Um intervalo de confiança para o
parâmetro  2 , obtido a partir dessa amostra será:
 
 (n  1) s (n  1) s 
2 2
IC1 ( 2 ) :  2 ; 2 
  
 2 ; (n-1) 1 ; (n-1) 
 2 
Supondo que se queira um intervalo para  2 com nível de confiança de 90%, isto é cujo
  0,10 , temos que consultar dois valores de qui-quadrado. O primeiro com
 2  0,05 e o segundo com 1   2  0,95 . Claro que o grau de liberdade da amostra é
o mesmo, ou seja, v = n-1.
EXEMPLOS
1) Em uma amostra de 21 pacientes, selecionados ao acaso de uma população infinita, a

taxa média de glicemia foi de 135mg/dl com um desvio padrão de 13,69mg/dl. Com
essas informações, pede-se:
a) construir um IC com 95% de confiança para a verdadeira taxa de glicemia desta
população.
b) construir um IC com 99% de confiança para a verdadeira taxa de glicemia desta
população. Qual foi o efeito do aumento do nível de confiança neste IC?
c) considere que de uma segunda amostra, agora com n = 31, tomada ao acaso desta
mesma população, coincidentemente a média e o desvio padrão também foram iguais a
135mg/dl e 13,69mg/dl, respectivamente. Construir um IC com 95% de confiança para
a verdadeira taxa de glicemia desta população. Qual foi o efeito do aumento do tamanho
da amostra neste IC?
59
2) Em 15 unidades amostrais de leite enviadas para a análise físico-química no
laboratório de controle de qualidade de um laticínio, observou-se uma variância do pH
igual a 0,16. Assumindo que o pH do leite segue uma distribuição normal, construa um
IC de 95% para  2 . (Dado:  0,025;
2
14  5, 629 e  0,975; 14  26,119 )
2
3) Para se estimar a proporção de alunos de um curso favoráveis à modificação do

currículo escolar, tomou-se uma amostra de 100 alunos, dos quais 80 foram favoráveis.
Considerando a população infinita, determinar:
a) um IC para a proporção de todos os alunos do curso favoráveis à modificação com
nível de significância   0,05 .
b) qual o valor do erro de estimação cometido no item a?
c) se a proporção de alunos favoráveis a mudança de currículo foi de 0,80 em uma
amostra piloto, qual deve ser o tamanho da amostra necessária para que a margem de
erro seja de no máximo 5%, com nível de confiança de 95%?
d) caso não seja conhecida uma estimativa da proporção de alunos favoráveis a
mudança de currículo, qual seria o tamanho da amostra necessária para estimar essa
proporção com margem de erro máxima de 5% e nível de confiança de 95%?
60
10- TEORIA DA DECISÃO
10.1- INTRODUÇÃO
Em todas as áreas do conhecimento humano há uma busca contínua e

ininterrupta por novos métodos, procedimentos e materiais que melhorem em algum
sentido aqueles já existentes. O conhecimento da herdabilidade de determinadas
doenças, por exemplo, pode ajudar no desenvolvimento de métodos para a sua
prevenção, na indústria automobilística procuram-se motores de maior rendimento e de
menor ruído. Na engenharia a busca é por materiais mais leves e resistentes. Na
computação, procuram-se algoritmos mais eficientes, com melhor desempenho e
confiabilidade.
Em todas essas situações é preciso comparar técnicas e materiais tradicionais
com as novas técnicas ou materiais alternativos. Estas comparações surgem
frequentemente no trabalho de pesquisa e desenvolvimento. Não se trata, entretanto, de
tarefa simples como a princípio pode parecer. É necessário coletar dados e fazer
inferências a partir de evidências experimentais ou observacionais. Para isto, é comum
os pesquisadores reproduzirem os fenômenos que desejam estudar para testarem o
comportamento das técnicas ou materiais de interesse. A esta reprodução denominamos
“experimento”.
10.2- CONCEITOS FUNDAMENTAIS
Em geral, os dados obtidos em um experimento nos ajudam a estimar parâmetros

de interesse em cada grupo avaliado (ou em cada população estudada). O principal
interesse de um pesquisador, de qualquer área, é verificar se existe ou não diferença dos
parâmetros entre os grupos estudados.
Para melhor entendimento, considere que desejamos comparar o desempenho de
duas turmas A e B que fazem a disciplina de estatística. Para isso, tomamos uma
amostra de 10 alunos de cada uma. A questão em si, não é simplesmente obter a nota
média de cada amostra X A e X B e compará-las, mas sim, saber se existe ou não diferença
entre as médias populacionais µA e µB. Para isso, inicialmente, fazemos algumas
afirmativas possíveis sobre essas duas populações, como por exemplo,  A  B ,

61
 A  B ou  A   B . Como não conhecemos a população, todas essas afirmativas são
apenas hipóteses estatísticas.
Uma hipótese estatística é uma afirmativa ou conjectura feita sobre algum
parâmetro  de interesse na população.

O procedimento estatístico usado para verificar a validade ou não dessas
afirmativas, com base em dados amostrais é denominado de Teste de Hipóteses. Um
teste de hipóteses envolve duas hipóteses estatísticas que serão descritas a seguir.
10.2.1- HIPÓTESES A SEREM TESTADAS
 Hipótese nula
No problema de comparação do desempenho de duas turmas de estatística,

por exemplo, é usual fixar como hipótese de interesse a inexistência de diferença
entre o desempenho das duas turmas. Se, inexiste diferença, é porque a diferença
entre as médias é nula, pois os parâmetros têm o mesmo valor. Por estas razões, a
hipótese a ser testada é usualmente chamada hipótese nula (H 0 ).
H 0 :  A  B
 Hipótese alternativa
A hipótese nula deve ser comparada com uma hipótese alternativa, denominada
H1, complementar à afirmativa feita na hipótese nula, claro que, envolvendo as
possibilidades do espaço paramétrico. Para cada situação existem muitas hipóteses
alternativas adequadas. Em geral a hipótese alternativa é expressa por três formas
dferentes:
H1 :  A  B ou H1 :  A  B ou H1 :  A  B .
 Estrutura geral dos Teste de Hipóteses
H0 :  A  B H0 :  A  B
 
 H1 :  A   B
(Teste Bilateral) (Teste Unilateral)
 H1 :  A   B
62
10.2.2- ERROS ASSOCIADOS
Outros elementos importantes de um teste de hipóteses são os possíveis erros

que se pode cometer, ao se utilizar determinada regra de decisão. São eles:
 Erro Tipo I: consiste no erro que se comete ao rejeitar H 0 , sendo que ela é
verdadeira.
 Erro Tipo II: consiste no erro que se comete ao aceitar H 0 , sendo que ela é falsa.
Tabela 1: Erros associados e suas probabilidades de ocorrência.

A verdade na população
Decisão Tomada
H0 é verdadeira H0 é falsa
Decisão errada
Decisão correta
H0 é rejeitada (Erro Tipo I)
Probabilidade = 1 - 
Probabilidade = 
Decisão errada
Decisão correta
H0 é falsa (Erro Tipo II)
Probabilidade = 1 - 
Probabilidade = 
Probabilidade Total 1 1
A probabilidade de se cometer o erro tipo I é em geral representada pela letra

grega  , e comumente também é chamada de nível de significância do teste. A
probabilidade de rejeitar H0, sendo que de fato ela é falsa, é denominada de poder do
teste.
10.3- TESTES DE HIPÓTESES PARA OS PARÂMETROS  , p e  DE UMA

2
ÚNICA POPULAÇÃO COM DISTRIBUIÇÃO NORMAL (OU APROX. NORMAL)
10.3.1- TESTE PARA A MÉDIA  DE UMA POPULAÇÃO COM  2

CONHECIDO
I) Estabelecer as hipóteses:
63
 H 0 :   0
 , onde 0 é o valor que se quer testar para  .
 H1 :    0
II) Se a variância populacional  2 for conhecida, a média amostral X seguirá uma
distribuição normal. Portanto, a estatística de teste será:
X  0
Zc 

n
III) Obter o valor tabelado de Z  , caso o teste seja bilateral. Se o teste for unilateral
2
encontrar o quantil Z .
IV) Regra de decisão: Rejeitar a hipótese nula se Zc  Z ou Zc  Z . Caso

contrário, deve-se aceitar H0.
10.3.2- TESTE PARA A MÉDIA  DE UMA POPULAÇÃO COM  2

DESCONHECIDO
 H 0 :   0
 , onde 0 é o valor que se quer testar para  .
 H1 :    0
II) Se a variância populacional  2 for desconhecida, deve-se estimá-la através de s2.
Neste caso, a média amostral X seguirá uma distribuição t de Student com v = n-1
graus de liberdade. Estabelecer o nível de significância  / 2 para testes bilaterais e 
para testes unilaterais. A estatística de teste será:
X  0
tc 
s
n
III) Obter o valor tabelado de t , caso o teste seja bilateral. Se o teste for
, v  n 1
2
unilateral encontrar o quantil t , v=n-1 .
64
IV) Regra de decisão: Rejeitar a hipótese nula se tc  t ou tc  t . Caso
, v=n-1 , v=n-1
2 2
10.3.3- TESTE PARA A PROPORÇÃO p DE UMA POPULAÇÃO (APROXIMAÇÃO

NORMAL)
 H 0 : p  p0
 , onde p0 é o valor que se quer testar para p .
 H1 : p  p0
II) Com amostras grandes, a estatística p̂ seguirá uma distribuição aproximadamente

normal. Estabelecer o nível de significância  para testes unilaterais e  / 2 para testes
bilaterais. A estatística de teste será:
pˆ  p0
Zc 
p0 (1  p0 )
n
III) Obter o valor tabelado de Z , caso o teste seja unilateral. Se o teste for bilateral
encontrar o quantil Z  .
2
IV) Regra de decisão: Rejeitar a hipótese nula se Zc  Z ou Zc  Z . Caso

10.3.4- TESTE PARA A VARIÂNCIA  DE UMA POPULAÇÃO NORMAL

2
 H 0 :  2   02
 , onde  0 é o valor que se quer testar para  .
2 2
 H1 :    0
2 2
65
II) A distribuição de s2 segue uma distribuição de qui-quadrado com v = n-1 graus de
liberdade.. Estabelecer o nível de significância  para testes unilaterais e  / 2 e
1  ( / 2) para testes bilaterais. A estatística de teste será:
(n  1) s 2
  2
c
 02
III) Obter o valor tabelado de  , v=n-1 , caso o teste seja unilateral. Se o teste for
2
bilateral encontrar o quantil  2 e 2  .

, v=n-1 1 , v=n-1
2 2
IV) Regra de decisão: Rejeitar a hipótese nula se  c    ou  c2   2 

2 2
.
, v=n-1 1 , v=n-1
2 2
Caso contrário, deve-se aceitar H0.
EXEMPLOS:
1) Considere que o fabricante de uma determinada lâmpada afirma que a média do

tempo de vida do seu produto é de 2000 horas. Uma amostra de 25 lâmpadas desse
fabricante teve duração média de 1970 horas e desvio padrão de 80 horas. Verificar, ao
nível de significância de 1%, se o produto dura menos que 2000 horas?
2) Um relatório de uma companhia afirma que 40% de toda a água obtida através de
poços artesianos em uma região é salobra. Há muitas controvérsias sobre essa
afirmação, alguns dizem que a proporção é maior, outros que é menor. Para verificar
esta afirmação, coletou-se amostras em 400 poços artesianos da região, dentre os quais,
66
120 forneceram água salobra. Assim, ao nível de significância de 5%, a afirmação da
companhia procede?
3) Um fabricante de baterias automotivas afirma que a vida útil delas tem distribuição
aproximadamente normal, com variância de 0,81 ao ano, mas acredita-se que essa
variância seja maior. Em uma amostra aleatória de 10 dessas baterias observou-se uma
variância de 1,44 ao ano. Verifique, ao nível de significância de 5%, se a afirmação do
fabricante é verdadeira.
67
10.4- TESTE t PARA DUAS POPULAÇÕES
10.4.1- INTRODUÇÃO
Às vezes é preciso comparar dois grupos cuja variável analisada possui uma
resposta contínua e não mais em proporções. Nestes casos utilizamos o chamado teste t
de Student.
10.4.2- TESTE t PARA OBSERVAÇÕES INDEPENDENTES
a) Teste sobre a diferença entre médias  A  B (Variâncias  A2 e  B2 iguais)
Este teste é aplicado quando temos duas amostras constituídas por indivíduos, ou
elementos diferentes e o interesse está na comparação entre as médias das duas
populações A e B do qual cada amostra foi retirada. Para isto, a estatística de teste é:
t
X A  X B     A  B 

X A  XB  0
 1 1   1 1 
s2    s2   
 nA nB   nA nB 
XA  XB
t
 1 1 
s2   
 nA nB 
 nA  1 s A2   n B  1 sB2
Onde, s 
2
é a chamada variância ponderada, X A e
nA  nB  2
X B correspondem as médias das amostras A e B e nA e nB representam os tamanhos das
amostras dos dois grupos, respectivamente.

O teste estabelecido pode, por exemplo, ser formado pelas seguintes hipóteses:
68
 H 0 :  A  B

 H1 :  A   B
E, o critério de decisão consiste em rejeitar H0 se o valor do t calculado, em
módulo, for maior ou igual ao valor do t tabelado. O valor do t tabelado é obtido de
acordo com o nível de significância /2 estabelecido pelo pesquisador (em geral α =
0,05) e por n1+n2-2 graus de liberdade.
b) Teste sobre a diferença entre médias  A  B (Variâncias  A2 e  B2 diferentes)
XA  XB
t
s A2 sB2

nA nB
em que, o grau de liberdade v é calculado através de:
2
 s A2 sB2 
  
v   A2 B  2
n n
 s A2   sB2 
   
 nA    nB 
nA  1 nB  1
conhecida como fórmula de Satterthwaite.
Se, o teste estabelecido for unilateral, por exemplo,
 H 0 :  A  B
 ,
 1
H :  A   B
o critério de decisão consistiria em rejeitar H0 se o valor do t calculado for maior ou

igual ao valor do t tabelado. O valor do t tabelado é obtido de acordo com o nível de
significância  estabelecido pelo pesquisador (em geral 0,05) e por v graus de liberdade.
69
10.4.3- TESTE t PARA OBSERVAÇÕES PAREADAS
Existem situações em que desejamos comparar dois conjuntos de dados oriundos

de um mesmo grupo de indivíduos. Tal é o caso, quando queremos avaliar, por
exemplo, o efeito de um medicamento para a redução dos níveis de colesterol. Assim,
selecionamos um grupo de pessoas com colesterol elevado, e mensuramos, em cada
uma, o nível de colesterol antes do início do tratamento e mensuramos novamente ao
final do tratamento, obtendo dois conjuntos de dados provenientes dos mesmos
indivíduos.
Tais observações são chamadas então de pareadas, pois cada indivíduo fornece
um par de observações.
Nestes casos, o critério de decisão sobre a eficiência ou não tratamento também
é obtida através de um teste t, através de:
d
t
sd2
n
em que, d é a média das diferenças entre os resultados de antes e depois do tratamento.
Cada valor de diferença dos dados do i-ésimo indivíduo é: di = xinício(i) – xfinal(i).
Para verificar se o tratamento é eficiente, montamos o seguinte teste de
hipóteses:
 H 0 : início   final  H 0 : início   final  0

 ou  .
 H1 : início   final  H 1 :  início   final  0
O critério de decisão continua o mesmo, ou seja, rejeita-se H0 se o valor de t
calculado for maior ou igual ao t tabelado, com n-1 graus de liberdade e nível  de
significância.
EXEMPLOS:
1) Considere o peso, em gramas, de duas espécies de esquilo (1: esquilo-cinzento e 2:
esquilo-peruano). Da espécie 1, foram capturados 9 indivíduos e da espécie 2 foram
capturados 6 indivíduos.
Tabela 2: Pesos, em quilogramas, dos animais capturados.
1 498 505 501 498 518 515 510 495 505
Espécies
2 495 504 496 502 510 505 - - -
70
Considerando um nível de significância de 5%, realizar o teste t para verificar se existe ou
não diferença entre os pesos médios das duas espécies. Considere variâncias populacionais
iguais.
 H 0 : 1  2

 H1 : 1  2
I) Estimativa da média de cada amostra.
4545 3012
X1   X2  
9 6
II) Estimativa da variância de cada amostra.
45452 30122
2295733- 1512186 
s12 = 9 = s 22  6 
8 5
III) Estimativa da variância ponderada.
 n1  1 s12   n 2  1 s22
s 
2

n1  n2  2
IV) Cálculo do valor de t.
X1  X 2
t 
1 1
s2   
 n1 n2 
CONCLUSÃO:
71
2) O consumo de alimentos ricos em vitamina C, como laranja, kiwi e acerola, auxiliam
na eliminação de ácido úrico. Para avaliar a efetividade destes alimentos na redução dos
níveis de ácido úrico, uma amostra de 12 pessoas, com ácido úrico elevado, foi
selecionada. A tabela a seguir mostra os níveis de ácido úrico dos 12 participantes no
início e no fim do programa. Ao nível de significância de 5%, a dieta foi eficaz na
redução do ácido úrico?
Programa
Indivíduos
Início (x1) Final (x2)
1 7,9 7,2
2 7,2 7,0
3 6,1 6,5
4 6,5 6,4
5 5,8 6,0
6 5,9 5,5
7 7,0 6,0
8 7,5 6,8
9 6,8 6,0
10 6,5 6,1
11 7,3 7,3
12 7,5 6,5
 H 0 : início   final  0

 H1 : início   final  0
0, 7  0, 2  0, 4  0,1  0, 2  0, 4  1  0, 7  0,8  0, 4  0  1
d 
12
(4, 7) 2
4,19 
sd2  12 
12  1
d
t 
sd2
n
72
CONCLUSÃO:
10.5- TESTE PARA A DIFERENÇA ENTRE DUAS PROPORÇÕES (pA e pB)
Neste item, abordaremos apenas a situação em que (pA – pB = 0). A estatística de

te teste neste caso é baseada no método de Wald, portanto, tem aproximação normal.
 H 0 : p A  pB  0

 H1 : p A  p B  0
A estatística de teste será:
pˆ A  pˆ B
Z
pˆ A (1  pˆ A ) pˆ B (1  pˆ B )

nA nB
Regra de decisão: Rejeitar a hipótese nula se Z c  Z  ou Z c   Z  . Caso contrário,

2 2
deve-se aceitar H0.
10.6- TESTE F PARA A RAZÃO ENTRE DUAS VARIÂNCIAS (  A /  B )

2 2
Considerando duas populações A e B, com distribuição normal, podemos montar

um teste para verificar a igualdade entre as variâncias destas duas populações.
 H 0 :  A2   B2

 H1 :  A   B
2 2
Para isso, tomamos duas amostras de cada população e estimamos as variâncias

s A2 e sB2 . Depois, obtemos a estatística:
73
s A2
F 2
sB
em que, deve-se usar a maior variância estimada no numerador da razão que resulta no
valor do F calculado acima.
Como regra de decisão, compara-se o F calculado com o valor do F tabelado
(com nível de significância α/2 e graus de liberdade v A=(nA-1) e vB=(nB-1). Se F
calculado for maior do que o tabelado, rejeita-se H0. Caso contrário, aceita-se H0 e as
variância serão consideradas iguais.
EXEMPLO: Uma amostra de um produto A com nA = 8 elementos, forneceu uma

estimativa de variância igual a 23,5u2. Outra amostra, agora de um produto B com nB =
10 elementos, teve variância igual a 8,5u2. Ao nível de 10% de significância, as
variâncias dos dois produtos são efetivamente diferentes? (Dado: F0,05; v1=7; v2=9 = 3,68).
10.7- TESTE DE QUI-QUADRADO  2
10.7.1- INTRODUÇÃO
É muito comum, principalmente na área biológica, o pesquisador querer avaliar

variáveis X e Y que estejam categorizadas. Em geral, os dados destas variáveis são
organizados em tabelas de contingência (ou dupla entrada) onde são dispostas as
frequências absolutas de cada categoria de uma variável, cruzada com as categorias da
outra variável.
74
Tabela 3: Sexo e idade das pessoas de uma amostra com n = 200.
Escolaridade
Sexo Totais
Fundamental Médio Superior
Masculino 15 48 37 100
Feminino 8 52 40 100
Totais 23 100 77 200
10.7.2- TESTE DE QUI-QUADRADO  2 (ADERÊNCIA)
Considere que temos uma população P e desejamos verificar se ela segue uma
distribuição especificada P0. Em termos de teste de hipóteses, temos:
 H 0 : P  P0

 H1 : P  P0
O teste compara o número de casos observados na amostra avaliada (ou
observada) com os resultados do número de casos que seriam esperados de acontecer,
sob o modelo de distribuição em teste.
Temos, portanto, dois conjuntos de valores: as frequências observadas ( Oi )
constituída do conjunto de dados reais obtidos do experimento e as frequências
esperadas ( Ei ) calculadas segundo o modelo que se quer avaliar.
Se as proporções forem iguais nos dois grupos ( hipótese H0 ), a discrepância
entre os dois conjuntos de dados não deve ser grande. Pearson, importante estatístico do
início do século XX, propôs medir a discrepância entre os valores esperados e
observados através da expressão:
 Oi  Ei 
2
k
 
2
i 1 Ei
Assim, para se tomar uma decisão sobre a igualdade ou não dos modelos, é
preciso comparar o valor calculado de  2 com o seu valor tabelado, considerando (k-1)
grau de liberdade e o nível de significância  estabelecido pelo pesquisador (que em
geral é de 0,05 ou 5%). Se o valor do  2 calculado for maior ou igual ao valor do  2
tabelado, deve-se rejeitar a hipótese H0 e concluir que modelos são diferentes, isto é,
75
não há aderência ao modelo avaliado. Caso contrário,  2 calculado menor do que  2
tabelado, aceita-se H0 e concluí-se que a característica segue o modelo.
EXEMPLO:
Suponha o estudo da herança da cor e textura da semente do milho em que foram
obtidas uma amostra de 480 sementes, assim distribuídas: 268 amarelas e lisas, 86
amarelas e enrugadas, 97 brancas e lisas e 29 brancas e enrugadas. Considerando que os
dois genes apresentam distribuições independentes, verificar, ao nível de 5% de
significância, se os valores observados se ajustam a uma distribuição de 9:3:3:1.
Resolução:
 H 0 : P  P0

 H1 : P  P0
I) Obter os valores esperados.
9 3 3 1
480.  480.  480.  480. 
16 16 16 16
II) Organizar em uma tabela simples os valores observados e os respectivos valores

esperados:
Proporção 9/16 3/16 3/16 1/16
Oi
Ei
(Oi - Ei)
III) Obter o valor do qui-quadrado.
 Oi  Ei 
2
k
 
2

i 1 Ei
IV) Comparar com o valor tabelado e concluir.
76
10.7.3- TESTE DE QUI-QUADRADO  2 (INDEPENDÊNCIA)
Agora, temos o interesse em testar a independência entre duas variáveis. Se

dispomos da função de probabilidade conjunta de duas variáveis aleatórias, podemos
verificar se, para todos os possíveis valores das variáveis, o produto das probabilidades
marginais é igual à probabilidade conjunta.
 H 0 : X e Y são independentes

 H1 : X e Y são dependentes
A tabela a seguir apresenta dados genéricos de uma situação envolvendo a
observação de duas variáveis X (com “l” categorias) e Y (com “c” categorias) em que a
resposta de interesse é dicotômica: a ocorrência ou não de um evento.
Tabela 4: Distribuição quanto a ocorrência de um evento.

Y
X Sim Não Total
Sim a b n1
Não c d n2
Total m1 m2 n
Sob a hipótese H0, o produto das probabilidades marginais é igual à

probabilidade conjunta, portanto, os valores esperados (Eij) das frequências a, b, c e d
será:
m1  n1 m2  n1 m1  n2 m2  n2
a b c d
n n n n
Tendo os dados observados (Oij) organizados em uma tabela de contingência,
calculamos o valor da estatística qui-quadrado, através de:
O  Eij 
2
l c
 2  
ij
i 1 j 1 Eij
A regra de decisão sobre a independência entre X e Y, passa pela comparação do
valor calculado de  2 com o seu valor tabelado, considerando (L-1)(c-1) grau de
77
liberdade e o nível de significância  estabelecido pelo pesquisador (que em geral é de
0,05 ou 5%). Se o valor do  2 calculado for maior ou igual ao valor do  2 tabelado,
deve-se rejeitar a hipótese H0 e concluir que não há independência entre X e Y. Caso
contrário,  2 calculado menor do que  2 tabelado, aceita-se H0 e concluí-se que há
independência.
EXEMPLO: Em um experimento para verificar a relação entre crises de asma e incidência

de gripe, 150 crianças foram escolhidas, ao acaso, dentre aquelas acompanhadas pelo posto
de saúde do bairro. Os dados referentes a uma semana foram:
Tabela 5: Número de casos de asma e gripe.

Gripe
Asma Sim Não Totais
Sim 45 30 75
Não 12 63 75
Totais 57 93 150
Ao nível de 5% de significância verificar se as duas doenças são independentes.
Resolução:
 H 0 : são independentes

 H1 : são dependentes
I) Obter os valores esperados.
Tabela 6: Valores esperados para o estudo sobre asma e gripe.

Gripe
Asma Sim Não Totais
Sim 75
Não 75
Totais 57 93 150
II) Obtenção do valor de  2 calculado.

78
Tabela 7: Cálculos necessários para a obtenção do teste de  2 .
Observações Oij Eij Oij - Eij
1
2
3
4
Total
Oij  Eij 
2
l c
 2   
i 1 j 1 Eij
III) Comparar com o valor tabelado e concluir.
79

Aulas Teóricas - PEX502 (Estatística Básica)

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aulas Teóricas - PEX502 (Estatística Básica)

Enviado por

Direitos autorais:

Formatos disponíveis

ESTATÍSTICA BÁSICA (PEX 502)

Prof. Alex de Oliveira Ribeiro

1.2- CONCEITOS BÁSICOS

Uma amostra corresponde a um subconjunto ou uma parte da população. A

Em uma pesquisa, coletamos dados sobre a(s) variável(is) de interesse. Muitas

2.2- Tabelas de Distribuição de Frequências Simples

2.2.1- Conceitos Básicos

2.2.2- Construção de Tabelas de Distribuição de Frequências

a) frequências absolutas (fa):

b) frequências relativas (fr):

c) frequências percentuais (fp):

cimento = 0, 40 100  40%

d) Tabela de distribuição de frequências:

Tabela 1: Distribuição de frequências referente aos principais produtos comercializados em

 Para Variáveis Qualitativas Ordinais, a construção de uma tabela de distribuição de

Exemplo. Os dados a seguir fazem parte de uma pesquisa sobre a possibilidade de

A elaboração de uma tabela de distribuição de frequência para variáveis

C.2) Amplitude de Classe: Consiste na diferença entre o limite superior e o limite

 Algoritmo para a Construção de uma Distribuição de Frequência Relativa a

Passo 1: Escolha do número de classes (k)

Passo 2: Calcula-se a amplitude total dos dados.

Passo 3: Calcula-se a amplitude de classe c.

Passo 4: O limite inferior LI1 da 1ª classe é obtido por:

Passo 7: Opcionalmente, são calculadas as frequências relativas e/ou percentuais de

Ex: Sabe-se que a viscosidade de óleos lubrificantes em motores de carros é um

Tabela 4: Viscosidade (a 100ºC) de 27 amostras de óleo multiviscoso 25W60

OBS: É bom que os dados estejam ordenados.

1o passo: no de classes (K) K n

2.2.3- Frequências Acumuladas

No caso de variáveis contínuas a distribuição de frequência pode ainda ser

2.3.1- Gráfico de Barras

Usado para descrever o comportamento de variáveis qualitativas (categóricas) e também

Figura 4: Gráfico de barras verticais do número de pessoas do grupo familiar

O gráfico de setores ou gráfico de pizza é um gráfico circular dividido em vários

Figura 5: Gráfico de setores para a distribuição de torcedores de times de futebol

É um gráfico de barras verticais (unidas), usado para representar a distribuição

Figura 6: Histograma para a distribuição de frequências da resistência (MPa) de 80

2.3.4- Polígono de frequências

É um gráfico de linhas, utilizado para representar a distribuição de frequências

Figura 7: Polígono de frequências para a distribuição da resistência (MPa) de 80 corpos

Figura 8: Distribuição da resistência (MPa) de 80 corpos de prova de concreto.

A figura 8 mostra uma distribuição simétrica, já a figura 9 é assimétrica.

Figura 9: Distribuição do tempo de vida (horas) de 300 lâmpadas.

As medidas de posição visam sintetizar em um único número o conjunto de

3.2- MÉDIA ARITMÉTICA

A média aritmética, representada por x é obtida a partir da soma de todos os

Assim, o peso médio desses recém-nascidos é de 3,1 kg.

3.2.1- MÉDIA A PARTIR DE UMA TABELA DE DISTRIBUIÇÃO DE

Quanto os dados encontram-se agrupados em uma tabela de distribuição de

EXEMPLO: Considerando a variável Salário dos empregados da seção de orçamentos

Tabela 3.1: Distribuição de Frequências dos 36 empregados da seção de orçamentos da

i) Adicionando-se uma constante k a todas as observações de um conjunto de dados, a

3.3- MÉDIA PONDERADA

Existem outros processos de obtenção de médias para um conjunto de dados.

Trata-se do valor que, no conjunto de dados ordenados, é precedido e seguido

Exemplo: Encontre a mediana dos dados a seguir:

Quando o número de observações é par, a mediana é definida como a média

Exemplo: Encontre a mediana dos dados abaixo:

OBS: Se os dados estiverem agrupados em uma tabela de distribuição de frequências, a

Tabela 3.2: Distribuição de Frequências dos 36 empregados da seção de orçamentos da

Calcule a mediana desses dados.

Exemplo: Obtenha a moda do conjunto de dados abaixo:

A moda corresponde ao valor 2, pois é o mais frequente.

onde: 1  dfa Mo  dfa Anterior e  2  dfa Mo  dfa Posterior