Estatística para Cursos de Nível Superior: Prof MSC Gilbert Queiroz Dos Santos

ESTATÍSTICA PARA CURSOS
DE NÍVEL SUPERIOR
Vol. I
Prof Msc Gilbert Queiroz dos Santos
Fortaleza - CE
2022
SUMÁRIO
ESTATÍSITICA DESCRITIVA
1. Definição de Estatística 4
2. Método Estatístico 5
3. Divisão da Estatística 5
4. População e amostra 6
5. Parâmetro e estatística 7
6. Variável 8
7. Níveis de mensuração dos dados 10
8. Obtenção dos dados 11
9. Amostragem 11
10. Apresentação Tabular 16
11. Séries estatísticas 18
12. Representação gráfica das séries estatísticas 33
13. Características numéricas de uma distribuição de freqüências 41
13.1.1 Medidas de Tendência Central 41
13.1.2 Separatrizes 57
13.2 Medidas de Dispersão 66
13.3 Momentos de uma distribuição 73
13.4 Medidas de forma de uma distribuição 74
INFERÊNCIA ESTATÍSTICA
14. Estatística Indutiva 84
15. Testes de Hipótese 108
16. Análise da Variância: ANOVA 115

RELACIONAMENTO ENTRE VARIÁVEIS
17. Análise de dados categorizados 126
18. Correlação 132
19. Método dos Mínimos Quadrados 136
20. Análise de Regressão 141
21. Determinação do Tamanho da Amostra 149
Bibliografia 150
Tabelas (Dist. Normal, Qui-quadrado, t-Student e F-Snedecor) 151
Dados 160
1 Definição
"Ciência que se preocupa com a organização, descrição, análise e interpretação dos dados
experimentais, com base em um conjunto de métodos que se destina a possibilitar a tomada de
decisões, face às incertezas." (Wallis).
Ou ainda:
"É um ramo do conhecimento científico que consta de um conjunto de processos que têm por
objeto a observação, a classificação formal e a análise dos fenômenos coletivos ou de massa
(finalidade descritiva) e também investigar a possibilidade de fazer inferências indutivas válidas a
partir dos dados observados por meio de métodos capazes de permitir esta inferência (finalidade
indutiva)".
Montgomery e Runger definem Estatística como sendo a ciência que nos ajuda a tomar decisões
e tirar conclusões na presença de variabilidade. O campo da Estatística lida com a coleta,
apresentação, análise e uso dos dados para tomar decisões, resolver problemas e planejar produtos
e processos. Em termos simples, Estatística é a ciência de dados.
Logo, o Estatístico é o verdadeiro Cientista dos Dados.
Levine et al definem Estatística como sendo "um conjunto de métodos que ajudam a transformar
dados em informações úteis para tomadores de decisões."
Pode-se dizer que:
“Estatística é a ciência do aprendizado a partir dos dados.”
Mas o que são os dados???
Podemos dizer que dados são coleções de evidências relevantes sobre um fato observado.
Eles podem ser:
Dados primários: quando são publicados pela própria pessoa ou organização que os haja
recolhido. Ex: tabelas do censo demográfico do IBGE.
Dados secundários:quando são publicados ou comunicados por outro pesquisador ou outra
organização. Ex: quando determinado jornal publica estatísticas referentes ao censo
demográfico extraídas do IBGE.
OBS: É mais seguro trabalhar com fontes primárias. O uso da fonte secundária traz o
grande risco de erros de transcrição.
Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 4

2 Método Estatístico
Tem por finalidade estruturar e a organizar as fases ou etapas que devem ser estabelecidas na
abordagem de uma observação estatística.
Suas fases ou etapas principais são:
- Definição do problema;
- Planejamento;
- Coleta de dados;
- Apuração de dados;
- Apresentação de dados;
- Análise e interpretação dos dados.
1º - DEFINIÇÃO DO PROBLEMA: Saber exatamente aquilo que se pretende pesquisar é

o mesmo que definir corretamente o problema.
2º - PLANEJAMENTO: Como levantar informações ? Que dados deverão ser obtidos?
Qual levantamento a ser utilizado? Censitário? Por amostragem? E o cronograma de
atividades? Os custos envolvidos? etc
3º - COLETA DE DADOS: Fase operacional. É o registro sistemático de dados, com um
objetivo determinado.
Coleta Direta: quando é obtida diretamente da fonte. Ex: Empresa que realiza uma
pesquisa para saber a preferência dos consumidores pela sua marca.
A coleta direta pode ser :
Contínua (registros de nascimento, óbitos, casamentos, etc.),
Periódica (recenseamento demográfico, censo industrial) e
Ocasional (registro de casos de dengue).
Coleta Indireta: É feita por deduções a partir dos elementos conseguidos pela coleta direta,
por analogia, por avaliação, indícios ou proporcionalização.
4º - APURAÇÃO DOS DADOS: Resumo dos dados através de sua contagem e
agrupamento. É a condensação e tabulação de dados.
5º - APRESENTAÇÃO DOS DADOS: Há duas formas de apresentação, que não se
excluem mutuamente. A apresentação tabular, ou seja é uma apresentação numérica dos
dados em linhas e colunas distribuídas de modo ordenado, segundo regras práticas
fixadas pelo Conselho Nacional de Estatística. A apresentação gráfica dos dados numéricos
constitui uma apresentação geométrica permitindo uma visão rápida e clara do fenômeno.
6º - ANÁLISE E INTERPRETAÇÃO DOS DADOS: A última fase do trabalho estatístico é a
mais importante e delicada. Está ligada essencialmente ao cálculo de medidas e
coeficientes, cuja finalidade principal é descrever o fenômeno (estatística descritiva). Na
estatística indutiva, a interpretação dos dados se fundamenta na Teoria das
Probabilidades.
Levine et al criaram uma estrutura, ou um plano, para minimizar possíveis erros de raciocínio e
análise. Esta estrutura foi chamada de DCOVA e constitui-se das seguintes etapas:

a) Definir os dados que se deseja estudar, no intuito de solucionar um problema ou atender a um
objetivo;
b) Coletar os dados a partir das fontes apropriadas;
c) Organizar os dados coletados por meio do desenvolvimento de tabelas;
d) Visualizar os dados por meio do desenvolvimento de gráficos;
e) Analisar os dados coletados de modo a tirar conclusões e apresentar os respectivos resultados.
3. Divisão da Estatística
A Estatística divide-se em :
1) Estatística Descritiva:
Que se preocupa com a organização, sumarização e descrição dos dados experimentais. Consiste
num conjunto de métodos que ensinam a reduzir uma quantidade de dados bastante numerosa em
um número pequeno de medidas, substitutas e representantes daquela massa de dados.
2) Estatística Indutiva:
Que se preocupa com a análise e interpretação dos dados. Consiste em inferir propriedades de um
universo a partir de uma amostra com resultados conhecidos.
3) Probabilidade:
Que trata da medição da ocorrência de eventos sujeitos ao aspecto de aleatoriedade.
4. População e Amostra
Objetivando o estudo quantitativo e qualitativo dos dados (ou informações) obtidas nos vários
campos da atividade cientifica, a Estatística manipula dois tipos de conjuntos de dados: a
população e a amostra:
a) População- (ou universo) é o conjunto de elementos com pelo menos uma característica comum.
Ex: população de um país, população de um estado, população de município, população de um

bairro etc
b) Amostra- é um subconjunto de uma população, necessariamente finito, pois todos os seus

elementos serão examinados para efeito da realização do estudo estatístico desejado.
Ex: O Brasil possui 27 unidades federativas (UF), sendo 26 Estados e 1 Distrito Federal. Uma
amostra destas unidades poderia ser de 5 UF.
Ou ainda, se estivéssemos interessado em retirar uma amostra de municípios brasileiros, de um total
de 5570 municípios, poderíamos escolher 100 municípios, por exemplo.

5. Parâmetro e Estatística
Com relação aos dois tipos de conjuntos de dados : população e amostra, temos os seguintes
conceitos na Estatística:
a) Parâmetro - é uma medida que se refere à população, ou seja, é obtida com base nos valores da
população.
Ex: média ( µ), proporção ( π), variância ( σ2) e desvio-padrão (σ)
b) Estatística – é uma medida que se refere à amostra, ou seja, é obtida com base nos valores da
amostra.
Ex: média( x ), proporção (p), variância (s2) e desvio-padrão (s).
Na prática, usamos uma estatística para se estimar um parâmetro populacional, que em geral é
desconhecido. Ou seja, realizamos um processo de amostragem, que significa retirar uma amostra
da população de estudo. Ao fazer isto, estamos cometendo um erro, chamado de erro amostral - ε.
O erro amostral (ε) é expresso na unidade da variável de estudo. Ele representa a máxima diferença
admitida entre o verdadeiro parâmetro populacional (θ) e o seu estimador ( θˆ ), conhecido como
estatística. Então:
θ − θˆ ≤ ε

6. Variável
Variável é uma característica que pode ser observada ou medida em cada elemento da população ou
da amostra, sob as mesmas condições.
`
O estudo das variáveis ocupa um lugar primordial no processo de pesquisa científica. Elas podem
ser classificadas de acordo com diferentes critérios:
Critério de classificação Classes de variáveis

Nominal
Qualitativas
Ordinal
Medição
Discreta
Quantitativa
Contínua
Independente (X)
Metodológico Dependente (Y)
Interveniente (Z)
Estímulo (X)
Teórico-explicativo Resposta (Y)
Intermediárias (Z)
Aleatórias
Controle
Controladas
Conforme o critério da medição, uma variável pode ser classificada em variável qualitativa ou
variável quantitativa.
Variável qualitativa (categórica): é a que se refere a uma classificação por tipos, categorias ou
atributos, ex.: sexo, cor dos olhos, estado civil etc; conseqüentemente, temos as “estatísticas de
atributos”, ou seja, nas variáveis categóricas resumem-se os dados por determinar a freqüência de
cada uma das categorias observadas e apresentá-las em uma tabela ou gráfico.
Variável quantitativa (numérica): quando seus valores são expressos em números, ex.: idade,
peso, altura, renda etc; conseqüentemente, temos as “estatísticas de variáveis”, ou seja, além de
verificar freqüências, podemos também calcular médias e realizar outras operações.
De acordo com o tipo de variável empregada em uma pesquisa ou estudo, os dados podem ser
classificados em:
a) Dados Nominais ou categóricos: são aqueles que se referem ao agrupamento e classificação de

elementos para a formação de conjuntos distintos (categorias).
Por exemplo: sexo (masculino e feminino)
b) Dados ordinais: são aqueles que se referem à avaliação de um fenômeno em termos de sua
situação dentro de um conjunto de patamares ordenados, variando desde um patamar mínimo até
um patamar máximo.
Por exemplo: Nível de escolaridade (fundamental, médio e superior)
c) Dados discretos : são aqueles que podem assumir apenas valores pertencentes a um conjunto
enumerável, ou seja, a escala numérica se refere ao conjunto dos números inteiros (N).
Por exemplo número de filhos, o ponto obtido em cada jogada, número de defeitos por unidade etc.
d) Dados contínuos: são aqueles que assumem quaisquer valores num certo intervalo razoável de
variação, ou seja a escala numérica é o conjunto dos números reais (R).

Por exemplo: temperatura, pressão, idade, diâmetro etc.
Qualitativa Quantitativa
Nominal Ordinal Discreta Contínua

(classificação) (classificação) (contagem) (mensuração)
sexo, raça, Classe Número de Peso,

região, grupo social: acidentes, altura,
sangüíneo Baixa, número de pressão
Média e filhos sangüínea
Alta
Quanto à organização, os dados podem ser classificados em:
a) Dados Brutos - são os dados originais, que ainda não se encontram prontos para análise, pois não
foram numericamente organizados
b) Rol – é um arranjo de dados numéricos em ordem crescente ou decrescente de grandeza.

7. Níveis de Mensuração dos Dados
Na aplicação da Estatística a problemas reais, o nível de mensuração dos dados é um fator de

grande importância na determinação de qual procedimento usar, ou seja, quais as possíveis
operações aritméticas serão utilizadas e quais técnicas estatísticas serão permitidas para análise.
a) Nível Nominal de Mensuração
É caracterizado pelo ato de nomear ou rotular um objeto, pessoa ou alguma característica. Os dados
são classificados em categorias distintas nas quais não está implícita nenhuma ordem. Neste nível
de mensuração, não são possíveis operações aritméticas, apenas a contagem de valores, pois
verifica-se uma relação de equivalência (=, ≠) em relação à característica de interesse.
Ex: sexo (Masculino e Feminino), religião, filiação partidária, estado civil, raça, profissões etc.
b) Nível Ordinal de Mensuração
Neste nível, os dados, além de apresentarem as propriedades inerentes da escala nominal, são postos
em ordem do menor ao maior, de forma significante. A relação de ordem (>, <) vale para todos os
dados, e com isto temos uma escala ordinal.
Ex: status socioeconômico, grau de escolar, hierarquização funcional etc.
c) Nível Intervalar de Mensuração
Neste nível, observam-se que os dados, além de apresentarem as propriedades inerentes da escala
ordinal, apresentam intervalos iguais de medição, ou seja, em uma unidade de medida fixa, embora
não envolva um verdadeiro ponto zero. Esta escala permite inferir diferenças entre unidades a serem
medidas, porém, não se pode afirmar que um valor em um intervalo específico da escala seja
múltiplo de outro. Por exemplo, suponha dois objetos medidos a uma temperatura de 15°C e 30°C,
respectivamente. A mensuração da temperatura permite determinar o quanto um objeto é mais
quente que o outro; porém, não se pode afirmar que o objeto com 30°C está duas vezes mais quente
que o outro com 15°C.
d) Nível de Razão
Neste nível, observam-se que os dados, além de apresentarem as propriedades inerentes da escala
intervalar, apresentam um quociente significativo entre dois valores, ou seja, uma razão entre os
pares de valores no conjunto ordenado. A origem(ou ponto zero) é única e considerado como
ausência total da característica medida. Desta forma, é possível saber se um valor em um intervalo
específico da escala é múltiplo de outro.
Temos o seguinte resumo para os níveis de mensuração:
Níveis Tipo de dados Operações

Nominal Não numéricos Contagem, Proporção
Ordinal Não numéricos Contagem, Proporção
Intervalar Numéricos Contagem, proporção, médias

Razão Numéricos Contagem, proporção, médias

8. Obtenção dos Dados
Podemos obter os dados da seguinte forma:
1) Realizando um censo, ou seja, realizando a coleção de dados obtidos de todos os membros da

população. Sua execução, porém, é complexa e envolve muitos recursos e tempo.
2) Por meio de uma pesquisa por amostragem (survey), ou seja, realizando o dimensionamento, os
critérios para composição e seleção de uma amostra. Sua execução é mais prática.
3) Executando um experimento, ou seja, aplicando um determinado tratamento a uma parte da
população (amostra) e observando os resultados.
4) Por meio de simulação, ou seja, usando um modelo matemático ou físico para reproduzir as
condições de uma situação ou processo.
9. Amostragem
Dentre as diversas maneiras de coletar dados, a amostragem é mais freqüente, particularmente nas
pesquisas sobre fenômenos sociais e econômicos,
Uma amostra pode ser probabilística, ou seja, quando os elementos amostrais são escolhidos com
probabilidades conhecidas.
Uma amostra não-probabilística é aquela em que os elementos amostrais não são escolhidos com
probabilidades, ou seja, a escolha dos elementos amostrais é feita de forma deliberada.
9.1 Métodos de Amostragem Probabilística
Os métodos de amostragem probabilísticas mais conhecidos são:

- Amostragem Aleatória Simples (AAS)
- Amostragem Sistemática
- Amostragem Aleatória Estratificada (AAE)
- Amostragem por Conglomerado (em um estágio ou em estágios múltiplos)
Os métodos de amostragem não-probabilísticas são:

-Amostragem de Conveniência
-Amostragem por julgamentos
-Amostragem por Cotas
-Bola de Neve
9.2 Determinação Inicial do Tamanho da Amostra
Antes de se escolher qual o método de amostragem a ser utilizado, devemos ter uma noção do
tamanho inicial da amostra. Neste caso, teremos como base o erro amostral, dado por:
θ − θˆ ≤ ε
E o tamanho N da população alvo do estudo. Usa-se a seguinte expressão para a determinação
inicial do tamanho da amostra:
n0
n=
n
1+ 0
N
1
Onde: n0 =
ε2

n0 – primeira aproximação da amostra
ε - erro amostral
N – tamanho da população
Por exemplo: se ε = 0,05 e N = 200.000, temos:
1 1 1
n0 = = = = 400
ε 2 ( 0, 05) 2 0,0025
n0 400 400
n= = = = 399, 20 ≅ 399
n0 400 1,002
1+ 1+
N 200000
Se aumentarmos o erro, por exemplo, para ε = 0,10, teremos:

1 1 1
n0 = = = = 100
ε 2 (0,10) 2 0,01
n0 100 100
n= = = = 99,95 ≅ 100
n0 100 1,0005
1+ 1+
N 200000
É necessário considerar que amostra deve ser representativa da população, ou seja:

Por exemplo:
Ou seja, o que influência o tamanho da amostra é o tamanho da população em estudo e o erro

amostral admitido.
9.3 Processo de sorteio dos elementos da amostra
Uma vez determinado o tamanho inicial da amostra, deve-se realizar o sorteio dos elementos que
irão compô-la. Este processo depende do Método de Amostragem a ser adotado.
a) Amostragem Aleatória Simples
Neste método, todos os elementos da população têm a mesma chance (probabilidade – 1/n) de
serem selecionados. Atribui-se a cada elemento da população um número distinto. Efetuam-se
sucessivos sorteios até completar o tamanho da amostra n. Para realizar o sorteio, utilizar a Tabela
de Números Aleatórios - TNA (anexo) que consistem em tabelas que apresentam dígitos de 0 à 9
distribuídos aleatoriamente.
Por exemplo:
Suponha uma população com 500 elementos, que numeramos de 000 a 499 para selecionar
uma amostra aleatória de n=50 elementos.
O processo termina quando for sorteado o elemento 50. A probabilidade de cada elemento ser
selecionado é p=1/50
b) Amostragem Sistemática
Conveniente quando a população está ordenada segundo algum critério como fichas, lista telefônica
etc.
Procedimento:

( de 1 até k)
Exemplo:
Se N = 5.000 é o tamanho da população e precisamos de uma amostra de n = 250, dividimos N/n =
20. Selecionamos ao acaso um número de 1 à 20. Suponha que saiu o número 7:
1a unidade a ser selecionada 7a
2a unidade a ser selecionada 20 + 7 = 27a
3a unidade a ser selecionada 27 + 20 = 47a
67a, 87a,..., 4987a dando um total de 250 unidades.
c) Amostragem Estratificada
Neste caso, os elementos da população estão agrupados em subpopulações mais ou menos

homogêneas denominadas estratos, e distintos entre si. Os estratos são mutuamente exclusivos, ou
seja N1 + N2 + ...+ Nk = N.
Após a determinação dos estratos, seleciona-se uma amostra aleatória simples de cada estrato.
Existem dois tipos de amostragem estratificada:
1) De mesmo tamanho ou Uniforme;
2) Proporcional.
No primeiro tipo sorteia-se igual número de elementos em cada estrato. Esse processo é utilizado
quando o número de elementos por estrato for aproximadamente o mesmo, ou seja, n1 = n2 = ...=
nk e n1 + n2 + ...+ nk = n
No outro caso, utiliza-se proporção para determinar o número de elementos de cada estrato
que irão compor a amostra, ou seja, n1 ≠ n2 ≠ ...≠ nk, mas n1 + n2 + ...+ nk = n
As varáveis de estratificação mais comuns são: classe social, idade, sexo, profissão.
Exemplo: Numa localidade com 150 000 habitantes, 45 000 têm menos de 20 anos de idade, 75 000
têm idades entre 30 e 50 anos e 30 000 têm mais de 50 anos de idade. Extrair uma amostra de 30
habitantes desta população pelo processo de amostragem estratificada com partilha proporcional.
N = 150 000, N1 = 45 000, N2 = 75 000, N3 = 30 000 e n = 30
45 000 75 000 30 000

n1 = 30 ∴ n1 = 9 ; n 2 = 30 ∴ n1 = 15 ; n 3 = 30 ∴ n1 = 6
150000 150000 150000
Peso 1 = w1 Peso 2 = w2 Peso 3 = w3
A amostra deverá conter 9 habitantes com menos de 20 anos, 15 com idades entre 20 e 50 anos 6
com mais de 50 anos.

d) Amostragem por conglomerados
Neste tipo de amostragem, a população total é subdividida em grupos, ou seja, em M

conglomerados (C1, C2, ..., CM), de tamanhos não necessariamente iguais. Usando AAS, sorteiam-se
m conglomerados (m < M). Os elementos destes constituirão a amostra, no processo chamado de
Amostragem por conglomerados em um estágio.
Quando se sorteiam elementos dentro dos conglomerados selecionados, temos uma Amostragem
por conglomerados em dois estágios: no primeiro estágio sorteiam-se os conglomerados e, no
segundo, sorteiam-se os elementos.

10. Apresentação Tabular
Um dos métodos usados para a apresentação de dados estatísticos que consegue expor os resultados
sobre determinado assunto num só local, sinteticamente, de tal modo que se tenha uma visão mais
globalizada daquilo que se vai analisar.
A apresentação tabular dos dados estatísticos se faz mediante tabelas (ou quadros), resultantes da
disposição dos respectivos dados em linhas e colunas distribuídas de modo ordenado, seguindo
regras práticas adotadas pelos diversos sistemas estatísticos. No Brasil, essas regras foram fixadas
pelo Conselho Nacional de Estatística, por meio da Resolução nº 886, de 26 de outubro de 1966.
10.1 Tabela
Define-se tabela como um conjunto de dados estatísticos associados a um fenômeno, dispostos em

uma ordem de classificação, em uma organização racional e prática de apresentação.
Uma tabela pode ser simples ou de dupla entrada.
10.1.1 Tabela simples
É aquela composta de uma coluna matriz, também chamada coluna indicadora, onde vão inscritos
os valores ou modalidades de ordem de classificação e da coluna em que aparecem os valores que
representam as ocorrências ou intensidades do fenômeno em causa.
10.1.2 Tabela de dupla entrada
É aquela própria à apresentação das distribuições de dois atributos, qualitativos ou quantitativos, em

que existem duas ordens de classificação: uma horizontal e outra em coluna indicadora; nos
cruzamentos formados pelas linhas com as colunas encontra-se a freqüência dos indivíduos que
apresentam conjuntamente as alternativas correspondentes à linha e à coluna que sobre ela se
cruzam.
10.2 Elementos de uma Tabela
No Brasil, a apresentação tabular é regida pelas Normas de Apresentação Tabelar do IBGE

(1993)/NBR 14724 da ABNT. As tabelas estatísticas compõem-se de elementos essenciais e
elementos complementares.
a) Elementos essenciais:
Os elementos essenciais de uma tabela são: título, corpo, cabeçalho e coluna-indicadora.
b) Elementos complementares:
Os elementos complementares de uma tabela estatística são: fonte, notas e chamadas, todos situados
no rodapé da tabela.

Coluna
Coluna numéricas
Indicadora Titulo
Categorias Qtde em cada categoria ou
ou variável
Cabeçalho
Variáveis f (unidades) fr ou %
Corpo
Linhas
Total
Rodapé

11. Séries Estatísticas
Denomina-se série estatística a um conjunto de valores numéricos associados a um fenômeno e que

expressa suas variações no tempo, no local e na espécie.
As séries podem ser divididas em dois grupos:
- Séries homógradas;
- Séries heterógradas.
11.1 Séries homógradas
Aplicadas no caso em que a variável é discreta.
As séries temporais, geográficas e específicas formam as principais séries homógradas.
a) Séries temporais (cronológicas, evolutivas, históricas ou marchas)
São séries em que a variável de estudo varia em função da época ou do tempo, permanecendo fixos
a região ou o local e o fenômeno.
Exemplo: Produção de Petróleo Bruto – Brasil (1000 m³)

Anos Produção
1976 9.702
1977 9.332
1978 9.304
1979 9.608
1980 10.562
Fonte: Conjuntura Econômica, fev/83
b) Séries geográficas (espaciais ou de localização, territoriais)
São séries em que a variável de estudo varia em função da região, do local ou do espaço,
permanecendo fixos a época ou o tempo e o fenômeno.
População Estimada por Estado - 2007
Estados População
Rio de Janeiro 15.420.375
São Paulo 39.827.570
Ceará 8.185.286
Amazonas 3.221.939
Minas Gerais 19.273.506
Fonte: IBGE
c) Séries específica (categóricas, qualitativas)
São séries em que a variável de estudo varia em função do fenômeno, permanecendo fixos a época
ou o tempo e a região ou local.

Produção Agrícola no Brasil – 1974
(Produtos Selecionados)
Especificações Produção em 1.000 t

Algodão em caroço 1.959
Cacau 165
Café 3.220
Cana de açúcar 96.412
Soja 7.876
Fonte: Revista Comércio e Mercado, mar/76
Freqüentemente, são usadas séries estatísticas conjugadas, onde são cruzados dois ou mais tipos de
séries; pode-se ter as conjugações geográfico-temporal (ou espaço-temporal), geográfico-
especificativa, especificativo-temporal, especificativo-geográfico-temporal etc.
Exemplos:
a) Série geográfico-temporal (espaço-temporal)
Agências do Banco do Brasil - 2011 a 2012

Estados 2011 2012
Rio de Janeiro 10 15
Ceará 12 20
Amazonas 5 10
Minas Gerais 20 30
Fonte: IBGE
b) Série geográfico-específica
Produção das principais lavouras do Nordeste

Estados Produção (1.000 t)
Arroz Arroz
Maranhão 11 16
Ceará 13 21
Bahia 6 12
Pernambuco 21 32
Fonte: IBGE
c) Série específico-temporal
Evolução do corpo docente do

Sistema Educacional (2010 – 2011)
Nível Anos
2010 2011
Básico 10.000 15.000
Fundamental 12.000 20.000
Superior 20.000 30.000
Fonte: INEP

11.2 Séries heterógradas
Mais comumente chamadas de Distribuições de Freqüências, mantendo fixos a época, a região e o

fenômeno.
11.2.1 Distribuições de Freqüência (série de freqüências)
É uma série em que o fenômeno, a época e a região permanecem fixos, porém o fenômeno pode ser
subdividido em grupos de classes que têm a finalidade de tornar mais cômodo o estudo.
Defini-se freqüência (ou freqüência simples) de um dado valor de uma variável (qualitativa ou
quantitativa) como o número de vezes que esse valor foi observado.
Denota-se a freqüência do i-ésimo valor observado por fi.
Define-se freqüência total ft como a soma de todos os elementos observados nas freqüências
simples. Sendo o n o número total de valores observados, verifica-se imediatamente que:
n
ft = ∑ fi = n
i =1
Define-se freqüência relativa fri (ou freqüência relativa simples), ou proporção, de um dado valor
de uma variável (qualitativa ou quantitativa), como o quociente de sua freqüência pelo número total
de elementos observados, da seguinte forma:
fi
fri =
n
n
Lembrando que: ∑f
i =1
i =n
Define-se freqüência absoluta acumulada F (ou Fac) como a soma das freqüências simples das
classes inferiores com a da classe considerada, da seguinte forma:
j≤k
Fj = ∑ fi
i =1
Define-se freqüência relativa acumulada Fri (ou Fra) como o quociente da freqüência absoluta
acumulada (F) pelo total de dados observados (n), ou seja:
Fi
Fri =
n
Estas freqüências são condensadas em uma única tabela, de fácil manejo, denominada Tabela de
Distribuição de Freqüências.
Dependendo da variável de estudo (qualitativa ou quantitativa), as tabelas de distribuição de

freqüências serão classificadas em:
- Tabelas de Freqüência para Dados não Agrupados ou não Tabulados em Classe;

- Tabelas de Freqüência de Dupla Entrada para Dados não Agrupados ou não Tabulados em
Classe;
- Tabelas de Freqüência para Dados Agrupados ou Tabulados em Classe.

1) Tabela de Freqüência para Dados não Agrupados ou não Tabulados em Classe
a) Variável qualitativa
Neste caso, usamos uma tabela simples, onde em um coluna são apresentadas as categorias, em
outra as freqüências e em uma terceira as freqüências relativas, conforme exemplo abaixo:
Título:
Freqüências
Categorias f (unidades) F fr ou ( %) Fra ou (%)
n
Total
∑f
i =1
i =n
Fonte:
Exemplo:
Distribuição dos fundos relativos por Estados

Freqüências
Categorias f (unidades) F fr ou ( %) Fra ou (%)
São Paulo 38 38 0,281 ou 28,1% 0,281 ou 28,1%

Rio de Janeiro 30 68 0,222 ou 22,2% 0,503 ou 50,3%
Rio Grande do 35 103 0,259 ou 25,9% 0,762 ou 76,2%
Sul
Minas Gerais 15 118 0,111 ou 11,1% 0,873 ou 87,3%
Demais Estados 17 135 0,127 ou 12,7% 1 ou 100%
Total 135 1 ou 100%
Exemplo usando o R:
a) Seja a variável qualitativa (categórica) Sexo, da planilha de dados do Anexo "Dados", da

apostila:
Vamos fazer a entrada de dados pelo R e selecionar esta variável, da seguinte forma:
library(readxl) # pacote de leitura de dados de uma planilha do Excel
# Leitura com `readxl`####

df <- read_excel("dados_alunos1.xls",
col_names = TRUE,
sheet = 1)
df %>% select(SEXO)

O R apresenta a seguinte saída:
> df %>% select(SEXO)
# A tibble: 45 x 1
SEXO
<chr>
1 MASCULINO
2 FEMININO
3 FEMININO
4 FEMININO
5 MASCULINO
6 MASCULINO
7 MASCULINO
8 FEMININO
9 FEMININO
10 MASCULINO
# ... with 35 more rows
Então, temos aí 45 observações desta variável. Mesmo sendo uma quantidade pequena, é
muito para fazer a contagem manual. Para reduzir este tempo, vamos utilizar o R com os seguintes
comando:
library(tidyverse) # conjunto de pacotes para Ciência de Dados

library(dplyr) # pacote para manipular os dados
library(flextable) # pacote para fazer tabelas
df %>% group_by(SEXO) %>% summarise(f = n()) %>%

mutate(Fac = cumsum(f)) %>%
mutate(fr = round(f / sum(f) *100 , digits = 2)) %>%
mutate(Fra = cumsum(fr)) %>%
flextable() %>% fit_to_width(max_width = 7) %>%
colformat_double(big.mark=".", decimal.mark = ",", na_str = "N/A") %>%
set_caption(("Tabela de distribuição de frequências da Variável Sexo"), style = "Table
Caption")
O que gera a seguinte tabela:
b) Variável quantitativa discreta
Neste caso, usamos uma tabela simples, onde em uma coluna são apresentados os valores da
variável, e nas outras as freqüências, conforme exemplo abaixo:

Título
Freqüências
Variável Discreta f (unidades) F fr ou ( %) Fra ou (%)
Valor 1
Valor n
n
Total
∑f
i =1
i =n
Fonte:
Exemplo:
Seja o número de defeitos por unidade, obtidos a partir de aparelhos retirados de uma linha de
montagem:
2, 4, 2, 1, 2, 3, 1, 0, 5,1, 0, 1, 1, 2, 0, 1, 3, 0, 1, 2
Para montar um tabela com estes dados, fazemos:
Freqüências
Nr de defeitos f (unidades) F fr ou ( %) Fra ou (%)
0 4 4 20 20
1 7 11 35 55
2 5 16 25 80
3 2 18 10 90
4 1 19 5 95
5 1 20 5 100
Total 20
Exemplo usando o R:
# Cria-se um dataframe###
dat <- data.frame(Defeitos = c(2, 4, 2, 1, 2, 3, 1, 0, 5,1, 0, 1, 1, 2, 0, 1, 3, 0, 1, 2))
# Faz-se a tabela###
dat %>% count(Defeitos) %>% mutate(Defeitos = as.character(Defeitos),
f = n,
Fac = cumsum(f),
fr = round(f / sum(f) *100 , digits = 2),
Fr = cumsum(fr)
) %>% select(-n) %>%
flextable() %>% fit_to_width(max_width = 7) %>%
colformat_double(big.mark=".", decimal.mark = ",", na_str = "N/A") %>%
set_caption(("Tabela de distribuição do Nr de Defeitos"), style = "Table Caption")

A tabela seria:
2) Tabela de Freqüência Dupla Entrada para Dados não Agrupados ou não Tabulados em Classe
Este tipo de tabela se aplica quando estamos trabalhando com duas ou mais variáveis. Neste
caso, estaremos interessados em realizar uma análise conjunta das variáveis escolhidas. A tabela de
dupla entrada, tem seguinte forma:
Título:
Variável 2
Variável 1
Catg. 1 ... Catg n Total
Catg. 1
...
Catg. n
Total
Fonte:
Exemplo:
Exemplo usando o R:
Por exemplo: vamos selecionar dos dados da planilha no anexo "Dados", a variável "SEXO" e a
variável "Cor dos Olhos", da seguinte maneira:
df %>% select(SEXO, `COR DOS OLHOS`)

O que resulta:
> df %>% select(SEXO, `COR DOS OLHOS`)

# A tibble: 45 x 2
SEXO `COR DOS OLHOS`
<chr> <chr>
1 MASCULINO CASTANHOS
2 FEMININO CASTANHOS
3 FEMININO VERDES
5 MASCULINO AZUIS
10 MASCULINO CASTANHOS ESCUROS
Desta forma, temos que contar os pares (Sexo, Cor dos Olhos). Assim, vamos poder
construir uma tabela de dupla entrada. Fazendo:
brd <- fp_border_default(color = "black", style = "solid", width = 2)
df %>% select(SEXO, `COR DOS OLHOS`) %>% group_by(SEXO, `COR DOS OLHOS`)
%>% summarise(f = n(), .groups = 'drop') %>% pivot_wider(names_from = `COR DOS
OLHOS`, values_from = f) %>% flextable() %>% fit_to_width(max_width = 7) %>%
colformat_num(big.mark=".", decimal.mark = ",", na_str = 0) %>%
set_caption(("Tabela de Distribuição por Sexo e Cor dos Olhos"), style = "Table Caption")%>%
add_header_row( values = c("SEXO", "COR DOS OLHOS"),
colwidths = c(1, 5), top = T) %>% align(align = "center", part = "header") %>%
hline_top(part = "header", border = brd) %>%
vline(j = 1, part = "all", border = brd) %>%
merge_at(i = c(1:2),j = 1, part = "header") %>%
hline(part = "header", border = brd)
Que resulta em:
3) Tabela de Freqüências para Dados Agrupados ou Tabulados em Classe
É utilizada quando temos uma variável quantitativa (contínua ou discreta em grande quantidade – n
≥ 25). Neste caso, a Tabela de Distribuição de Freqüências é composta por intervalo de classes,
freqüências, freqüências relativas, freqüências acumuladas e freqüências relativas acumuladas.
Sua construção é bastante simples e segue o roteiro abaixo:

1. Determina-se o maior e o menor número dos dados brutos;
2. Calcula-se a Amplitude Total AT, dado por AT = Xmaior – Xmenor;
3. Determina-se o nº de intervalos de classe k, dado por k = 1 + 3,322 (log10 n) (Fórmula de
Sturges)
AT
4. Determina-se a amplitude do intervalo de classe h, dado por: h =
5. Determina-se os limites dos intervalos de classe; k
6. Determina-se o número de observações que caem dentro de cada intervalo, para com isto,
determinar as freqüências de classe.
Observação:
Pode-se usar, também, para determinar o número de classe k, a regra da raiz dada por k = n ,
sendo o n a quantidade de dados.
Observe a comparação entre os dois métodos:
Seu formato é o seguinte:
Título:
Fri
Xi Fi fri
Ordem da Intervalos fi Freqüência
(Ponto Freqüência Freqüência
Classe i de classe Freqüência Relativa
médio) Acumulada Relativa
Acumulada
l+L
1 Linf |-- LSup f1 F1 fr1 Fr1
2
...
...
K
n n
Total ∑f
i =1
i =n ∑ fr i
i =1
Fonte:

Onde:
a) Ordem dos Intervalos de Classes:

São representadas simbolicamente por i , sendo i = 1, 2, 3,..., k, onde k é o número total de classes.
b) Intervalos de classes
Os intervalos são compostos pelo extremos de cada classe e pela amplitude dos intervalos de classe.
Para determinada classe i, limite inferior é simbolizado por li e o limite superior por Li. De acordo
com o IBGE, as classes devem ser escritas empregando-se os símbolos "|---", "---" ou "|---|",
conforme o caso.
A amplitude dos intervalos de classes hi é o tamanho do intervalo que define a classe. Para cada
classe i , a amplitude do intervalo é simbolizado por hi e é obtido pela diferença entre os seus
limites, ou seja
hi = Li − li
d) Ponto médio de uma classe
É o ponto que divide a classe no meio. O ponto médio da classe i é simbolizado por Xi e calculado
por l + Li
Xi = i
2
O ponto médio é o valor representativo da classe.
e) Freqüências
Freqüência simples ou absoluta (fi)

Freqüência relativa (fri)
Freqüência acumulada (Fi)
Freqüência relativa acumulada (Fra i)
Obs:
1) Na construção da tabela de distribuição de freqüências, podem ser usado os seguintes
símbolos:
a) "|---": indica que o intervalo irá conter o valor que se encontra à esquerda deste símbolo
(limite inferior - l), mas não irá conter o valor que está à direita (limite superior -L),
equivalente ao seguinte intervalo [a, b[;
b) "---": que indica que tanto o valor da sua esquerda (l) quando o valor da sua direita (L)
não serão incluídos no intervalo, equivalente ao intervalo ]a, b[; e
c) "|---|": que indica que ambos valores (l e L) serão incluídos no intervalo, equivalente ao
intervalo [a, b].
2) O valor de k deve ser sempre arredondado, independente do tipo de variável numérica

(discreta ou contínua), para o número inteiro imediatamente superior a k ou o número inteiro
imediatamente inferior a k, conforme as regras de arredondamento;
3) O valor de h deve ser arredondado, seguindo as regras de arredondamento, quando a
variável numérica for discreta (exemplo: idade, notas de teste, ou outra qualquer);
quando for contínua não é necessário fazer este arredondamento, pois são permitidos,
aqui, valores fracionados, desde que, no final do processo, todos os dados sejam distribuídos
na tabela;
4) Verifique após os cálculos de AT, k e h se AT < k.h, e nesse caso empregue o símbolo
"|---", na tabela; caso AT = k.h, pode-se usar o símbolo "|---|" na construção da tabela, deste
que todos os dados sejam distribuídos na mesma; caso isso não aconteça, o valor de h deve
ser arredondado para o maior inteiro, no caso discreto, e para o numero fracionado

maior do que o valor de h calculado anteriormente, no caso contínuo, obedecendo o
número de casas decimais da variável em estudo.;
5) O primeiro valor a ser inserido na tabela de distribuição de freqüências deve ser o menor
valor do rol de dados, ou seja, o Xmenor;
Exemplo: sejam 25 valores da variável diâmetro de peças produzidas por uma máquina em
milímetros:
21,5 21,4 21,8 21,5 21,6
21,7 21,6 21,4 21,2 21,7
21,3 21,5 21,7 21,4 21,4
21,5 21,9 21,6 21,3 21,5
21,4 21,5 21,6 21,9 21,5
Seguindo o roteiro, temos:

1. n = 25
2. Maior: 21,9; Menor: 21,2
3. AT = 21,9 – 21,2 = 0,70
4. K = 1 + 3,322Log n = 1 + 3,322 log(25) = 5,61 ≅ 6
5. h = AT / k → h = 0,70 / 6 = 0,12
6. AT < k.h → 0,70 < (6 * 0,12 = 0,72) → Ok
Para montar a tabela de distribuição de freqüências, devemos antes fazer o ordenamento dos dados,
da seguinte forma:
21,2 21,3 21,3 21,4 21,4
21,4 21,4 21,4 21,5 21,5
21,5 21,5 21,5 21,5 21,5
21,6 21,6 21,6 21,6 21,7
21,7 21,7 21,8 21,9 21,9
A tabela de Distribuição de Freqüências fica assim:
"Distribuição de Freqüências do diâmetro de peças produzidas"

Classe Intervalos de classe X f F Fr Fra
1 21,20 |-- 21,32 21,26 3 3 0,12 0,12
2 21,32 |-- 21,44 21,38 5 8 0,20 0,32
3 21,44 |-- 21,56 21,50 7 15 0,28 0,60
4 21,56 |-- 21,68 21,62 4 19 0,16 0,76
5 21,68 |-- 21,80 21,74 3 22 0,12 0,88
6 21,80 |-- 21,92 21,86 3 25 0,12 1,00
25

Exemplo usando o R:
Os cálculos anteriores poderiam ser obtidos com o auxílio do R, por meio dos seguintes comandos:
# criando a variável "df" e colocando os valores observados nela
df<-c(21.5, 21.4, 21.8, 21.5, 21.6, 21.7, 21.6, 21.4, 21.2, 21.7, 21.3, 21.5, 21.7, 21.4,
21.4, 21.5, 21.9, 21.6, 21.3, 21.5, 21.4, 21.5, 21.6, 21.9, 21.5)
df # verificando os resultados
[1] 21.5 21.4 21.8 21.5 21.6 21.7 21.6 21.4 21.2 21.7 21.3 21.5 21.7 21.4 21.4
[16] 21.5 21.9 21.6 21.3 21.5 21.4 21.5 21.6 21.9 21.5
####Menor e maior valores###

menor = df %>% min()
menor
maior = df %>% max()
maior
###Amplitude Total###
AT = maior - menor
AT
###Nr de intervalos####
k = ceiling(1 + 3.322*log(n, 10))
k
[1] 6
####Amplitude dos intervalos de classe####

h<-AT/k # calculando h
>h
[1] 0.1166667
h<-round(h, 2) # arredondando para 2 casas

>h
[1] 0.12
###Teste para verificar se está tudo certo####

AT < k*h # verificando AT < k*h
[1] TRUE # resposta verdadeira
###Ordem dos intervalos####

Ord <- seq(1,k, 1)
Ord
####Criando os limites####
ini <- menor
br <- 0
for(i in 1:(k+1)){
br[i] <- round(ini, 3)
ini <- ini + h
}

br
[1] 21.20 21.32 21.44 21.56 21.68 21.80 21.92
Limites <- cut(df, dig.lab = 4, breaks = br, right = F, include.lowest = F)
table(Limites)
Limites
[21.2,21.32) [21.32,21.44) [21.44,21.56) [21.56,21.68) [21.68,21.8) [21.8,21.92)
3 5 7 4 3 3
###Usando o pacote fdth com o flextable####
dist <- fdt(df,start=menor,end=maior+h,h=h) # cria a tabela com o pacote "fdth"
glimpse(dist)
dist <- cbind(Ord, dist$table)
dist <- cbind(dist, PM)
dist %>% flextable() %>%

fit_to_width(max_width = 7) %>%
colformat_double(j = c(1,3), big.mark=".", digits = 0, decimal.mark = ",", na_str = "N/A") %>%
colformat_double(j =c(4:8), big.mark=".", digits = 2, decimal.mark = ",", na_str = "N/A") %>%
autofit() %>%
set_caption(("Tabela de distribuição de frequências da Variável Diâmetro"), style = "Table
Caption")
O que resulta:

###Usando o comando "transform" e flextable####
dist <- cbind(Ord, transform(table(Limites)))

dist <- transform(dist, Rel_freq = prop.table(Freq), Cum_freq = cumsum(Freq))
dist <- transform(dist, Cum_rel_freq = cumsum(Rel_freq))
dist <- cbind(dist, PM)

autofit() %>%
Caption")
O que resulta em:
##Usando o dplyr e flextable####
dist <- data.frame(Limites)

dist <- dist %>% count(Limites) %>% mutate(f = n,
Fac = cumsum(f),
fr = round(f/sum(f)*100, 3),
Fr = cumsum(fr)) %>% select(-n)
dist <- cbind(Ord, dist, PM)

autofit() %>%
Caption")
O que resulta em:

12. Representação gráfica das séries estatísticas
Uma vez montada a tabela com as devidas freqüências, os dados podem ser representados de
diversas formas. Toda representação gráfica deve obedecer aos seguintes requisitos:
- Simplicidade;
- Clareza; e
- Veracidade.
Os principais tipos de representação gráfica são:
- Diagramas;
- Estereogramas;
- Cartogramas;
- Pictogramas.
12.1 Diagramas
São representações geométricas no espaço bidimensional. Os principais diagramas são:

- Gráfico em colunas;
- Gráfico em barras;
- Gráfico em setores;
- Gráfico de porcentagens complementares;
- Gráfico polar;
- Diagrama de ramo-e-folhas;
- Diagrama de pontos;
- Histograma
- Polígono de freqüências;
- Gráficos lineares ou de linhas.
Gráficos em colunas e em barras

a) Gráfico em colunas b) Gráfico em Barras
c) Gráfico em colunas duplas

c) Gráfico em colunas duplas d) Gráfico em colunas empilhadas

Gráfico em setores e porcentagens complementares
a) Gráfico em setores b) Porcentagens complementares
Gráfico polar

Diagrama de ramo-e-folha Ramo Folha
4 | 06
5 | 37
Representa um conjunto de dados quantitativos separando 6 | 379
cada valor em duas partes: ramo (como o dígito mais à 7 | 446
esquerda) e a folha( como o dígito mais à direita). 8 | 157
Ex: sejam os seguintes valores: 9 | 01488
10 | 58
11 | 16
4.00 4.56 5.25 5.73 6.26 6.66 6.86 7.39 7.44 7.59 8.12 12 | 08
8.46 8.74 8.95 9.13 9.35 9.77 9.80 10.53 10.76 11.06 13 | 269
11.59 12.00 12.79 13.23 13.60 13.85 14.69 14.71 15.99 14 | 77
16.22 16.61 17.26 18.75 19.40 23.30 15 |
16 | 026
17 | 3
18 | 8
19 | 4
20 |
21 |
22 |
23 | 3
Diagrama de Pontos
É útil para avaliar se há ou parece haver alguma estrutura no processo de observação dos dados.
Histograma
A representação gráfica da Tabela de Distribuição de Freqüências é o histograma, que é formado

por um conjunto de retângulos justapostos cujas bases se localizam no eixo horizontal, de tal modo
que seus pontos médios coincidam com os pontos médios dos intervalos de classe e seus limites
coincidam com os limites das classes.
Por exemplo:

Juntamente com o histograma, também é apresentado o Polígono de Freqüências, conforme o
gráfico abaixo:
`
Alguns programas estatísticos apresentam o histograma com a curva da Distribuição Normal,

conforme o gráfico abaixo:

E para as freqüências absolutas acumuladas, podemos construir o Gráfico de Freqüências
Acumuladas:
Além dos gráficos vistos anteriormente, são usados também os seguintes gráficos para representar
dados estatísticos:
Gráfico de linha
São amplamente empregados para representar fenômenos contínuos no tempo (série temporal)
Neste gráfico, temos no eixo x a variável tempo, que é a principal característica de uma série
temporal.

Gráfico de dispersão
Onde representamos o comportamento da relação entre a variável x e a variável y.
Boxplot
Este gráfico mostra como está o comportamento da distribuição dos dados. É utilizado para avaliar
a distribuição empírica do dados. Ele será detalhado mais adiante.

12.2 Estereogramas
São representações geométricas no espaço tridimensional. Os volumes dos sólidos geométricos

devem ser proporcionais aos valores da série que procura representar.
Ex.:

12.3 Cartogramas
São ilustrações em cartas geográficas. Neste tipo de representação se relacionam os valores da série
(que é sempre geográfica ou espacial) com seus respectivos locais de ocorrência.
Ex.:
12.4 Pictogramas
São gráficos construídos a partir de figuras ou conjunto de figuras representativas da intensidade do

fenômeno. Têm a vantagem de despertar a atenção do público leitor.
Ex.:
Exercício: com base nas tabelas geradas anteriormente, construa os gráficos apropriados.

13. Características numéricas de uma distribuição de freqüências
13.1 Medidas de Posição ou Localização
Essas medidas fornecem valores que caracterizam o comportamento de uma série de dados,
indicando a posição ou a localização dos dados em relação ao eixo dos valores assumidos pela
variável ou característica em estudo.
As medidas de posição ou localização são subdivididas em medidas de tendência central (média,
mediana e moda) e medidas separatrizes (quartis, quintis, decis e percentis).
13.1.1 Medidas de Tendência Central
São indicadores que permitem que se tenha uma primeira idéia ou resumo, do modo como se
distribuem os dados de uma variável aleatória.
Sevem para localizar a distribuição de freqüências sobre o eixo de variação da variável em questão.
13.1.1.1 Média Aritmética ou simplesmente Média
E o valor representativo de um conjunto de valores que corresponde ao centro de gravidade da

distribuição de freqüências.
Podemos obter a média da seguinte forma:
Para dados simples Para dados com freqüência

n k
∑ Xi ∑X i fi k
X = i =1
X = i =1
, onde n = ∑ f i
n n i =1
Sendo xi , com i = 1, 2,..., n, o conjunto de dados sem freqüências ou não agrupados.
No caso em que os dados foram distribuídos em intervalos de classes de freqüências, podemos

calcular a média utilizando a expressão acima (2º caso), mas substituindo os xi pelos pontos médios
das classes.
Propriedades da média
a) a soma algébrica dos desvios tomados em relação à média é nula.
∑ ( x − X ) = 0.
i
b) a soma algébrica dos quadrados dos desvios (em relação à média) é mínima.
∑ (x − X ) ≤ ∑ (x − y ) ,
i
2
i i
2
onde X ≠ yi .
c) somando ou subtraindo uma constante a todos valores de uma variável, a média ficará acrescida
ou subtraída dessa constante.
∑ ( x + k ) = ∑ x + ∑ k = ∑ x + nk = X + k .
i i i
n n n

d) multiplicando (ou dividindo) todos os valores de uma variável por uma constante, a média ficará
multiplicada ou dividida por essa constante.
∑ kx i
=
k ∑ xi
= kX .
n n
Obs: além da média aritmética, temos outras médias a saber:
13.1.1.2 Média Geométrica:
Quando os dados crescem de forma exponencial, a média aritmética pode não representar bem os
dados. Neste caso, utiliza-se a média geométrica.
Podemos obter a média geométrica por:

∏x
k
G=n i G=n ∏ X i fi , onde n = ∑ f i
i =1
Quando o número de observações for muito grande, é aconselhável o emprego de logaritmos

(decimal ou neperiano)
1
G=n ∏ xi = ∏ xin
Aplicando o logaritmo decimal em G, temos:
 1
1 1 ∑ log xi
log G = log ∏ xi  = log[∏ xi ] = ∑ log xi =
n
  n n n
Para obter G, temos que calcular o antilog da seguinte maneira:

 ∑ log xi   ∑ f i log xi  k
G = anti log 
 n


G = anti log 
 n


, onde n = ∑
i =1
fi
13.1.1.3 Média harmônica
É utilizada quando estamos trabalhando com grandezas inversamente proporcionais ou quando

temos situações em que a média de taxas é desejada.
A média harmônica pode ser calculada da seguinte forma:

k
n n
H= H= , onde n = ∑ f i
1 f
∑x ∑ Xi i =1
i i

Relação entre a média aritmética, geométrica e harmônica
A média geométrica é menor do que ou igual à média aritmética, mas é maior do que ou igual à
média harmônica, ou seja,
H ≤G≤ X
13.1.1.4 Média Quadrática ou Raiz Média Quadrática (RMQ)
Ë um tipo de média que é calculada com base nos valores de x elevados ao quadrado. É definida
por:
∑X ∑X
2 2
f k
RMQ = X =
2
RMQ = X = 2
, onde n = ∑ f i
n n i =1
Exemplo:
a) Valores sem freqüência ou não agrupados
x = 2, 2, 3, 5, 6, 8, 8, 8, 10
n
∑X i
2 + 2 + 3 + 5 + 6 + 8 + 8 + 8 + 10 52
X = i =1
= = = 5,78
n 9 9
G=n ∏x i = 9 2 * 2 * 2 * 5 * 6 * 8 * 8 * 8 * 10 = 9 18432000 = 4,97

 ∑ log xi   log 2 + log 2 + log 3 + log 5 + log 6 + log 8 + log 8 + log 8 + log 10 
G = anti log   = anti log   =
 n   9
 0.301 + 0.301 + 0.477 + 0.699 + 0.778 + 0.903 + 0.903 + 0.903 + 1.000 
= anti log   =
 9
 6.266 
= anti log   = anti log(0,696) = 10 0,696 = 4,97
 9 
n 9
H= = =
1 1 1 1 1 1 1 1 1 1
∑ x 2 + 2 + 3 + 5 + 6 + 8 + 8 + 8 + 10
i
9 9
= = = 4,14
0.50 + 0.50 + 0.333 + 0.200 + 0.167 + 0.125 + 0.125 + 0.125 + 0.100 2,175
Verificamos que : H ≤ G ≤ X , pois 4,14 < 4,97 < 5,78
Usando o R, teríamos o seguinte:
#######Entrada de Dados######
x <- c(2, 2, 3, 5, 6, 8, 8, 8, 10)
#######Transformação em Dataframe####
dist <- data.frame(x)

######Criação da Tabela#####
dist <- dist %>% mutate(`log x` = round(log(x, 10), 3),
`1/x` = round(1/x, 3))
Ord <- seq(1: nrow(dist))
dist <- cbind(Ord, dist)
total <- matrix(c("Total", sum(x), sum(dist$`log x`), sum(dist$`1/x`)), 1, ncol(dist))
colnames(total) <- names(dist)
total <- total %>% as_tibble()
total$x <- as.numeric(total$x)

total$`log x` <- as.numeric(total$`log x`)
total$`1/x` <- as.numeric(total$`1/x`)
new_row <- as.list(total)

add_footer(values = new_row) %>%
align(part = "footer", align = "right", j = 1:4) %>% autofit() %>%
colformat_double( j = c(1,2), big.mark=".", digits = 0, decimal.mark = ",", na_str = "N/A") %>%
colformat_double( j = c(3, 4), big.mark=".", digits = 3, decimal.mark = ",", na_str = "N/A") %>%
set_caption(("Exemplo de Cálculo de Médias"), style = "Table Caption")
O que resulta em:

Aplicando as fórmulas, temos os mesmos resultados anteriores:
####Cálculos####
n = length(x)
# Média Aritmética
Xbar = round(dist %>% select(x) %>% sum() / n, 2)
# Média Geométrica
Geo = round(prod(x)^(1/n),2)
Geo2 = round(10^round(dist %>% select(`log x`) %>% sum() / n, 3), 2)
# Média harmônica
Har = round(n / dist %>% select(`1/x`) %>% sum(), 2)
# Resultados
res <- data.frame(Xbar, Geo, Geo2, Har)
res %>% flextable() %>%

colformat_double(big.mark=".", digits = 2, decimal.mark = ",", na_str = "N/A") %>%
set_caption(("Resultado do Cálculo de Médias"), style = "Table Caption")
b) Para dados com freqüência, mas não agrupados
Nr de defeitos f
0 4
1 7
2 5
3 2
4 1
5 1
Total 20
Vamos usar a fórmula:

k
∑X i fi
X = i =1
k
∑f i =1
i

Para isto, vamos criar uma coluna na tabela e chamá-la de "Xf". Nesta coluna, vamos incluir os
valores de X*f de cada linha, da seguinte forma:
Nr de defeitos f Xf
0 4 0
1 7 7
2 5 10
3 2 6
4 1 4
5 1 5
Total 20 32
∑X i fi
32
X= i =1
= = 1,60
k
20
∑f i =1
i
Para o cálculo da Média Geométrica(G) e da Média Harmônica (H), devemos adicionar mais coluna
na tabela acima:
f
Nr de defeitos f Xf log x f*log x
x
0 4 0 - - -
1 7 7 0 0 7
2 5 10 0,301 1,505 2,500
3 2 6 0,477 0,954 0,667
4 1 4 0,602 0,602 0,250
5 1 5 0,699 0,699 0,200
Total 20 32 - 3,76 10,617
Usando as fórmulas abaixo, temos:
 ∑ f i log xi   3,76 
G = anti log   = anti log   = anti log(0,188) = 10 0,188 = 1,54
 n   20 
n 16
H= = = 1,51
f i 10,617
∑X
i
(Obs: aqui tivemos que considerar como valores de f, os valores 7, 5, 2, 1,1, que dá um total de 16,
isto porque na primeira linha não foi possível calcular o log e a divisão f/x, em virtude do valor
x = 0; isto não acontece quando todos os valores de x são válidos, ou seja, xi ≠ 0)
Verificamos que : H ≤ G ≤ X , pois 1,51 < 1,54 < 1,60

Usando o R temos:
####Entrada de Dados####
df <- tibble(Defeitos = c(0,1,2,3,4,5), f = c(4,7,5,2,1,1))
####Contrução da Tabela####
dist <- df %>% mutate(Xf = Defeitos * f,

`log x` = log(Defeitos, 10),
`f*log x` = f*`log x`,
`f/x` = f/Defeitos)
total <- matrix(c("Total", sum(dist$f), sum(dist$Xf), NA,

round(sum(dist$`f*log x`[-1]), 3), round(sum(dist$`f/x`[-1]), 3)), 1, ncol(dist)) %>%
as_tibble()
names(total) <- names(dist)

new_row <- as.list(total)

add_footer(values = new_row) %>%
align(part = "footer", align = "right", j = 1:6) %>% autofit() %>%
colformat_double( j = c(2,3), big.mark=".", digits = 0, decimal.mark = ",", na_str = "N/A") %>%
colformat_double( j = c(4,5,6), big.mark=".", digits = 3, decimal.mark = ",", na_str = "N/A") %>%
set_caption(("Exemplo de Cálculo de Médias com Freqüências"), style = "Table Caption")
Que gera a seguinte tabela:
Usando o R para os cálculos, temos:
###Início dos Cálculos####
n = dist %>% select(f) %>% sum()

#Média artitmética
Xbar = dist %>% select(Xf) %>% sum() / n
#Média geomátrica
Geo = round(10 ^ (round(dist %>% select(`f*log x`) %>% filter(`f*log x` != -Inf) %>% sum(),
3)/n), 2)
# Média harmônica
Har = round((n - 4) / round(dist %>% select(`f/x`) %>% select(`f/x`) %>% filter(`f/x` != Inf) %>%
sum(), 3), 2)
###Resultados####
res <- tibble(Xbar, Geo, Har)

set_caption(("Resultado do Cálculo de Médias com Freqüências"), style = "Table Caption")
Que gera:
c) Para dados agrupados
Vamos usar como exemplo, a tabela de distribuição de freqüências abaixo:

Para calcular as médias (Média Aritmética, Geométrica e Harmônica) precisamos incluir na tabela
acima os Pontos Médios de cada intervalo, e as mesmas colunas do exemplo anterior:
Vamos usar as seguintes fórmulas:

k
∑X i i f
538,46
X = i =1
= = 21,54
k
25
∑f
i =1
i
 ∑ f i log xi   33,329 
G = anti log   = anti log   = anti log(1,333) = 101,333 = 21,53
 n   25 
n 25
H= = = 21,53
f i 1,161
∑X
i
Verificamos que : H ≤ G ≤ X , pois 21,53 ≤ 21,53 < 21,54
Usando o R, teríamos:
####Início dos cálculos####
# Média aritmética
n <- dist %>% select(f) %>% sum()
Xbar = round(dist %>% select(xf) %>% sum() / n , 2)
# Média geométrica
Geo = round(10 ^ (round(dist %>% select(`f*log x`) %>% sum(), 3)/n), 2)
# Média harmônica
Har = round(n / round(dist %>% select(`f/x`) %>% select(`f/x`) %>% sum(), 3), 2)
###Resultados####
res <- tibble(Xbar, Geo, Har)

set_caption(("Resultado do Cálculo de Médias para Dados Agrupados"), style = "Table Caption")
Que gera:
13.1.1.5 Mediana
É o valor que divide a distribuição de freqüências em duas partes iguais.
a) Para dados simples:
PM d =
(n + 1)
I) Se n for ímpar, a mediana será o elemento de ordem
2
n n
II) Se n for par, a mediana será o valor médio entre os elementos de ordem P1M d = e P2M d = + 1
2 2
Exemplo:
n ímpar: 2, 2, 3, 5, 6, 8, 8, 8, 10 aqui o n = 9, usando PM d =

(n + 1) temos, PM d =
(9 + 1) = 5
2 2
logo a mediana será o valor de ordem 5, que no caso é Md = 6, pois ocupa a 5ª posição no rol.
n n
n par: 5, 5, 7, 9, 11, 12, 15, 18 aqui o n = 8, usando P1M d = e P2M d = + 1 temos:
2 2
8 8
P1Md = = 4 e P2Md = + 1 = 5
2 2
ou seja, vamos usar o valor que está na posição 4 e o valor que está na posição 5, que correspondem
P1Md + P 2 Md
aos valores 9 e 11. Daí, tiramos uma média destes valores que é igual a Md =
2
9 + 11
= 10 , esta é a mediana.
2
Observe que os dados devem estar em rol, ou seja devem estar ordenados em ordem de grandeza.
b) Para dados que apresentam freqüência, mas não estão agrupados em intervalos de classe, deve-se
seguir a idéia acima.

Exemplo:
Nr de defeitos f
0 4
1 7
2 5
3 2
4 1
5 1
Total 20
20 20
Como n é par, temos: P1Md = = 10 e P2Md = + 1 = 11
2 2
Aqui, é necessário determinar a freqüência acumulada. Logo:
Nr de defeitos f F
0 4 4
1 7 11
2 5 16
3 2 18
4 1 19
5 1 20
Total 20
Verificando na tabela, percebemos que o valor 0 se repete 4 vezes, e o valor 1 se repete 7 vezes.
Juntos temos 11 valores acumulados. Ou seja, a décima posição é ocupada pelo valor "1", e a
décima primeira é ocupada pelo valor "1", também.
Então, a mediana será:
P1Md + P 2 Md 1 + 1
Md = = =1
2 2
c) Para os dados agrupados em intervalos de classe devemos usar a seguinte fórmula:
 (n 2 ) − FantMd 
Md = linf Md +   hMd
 f Md 
onde:
linf Md - Limite Inferior da classe que contém a Md
Fant Md = Σf ant Md - Soma das freq. anterior à classe da Md (Freqüência acumulada anterior à
classe da Md)
fMd - Freqüência da classe da Md
hMd - Amplitude da classe da Md
Exemplo:

Classes f F n 20 n 20
2 |--- 4 3 3 Neste caso, vamos começar por = = 10 e + 1 = + 1 = 11 ,
2 2 2 2
4 |--- 6 5 8
ou seja, a mediana é o valor que ocupa a 10ª e a 11ª posição.
6 |--- 8 7 15
Estes valores estão no intervalo de 6 a 8, porque até o anterior
8 |--- 10 4 19
temos 8 elementos. Identificamos assim a classe da mediana.
10 |--- 12 1 20
Vamos agora usar a fórmula:
Total 20
 (n 2 ) − Fant Md  10 − 8  4
Md = linf Md +   hMd = 6 +   2 = 6 + = 6,57 . Esta
 f Md   7  7
é a mediana para os dados da tabelados.
Existe uma forma mais rápida para este cálculo, que usa a seguinte relação:
hMd X
= Md
f Md Dif Md
Md = l inf Md + X Md
Onde:
XMd – é o valor que se quer achar
hMd – é a amplitude do intervalo da mediana
fMd – é a freqüência do intervalo da mediana
n
DifMd – é a diferença entre e a soma das freqüências anteriores ao intervalo da mediana.
2
Então, pelo exemplo temos:

hMd X 2 X Md 2 X 4
= Md ⇒ = ⇒ = Md ⇒ X Md = = 0,57
f Md Dif Md 7 20 7 2 7
( − 8)
2
Md = l inf Md + X Md ⇒ Md = 6 + 0,57 = 6,57
Exemplo:
Usando os dados do "Diâmetro", temos:

Usando o R, temos:
###Cálculo da Mediana####
n <- dist %>% select(f) %>% sum() #tamanho da amostra
metade <- n / 2 # posição da mediana
class.md <- (dist %>% filter(Fac < metade) %>% nrow()) + 1 # intervalo de classe da Md
linf.md <- br[class.md] # limite inferio do intervalo de classe da Md
freq.ant <- dist %>% select(Fac) %>% filter(Ord == (class.md - 1)) # Fac anterior ao intervalo Md
freq.md <- dist %>% select(f) %>% filter(Ord == class.md) # Freqüência do intervalo da Md
Md <- round(linf.md + ((metade - freq.ant[,1]) / freq.md[,1])*h, 2)

Md
E o valor da Mediana é 21,52
13.1.1.6 Moda
É o valor que ocorre com a maior freqüência, ou de máxima freqüência.
Para dados simples: valor (ou valores) de máxima freqüência.
Para dados agrupados:
1) Moda Bruta:
Neste caso, verifica-se o intervalo com a maior freqüência. A moda bruta será o ponto médio
deste intervalo.
2) Método de King
Neste método, usa-se a seguinte fórmula:
 f post 
Mo = l inf Mo +  hMo
f + f 
 ant post 
Onde:
linf Mo: é o limite inferior do intervalo onde está a moda;
fant: é a freqüência do intervalo anterior ao da moda
fpost: é a freqüência do intervalo posterior ao da moda
hMo: é a amplitude do intervalo da moda
3) Método de Czuber
 d1 
É o método considerado mais preciso. É definido por: Mo = linf Mo +  hMo
 d1 + d 2 

Onde:
linf Mo: é o limite inferior do intervalo onde está a moda;
d1 - diferença entre a freqüência da classe modal e a imediatamente anterior.
d2 - diferença entre a classe modal e a imediatamente posterior.
hMo: é a amplitude do intervalo da moda
Exemplos:
a) Dados simples (não tabelados) : 2, 2, 3, 5, 6, 8, 8, 8, 10 Mo = 8
b) Dados tabelados discretos:
Nr de defeitos f
0 4
1 7 Mo = 1
2 5
3 2
4 1
5 1
Total 20
c) Dados agrupados em intervalos de classe
Moda bruta
Classes f F Neste caso, verifica-se a maior freqüência, no caso o intervalo de

2 |--- 4 3 3 6 a 8. A moda será o ponto médio deste intervalo, ou seja
4 |--- 6 5 8
6 |--- 8 7 15 6+8
=7
8 |--- 10 4 19 2
10 |--- 12 1 20
Total 20
Método de King
Classes f F  f post 
2 |--- 4 3 3 Neste caso, usa-se a fórmula Mo = l inf Mo +  h , então
 f + f  Mo
4 |--- 6 5 8  ant post 
 
h = 6 +  4 2 = 6 + 8 = 6,89
6 |--- 8 7 15 f post
Mo = l inf Mo + 
8 |--- 10 4 19  f + f  Mo 5+ 4 9
 ant post 
10 |--- 12 1 20
Total 20

Método de Czuber
 d1 
Classes f F Neste caso, usa-se a fórmula Mo = linf Mo +  hMo , então
2 |--- 4 3 3  d1 + d 2 
4 |--- 6 5 8  d1   (7 − 5)  2 4
6 |--- 8 7 15 Mo = l inf Mo +  hMo = 6 +  2 = 6 +  2 = 6 + = 6,80
8 |--- 10 4 19  d1 + d 2   (7 − 5) + (7 − 4)  5 5
10 |--- 12 1 20
Total 20
O método de Czuber pelo R seria:
###Cálculo da Moda####
maior.freq <- dist %>% select(f) %>% max() # Maior freqüência
class.mo <- dist %>% filter(f == maior.freq) %>% select(Ord) # Intervalo da Moda
linf.mo <- br[class.mo[,1]] # Limite inferior do intervalo da Moda
f.ant <- dist %>% filter(Ord == (class.mo[,1] - 1)) %>% select(f) # Freq. anterior a Moda
f.pos <- dist %>% filter(Ord == (class.mo[,1] + 1)) %>% select(f) # Frq. posterior a Moda
d1 <- maior.freq - f.ant[,1]

d2 <- maior.freq - f.pos[,1]
Mo <- round(linf.mo + (d1/(d1 + d2))*h, 3)

Mo
E o valor da Moda é 21,49
Relação entre a média, a mediana e a moda
A relação entre a média, a mediana e a moda é a seguinte:
x − mo ≅ 3( x − md )
Por meio dela, é possível ter uma noção inicial de como está a distribuição dos dados, com relação à
assimetria, ou seja:
X < Md < Mo , indica que a Assimetria é Negativa;
X = Md = Mo ,que indica que existe simetria na distribuição.
Mo < Md < X , que indica que a Assimetria é positiva.

X < Md < Mo
Mo < Md < X
X = Md = Mo
No caso da variável Diâmetro, temos: Média = 21,54, Mediana = 21,52, Moda = 21,49, ou seja:
Mo < Md < X
Ass. Positiva

13.1.2 Separatrizes
São valores que dividem uma série ordenada de dados ou uma distribuição de freqüência em partes
iguais.
Principais separatrizes:
QUARTIL (Qi) : divide a série ou a distribuição em quatro partes iguais.

QUINTIL (Ki): divide a série ou distribuição em cinco partes iguais.
DECIL (Di) : divide a série ou a distribuição em dez partes iguais.
PERCENTIL (Pi) ou CENTIL (Ci) : divide a série ou a distribuição em cem partes iguais.
13.1.2.1 Quartil
a) Para dados simples:

Neste caso usamos:
Onde n é o
( n) ( n + 1) 3( n) tamanho do
PQ1 = PQ2 = PQ3 =
4 2 4 conjunto de
dados
Uma vez encontrada a posição, utilizar:
Qi = X ant pq + ( PQi − Pant pq )( X post pq − X ant pq )
O resultado dado pela expressão acima indica a posição que estará o valor do conjunto de dados que
representa o quartil considerado.
Por exemplo: seja o seguinte rol de dados 1, 2, 5, 5, 5, 8, 10, 11, 12, 12, 13, 15
i ( n) 1(12)
Para determinar o Q1, sabendo que n = 12, faremos PQi = ⇒ PQ1 = = 3 . Então o Q1 é o
4 4
terceiro elemento do rol, no caso 5.
Qi = X ant pq + ( PQi − Pant pq )( X post pq − X ant pq ) ⇒ Q1 = 2 + (3 − 2)(5 − 2) = 2 + 3 = 5
i ( n) 3(12)
Para determinar o Q3: PQi = ⇒ PQ3 = = 9 . Então o Q3 é o nono elemento do rol, no
4 4
caso 12.
Q3 = 11 + (9 − 8)(12 − 11) = 11 + 1 = 12
Para dados agrupados em intervalos de classe, temos:

 i ( 25%) n − Fant Q i 
Qi = linf Q i +   hQ
 fQi  i
 
Para cada i = 1, 2, 3, temos:
 25%n − Fant Q1   50%n − Fant Q 2   75%n − Fant Q3 

Q1 = l inf Q1 +  hQ Q2 = l inf Q 2 +  hQ Q3 = l inf Q3 +  hQ
 f Q1  1  f Q2  2  f Q3  3
     

Onde:
Linf Q – Limite inferior da classe de Q
Fant Q = ∑fant Q – Soma das freqüências anteriores a classe de Q (Freqüência Acumulada anterior)
fQ – Freqüência da classe de Q
hQ – Amplitude do intervalo de classe de Q
Exemplo:
Vamos calcular o quartil Q1 e Q3, da distribuição abaixo:
(n) 25
Para achar Q1, primeiro temos que achar PQ1 = = = 6,25 . Isto significa que Q1 está na posição
4 4
6,25, que se encontra no segundo intervalo, que vai de 21,32 a 21,44. A freqüência acumulada
anterior Fant = 3, a freqüência deste intervalo f = 5, e h = 0,12, pois 21,44 - 21,32 = 0,12. Então,
temos:
 25%n − Fant Q1 
Q1 = linf Q1 +  hQ = 21,32 +  6,25 − 3  * 0,12 = 21,32 + 0,078 = 21,398 ≅ 21,40
 f Q1  1  5 
 
3( n) 3(25)
Para achar Q3, primeiro temos que achar PQ3 = 4 = 4 = 18,75 . Isto significa que Q3 está na
posição 18,75, que se encontra no quarto intervalo, que vai de 21,56 a 21,68. A freqüência
acumulada anterior Fant = 15, a freqüência deste intervalo f = 4, e h = 0,12, pois 21,68 - 21,56 =
0,12. Então, temos:
 75%n − Fant Q 3 
Q3 = linf Q3 +  hQ = 21,56 +  18,75 − 15  * 0,12 = 21,56 + 0,1125 = 21,6725 ≅ 21,67
f Q3  3  4 
 
Usando o R, temos:
###Cálculo da Q1####
n <- dist %>% select(f) %>% sum() # Tamanho da amostra
PQ1 <- 0.25*n # Posição de Q1

class.q1 <- (dist %>% filter(Fac < PQ1) %>% nrow()) + 1 # Intervalo de Q1
linf.q1 <- br[class.q1] # Limite inferior do intervalo

freq.ant <- dist %>% select(Fac) %>% filter(Ord == (class.q1 - 1)) # Fac anterior a Q1
freq.q1 <- dist %>% select(f) %>% filter(Ord == class.q1) # Freq. do intervalo de Q1
Q1 <- round(linf.q1 + ((PQ1 - freq.ant[,1]) / freq.q1[,1])*h, 2)

Q1
E o valor de Q1 é 21,40
Para Q3, temos:
###Cálculo da Q3####
n <- dist %>% select(f) %>% sum()# Tamanho da amostra
PQ3 <- 0.75*n # Posição de Q3
class.q3 <- (dist %>% filter(Fac < PQ3) %>% nrow()) + 1 # Intervalo de Q3
linf.q3 <- br[class.q3] # Limite inferior do intervalo

freq.ant <- dist %>% select(Fac) %>% filter(Ord == (class.q3 - 1)) # Fac anterior a Q1
freq.q3 <- dist %>% select(f) %>% filter(Ord == class.q3) # Freq. do intervalo de Q1
Q3 <- round(linf.q3 + ((PQ3 - freq.ant[,1]) / freq.q3[,1])*h, 2)

Q3
E o valor de Q3 é 21,67
13.1.2.3 Quintil (K)
Para dados simples:

Encontrar a posição do quintil utilizando: Pk i = i ( n, ) onde i = 1,..., 4 e n é o tamanho do conjunto
de dados. 5
k i = X ant + ( Pk i − Pant )( X post − X ant )
Por exemplo: seja o seguinte rol de dados 1, 2, 5, 5, 5, 8, 10, 11, 12, 12, 13, 15
i ( n) 1(12)
Para determinar o K1, sabendo que n = 12, faremos PK i = ⇒ PK1 = = 2,4 . Então o K1 é
5 5
o elemento do rol, entre o da posição 2 e o da posição 3. Vamos determiná-lo:
K i = X ant pk + ( PK i − Pant pk )( X post pk − X ant pk ) ⇒ K1 = 2 + (2,4 − 2)(5 − 2) = 2 + 1,2 = 3,2
i (n) 4(12)
Para determinar o K4, sabendo que n = 12, faremos PK i = ⇒ PK 4 = = 9,6 .
5 5

Então o K4 é o elemento do rol, entre o da posição 9 e o da posição 10. Vamos determiná-lo:
K 4 = 12 + (9,6 − 9)(12 − 12) = 12 + 0 = 12
Para dados agrupados:
 (20i )% n − Fant k i 
k i = linf k i +   hk
 f  i
 ki 
Onde:
Linf k – Limite inferior da classe de k
Fant k – Freqüência acumulada anterior a classe de k
fk – Freqüência da classe de k
hk – Amplitude do intervalo de classe de k
Exemplo: vamos calcular K1 para a distribuição abaixo
i ( n) 1(25)
Para achar K1, primeiro temos que achar Pki = 5 ⇒ PK1 = 5 = 5 . Isto significa que K1 está
na posição 5, que se encontra no segundo intervalo, que vai de 21,32 a 21,44. A freqüência
acumulada anterior Fant = 3, a freqüência deste intervalo f = 5, e h = 0,12, pois 21,44 - 21,32 =
0,12. Então, temos:
 PK1 − Fant k1  5 − 3
K1 = linf k 1 +  hk 1 = 21,44 +   * 0,12 = 21,32 + 0,048 = 21,368 ≅ 21,37
 f k1   5 
13.1.2.4 Decil
Para dados simples:

i ( n)
Neste caso usamos PDi = , onde i = 1 a 4 e de 5 a 9 e n é o tamanho do conjunto de dados.
Para i = 5, utilizar 10 ( n + 1)
PD5 =
2
Di = X ant + ( PDi − Pant )( X post − X ant )

 (10i )% n − Fant D i 
Di = l inf D i +   hD
 f Di  i
 
Onde:
Linf D – Limite inferior da classe de D
Fant D = ∑fant D – Soma das freqüências anteriores a classe de D(Freqüência Acumulada anterior)
fD – Freqüência da classe de D
hD – Amplitude do intervalo de classe de D
Exemplo: vamos calcular D1 para a distribuição abaixo
i ( n) 1(25)
Para achar D1, primeiro temos que achar PDi = ⇒ PD1 = = 2,5 . Isto significa que D1 está
10 10
na posição 2,5, que se encontra no primeiro intervalo, que vai de 21,2 a 21,32. A freqüência
acumulada anterior Fant = 0, a freqüência deste intervalo f = 3, e h = 0,12, pois 21,32 - 21,2 = 0,12.
Então, temos:
 PD1 − Fant D1 
D1, = linf D1 +  hD1 = 21,2 +  2,5 − 0  * 0,12 = 21,2 + 0,10 = 21,30
 f D1   3 
 
13.1.2.5 Percentil ou Centil
Para dados simples:

i ( n)
Neste caso usamos PPi = , onde i = 1 a 49 e de 51 a 99 e n é o tamanho do conjunto de dados.
Para i = 50, utilizar:` 100
( n + 1)
PP50 =
2
Pi = X ant + ( PPi − Pant )( X post − X ant )

 i % n − F ant P 
Pi = linf Pi +  i h
 f Pi  Pi
 
Onde:
Linf P – Limite inferior da classe de P
Fant P – Freqüência acumulada anterior a classe de P
fP – Freqüência da classe de P
hP – Amplitude do intervalo de classe de P
Exemplo: Calcule o valor do vigésimo percentil ( P20 ).
Nºtel. f F fr Fr  i % n − F ant P 
Pi = linf Pi +  i h
7|--12 3 3 10,00% 10,00%  f  Pi
 Pi 
12|--17 10 13 33,33% 43,33%
17|--22 8 21 26,67% 70,00%  20%(30) − 3 
P20 = 12 +  5
22|--27 5 26 16,67% 86.67%  10 
27|--32 2 28 6,67% 93.34%
32|--37 2 30 6,66% 100%  6−3
P20 = 12 +  5
30  10 
P20 = 12 + 1,50
P20 = 13,50
Graficamente, temos:
k1 k2 k3 k4
Md = Q2 = D5 = P50

13.1.3 Esquema de Cinco Números e Boxplot (ou Gráfico Box-and-Whisker)
Após estudar as principais medidas de posição dos dados numéricos, é importante identificar e
descrevê-los em um formato resumido.
1) Esquema de Cinco Números
Um esquema de cinco números consiste em determinar:
Xmenor Q1 Mediana Q3 Xmaior
Se os dados são perfeitamente simétricos, temos:

a) A distância de Q1 até a mediana é igual à distância da mediana até Q3;
b) A distância de Xmenor até a Q1 é igual à distância de Q3 até Xmaior;
2) Boxplot
O boxplot (gráfico de caixa) é um gráfico utilizado para avaliar a distribuição empírica do dados.
Ele serve como representação gráfica do esquema de Cinco Números. a utilização do gráfico
permite avaliar a simetria e distribuição dos dados. O boxplot é formado pelo primeiro e terceiro
quartil e pela mediana. As hastes inferiores e superiores se estendem, respectivamente, do quartil
inferior até o menor valor não inferior ao limite inferior e do quartil superior até o maior valor não
superior ao limite superior. Os limites são calculados da forma abaixo:
Limite inferior: Q1 − 1,5(Q3 − Q1 )
Limite superior: Q1 + 1,5(Q3 − Q1 )
Q3 + 1,5(Q3 − Q1 )
Maior valor
que não é
um outiler
1,5(Q3 − Q1 )
Q3
Mediana IRQ = Q3 – Q1
Q1
Menor 1,5(Q3 − Q1 )
valor que
não é um
outiler
Q1 − 1,5(Q3 − Q1 )

Uma outra utilização do boxplot refere-se a identificação de pontos de discrepância ou observações
discrepantes, os famosos "outliers". Estes valores podem afetar de forma substancial o resultado
das análises estatísticas. A existência destas observações discrepantes estão relacionadas com erros
de medição, erros de execução e variabilidade inerente aos elementos da população. Para
identificação de um outlier, fazemos o seguinte: seja xº um valor da variável de estudo; compara-se
este valor xº com Q1 − 1,5(Q3 − Q1 ) e com Q1 + 1,5(Q3 − Q1 ) . O valor xº será um outiler se:
x 0 < Q1 − 1,5(Q3 − Q1 )
ou
x 0 > Q1 + 1,5(Q3 − Q1 )
Uma vez identificado o outlier, o pesquisador poderá eliminá-lo, caso seja apenas um valor, ou
trocá-los pela média da variável de estudo, calculada sem os referidos valores. Porém, deve-se
investigar as razões que levaram ao surgimento destes valores.
Como exemplo, temos os mesmos valores apresentados para o cálculo de Q1 e Q3, ou seja:
1, 2, 5, 5, 5, 8, 10, 11, 12, 12, 13, 15. O valor de Q1 para estes dados foi igual a 5 e de Q3 foi igual
a 12. A mediana foi igual a 9. O boxplot para estes dados fica assim:
Percebe-se que este caso, não há valores discrepantes.
Usando os dados da variável Diâmetro, temos:
###Box-plot####
dat <- tibble(df)
dat %>% ggplot(aes(y = df)) + scale_x_discrete() + geom_boxplot(fill = "blue") +

scale_y_continuous(breaks=br) +
labs(title = paste0("Box-plot da Variável Diâmetro"), y = "Diâmetro")+
theme(plot.title = element_text(hjust = 0.5, size = 12))
Que resulta em:

É possível fazer a comparação do Boxplot com a distribuição Normal. A seguir temos esta
comparação:

13.2 Medidas de dispersão
São medidas que traduzem a variação de um conjunto de dados em torno da média, ou seja, da
maior ou menor variabilidade dos resultados obtidos. Permitem identificar até que ponto os
resultados se concentram ou não ao redor da tendência central de um conjunto de observações.
Quanto maior for a dispersão, menor é a concentração e vice-versa. As medidas de dispersão podem
ser absolutas e relativas.
13.2.1 Medidas de Dispersão Absolutas
13.2.1.1 Amplitude Total
É a diferença entre o maior e o menor valores do conjunto de dados.
R = X max − X min
13.2.1.2 Amplitude Interquartílica - AI
É a diferença entre o terceiro quartil Q3 e o primeiro quartil Q1

AI = Q3 − Q1
13.2.1.3 Amplitude entre os Percentis 10-90 – AP10-90
É a diferença entre o Percentil 90 e o Percentil 10.

AP10−90 = P90 − P10
13.2.1.4 Variância
É a média dos quadrados dos desvios em relação a média.

∑ (X − X) ∑ (X − X ) fi
n n
2 2
i i
s2 = i =1
s2 = i =1
n −1 n −1
É possível calcular a variância de outra maneira. Sabendo que:

2 2
 n   n 
∑ Xi   ∑ X i fi 
∑ (X − X) (X i − X )2 f i = ∑ X i 2 f i −  i =1 
n n n n
= ∑ X 2 −  i =1  ∑
2
i
i =1 i =1 n i =1 i =1 n
Temos:

2 2
 n   n 
n
∑ Xi  n
 ∑ X i fi 
∑ X 2 −  i =1  ∑ X 2 f i −  i =1 
n n
s 2 = i =1 s 2 = i =1
n −1 n −1

Propriedades da variância
1) Se X = k, onde k é uma constante, Var(X) = 0

2) Se Y = X + k, onde k é uma constante, Var (Y) = Var (X)
3) Se Y = kX, onde k é uma constante, Var (Y) = k²Var(X).
A variância é uma medida de dispersão extremamente importante na Teoria Estatística. Do ponto de

vista prático, ela tem o inconveniente de se expressar numa unidade quadrática em relação à
variável em questão. Esse inconveniente é sanado com a definição do desvio-padrão.
13.2.1.5 Desvio-padrão
Define-se desvio-padrão como a raiz quadrada da variância.
s = s2
O desvio-padrão se expressa na mesma unidade da variável, sendo, por isso, de maior interesse que
a variância nas aplicações práticas.
É comum apresentar a média e o desvio-padrão para indicar a amplitude da dispersão da amostra,
da seguinte forma:
X ±s
13.2.1.6 Desvio Absoluto Médio - DAM
É a média dos valores absolutos das diferenças entre as observações e a média.

n n
∑ Xi − X ∑X i − X fi
DAM = i =1
DAM = i =1
n n
13.2.1.7 Desvio Quartílico – DQ

Q3 − Q1
DQ =
2
13.2.1.8 Relações empíricas entre as medidas de dispersão absolutas:
4 2 6
DMA = s DQ = s DMA = DQ
5 3 5
13.2.1.9 Desvio Absoluto ao redor da Mediana (MAD)
O MAD é uma medida robusta da variabilidade de uma variável. É calculado por:
MAD = mediana( xi − mediana( xi ) )
O MAD é um consistente estimador do desvio-padrão. Então, se os dados possuem uma distribuição

Normal, temos que: σˆ = 1,4826 MAD

13.2.2 Medidas de Dispersão Relativas
13.2.2.1 Coeficiente de variação
Define-se coeficiente de variação como o quociente entre o desvio-padrão e a média.

 s 
CV =  100
X
Sua vantagem é caracterizar a dispersão dos dados em valores relativos a seu valor médio. Assim,
uma pequena dispersão absoluta pode ser, na verdade, considerável quando comparada com a
ordem de grandeza dos valores da variável e vice-versa. Quando consideramos o coeficiente de
variação, enganos de interpretação desse tipo são evitados.
Existe uma escala para a verificação do grau de dispersão, em função do coeficiente de variação:
CV ≤ 10%, grau de dispersão baixo;

10% < CV ≤ 20%, grau de dispersão médio;
20% < CV ≤ 30%, grau de dispersão alto;
CV > 30%, grau de dispersão muito alto.
13.2.2.2 Coeficiente de Variação de Thorndike
s
CVt = ⋅ 100
Md
13.2.2.3 Coeficiente de Variação pelo Intervalo Quartil ou Coeficiente de Variação Quartílico
Q3 − Q1
C Vq = ⋅ 100
Q3 + Q1
13.2.2.4 Desvio Quartil Reduzido (DSR)
Por definição é a amplitude semi-interquartílica sobre a mediana.
Q3 − Q1
DQR = 2 ⋅ 100 = Q3 − Q1 ⋅ 100
Md 2 Md

Como exemplo, temos:
a) para valores não tabelados
∑X i −X
22,22
DAM = i =1
= = 2,469
n 9
∑ (X − X)
n
2
i
69,556
s2 = i =1
= = 8,6945
n −1 9 −1
s = s 2 = 8.6945 = 2,9486
Q3 − Q1 8 − 3
DQ = = = 2,50
2 2
 s  2,9486
CV =  100 = 100 = 51,0138%
X 5,78

Md = 6
s 2,9486
CV t = ⋅100 = 100 = 49,1433%
Md 6
Q3 − Q1 8−3
CV q = ⋅ 100 = 100 = 45,45%
Q3 + Q1 8+3
Q3 − Q1
DQR = 2 ⋅ 100 = Q3 − Q1 ⋅ 100 = 8 − 3 100 = 38,07%
Md 2 Md 2*6
b) para valores tabelados
Com base nos cálculos anteriores para médias, moda e mediana, usando a tabela abaixo, temos:
Devemos acrescentar algumas colunas após a última coluna f/x. Para efeito didático, vamos retirar
as colunas log x, f*log x e f/x, e em seu lugar vamos digitar outras colunas. Sabendo que
Desvio = X i − X e fazendo os cálculos, temos:

n
∑X i −X *f
3,792
DAM = i =1
= = 0,16
n 25
∑ (X − X) * f
n
2
i
0,8271
s2 = i =1
= = 0,0345
n −1 25 − 1
s = s 2 = 0,0345 = 0,1857
Q3 − Q1 21,67 − 21,40
DQ = = = 0,137
2 2
 s  0,204
CV =  100 = 100 = 0,95%
X 21,54
s 0,204
CV t = ⋅ 100 = 100 = 0,95%
Md 21,52
Q3 − Q1 21,67 − 21,40
CV q = ⋅ 100 = 100 = 0,64%
Q3 + Q1 21,67 + 21,40
Q3 − Q1
DQR = 2 ⋅ 100 = Q3 − Q1 ⋅ 100 = 21,67 − 21,40 100 = 0,64%
Md 2Md 2 * 21,52
Adotando-se as expressões abaixo, para o cálculo da variância, temos:

2 2
 n
  n 
n


∑ X i 

n


∑ X i f i 

∑ X −
2 i =1
n
∑ X fi −
2 i =1
n
s 2 = i =1 s 2 = i =1
n −1 n −1
Então, montamos as tabelas da seguinte forma:

a) para valores não tabelados
2
 n 
∑ Xi 
(52) 2
n
∑ X 2 −  i =1  370 −
s 2 = i =1
n
= 9 = 370 − 300,4444 = 8,6945
n −1 9 −1 8
b) para valores tabelados
2
 n 
 ∑ X i f i 
(538,46) 2
n
 
∑ X fi −
2 i =1
n
11598,394 −
25 11598,394 − 11597,5669
s 2 = i =1 = = = 0,0345
n −1 25 − 1 24
13.3 Momentos de uma distribuição
São quantidades numéricas ou valores de uma distribuição de uma variável X, usadas para a
caracterização de determinadas medidas, tais como a média aritmética e a variância, além de
medidas do formato da distribuição como a assimetria e a curtose.
São determinados por meio do valor esperado (média) das potencias de X. As esperanças das
sucessivas potencias de X constituem o conceito de momentos dessa variável aleatória.
Momento de ordem r
Para dados simples Para dados agrupados em intervalos de classe

n n
∑ X ir ∑X i
r
fi
mr = i =1
mr = i =1
n n
Momento de ordem r centrado na média
∑ (X − X) ∑ (X − X ) fi
n n
r r
i i
µr = i =1
µr = i =1
n n
Momentos Importantes de uma Distribuição
Momento de ordem r = 1 : média

n n
∑ Xi ∑X i fi
m1 = i =1
m1 = i =1
n n
Momento de ordem r = 2 centrado na média - σ̂ 2
∑ (X i − X) ∑ (X − X ) fi
n n
2 2
i
µ2 = i =1
µ2 = i =1
n n
Momento de ordem r = 3 centrado na média
∑ (X − X) ∑ (X − X ) fi
n n
3 3
i i
µ3 = i =1
µ3 = i =1
n n

Momento de ordem r = 4 centrado na média
∑ (X − X) ∑ (X − X ) fi
n n
4 4
i i
µ4 = i =1
µ4 = i =1
n n
Relação entre os momentos
µ 2 = m2 − m12
µ3 = m3 − 3m1m2 + 2m13
µ 4 = m 4 − 4 m1 m 3 + 6 m12 m 2 − 3 m14
13.4 Medidas de forma de uma distribuição
13.4.1 Assimetria
É o grau de desvio, ou afastamento da simetria, de uma distribuição.
13.4.1.1 Critério de Pearson
Pelo critério de Pearson, à medida que a distribuição deixa de ser simétrica, a média, a moda e a
mediana vão se afastando, aumentando cada vez mais a diferença existente entre elas.
Seu cálculo pode ser definido por:

X − Mo
As = Primeiro coeficiente de assimetria de Pearson
s
3( X − Md )
As = Segundo coeficiente de assimetria de Pearson
s
Podemos verificar a assimetria de uma distribuição comparando os resultados com:
Se AS < 0 - ass. Negativa

Se AS = 0 - simétrica
Se AS > 0 - ass. Positiva
13.4.1.2 Critério de Bowley
Pelo critério de Bowley, à medida que a distribuição deixa de ser simétrica, os quartis deixam de
serem eqüidistantes da mediana.
Seu cálculo pode ser definido por:
Q3 − 2 Md + Q1 Coeficiente quartílico de assimetria

As =
Q3 − Q1

13.4.1.3 Critério de Kelley
O critério de Bowley despreza 50% das ocorrências. Para evitar isso, Kelley aconselha o uso de
percentis eqüidistantes da mediana, tais como o P10 e P90, surgindo daí a seguinte fórmula:
P90 − 2 Md + P10 Coeficiente percentílico de assimetria

As =
P90 − P10
13.4.1.4 Critério de Fisher
Esta medida de assimetria utiliza o 2º e o 3º momento centrado na média, ou seja:
Sendo o momento de ordem r = 2 centrado na média
∑ (X −X) ∑ (X − X ) fi
n n
2 2
i i
µ2 = i =1
µ2 = i =1
n n
E o momento de ordem r = 3 centrado na média
∑ (X − X) ∑ (X − X ) fi
n n
3 3
i i
µ3 = i =1
µ3 = i =1
n n
É calculado da seguinte forma:
n µ3
α3 = quando n < 25
(n − 1)(n − 2) ( µ2 )
3
µ3
α3 = , quando n ≥ 25
µ 23
Se α 3 < 0 - ass. Negativa - +

Se α 3 = 0 - simétrica
Se α 3 > 0 - ass. Positiva - +
Ex: Para dados simulados temos:

X ≅ Md
Simétrica
Min. 1st Qu. Median Mean 3rd Qu. Max.

1.984 4.928 6.078 6.119 7.358 10.320
Md < X
Ass. Positiva

0.3108 1.4840 2.5430 2.8080 3.8950 7.7600

X < Md
Ass. Negativa

3.093 7.411 8.266 7.939 9.020 9.904
13.4.2 Curtose
É o grau de achatamento de uma distribuição, considerado usualmente em relação a uma

distribuição Normal.
Graficamente, identificamos a curtose da seguinte forma:
13.4.2.1 Coeficiente Percentílico de Curtose
Um dos coeficientes mais utilizados para medir o grau de achatamento ou curtose de uma
distribuição. É calculado a partir do intervalo interquartil, além dos percentis P10 e P90, da seguinte
forma:

Q3 − Q1
2 Q3 − Q1
k= =
P90 − P10 2( P90 − P10 )
Se k > 0,263 – dizemos que a distribuição é platicúrtica

Se k = 0,263 – dizemos que a distribuição é mesocúrtica
Se k < 0,263 – dizemos que a distribuição é leptocúrtica
Obs: a fórmula acima também pode ser escrita em função dos Decis 1 e 9, uma vez que D1 = P10 e
D9 = P90. Então a expressão fica:
Q3 − Q1
2 Q3 − Q1
k= =
D9 − D1 2( D9 − D1 )
13.4.2.2 Coeficiente de Curtose de Fisher
Esta medida de curtose utiliza o 2º e o 4º momento centrado na média, ou seja:
Sendo o momento de ordem r = 2 centrado na média
∑ (X i − X) ∑ (X − X ) fi
n n
2 2
i
µ2 = i =1
µ2 = i =1
n n
E o momento de ordem r = 4 centrado na média
∑ (X − X) ∑ (X − X ) fi
n n
4 4
i i
µ4 = i =1
µ4 = i =1
n n
É calculado da seguinte forma:
n(n + 1) µ4 3(n − 1) 2
α4 = − quando n < 25
(n − 1)(n − 2)(n − 3) µ 22 (n − 2)(n − 3)
µ4
α4 = − 3 , quando n ≥ 25
µ 22
Podemos verificar a curtose de uma distribuição comparando os resultados com:
Se α 4 < 0 – dizemos que a distribuição é platicúrtica

Se α 4 = 0 – dizemos que a distribuição é mesocúrtica
Se α 4 > 0 – dizemos que a distribuição é leptocúrtica

Exemplos para dados simulados:
Leptocúrtica
Platicúrtica

Exemplos:
a) Usando dados sem freqüência temos:
∑ (X − X)
n
2
i
69,5556
µ2 = i =1
= = 7,7284
n 9
∑ (X − X)
n
3
i
− 21,5772
µ3 = i =1
= = −2,3975
n 9
O Coeficiente de Assimetria fica:
n µ3 9 − 2,3975
α3 = = = −0,0166
(n − 1)(n − 2) ( µ2 )
3
( )
(9 − 1)(9 − 2) 7,7284 3
Ou seja, temos uma Assimetria Negativa
E o de Curtose fica:
∑ (X − X)
n
2
i
69,5556
µ2 = i =1
= = 7,7284
n 9
∑ (X −X)
n
4
i
858,2496
µ4 = i =1
= = 95,3611
n 9

n(n + 1) µ4 3(n − 1) 2 9(9 − 1) 95,3611 3(9 − 1) 2
α4 = − = − = −4,1437
(n − 1)(n − 2)(n − 3) µ 22 (n − 2)(n − 3) (9 − 1)(9 − 2)(9 − 3) (7,7284)^ 2 (9 − 2)(9 − 3)
Ou seja, temos uma distribuição platicúrtica.
Apesar de não haver freqüências neste conjunto de dados, e também por ser de uma
quantidade que não seja possível elaborar uma Tabela de Distribuição de Freqüências, é possível
identificar a Assimetria por meio do uso de Box-plot:
Observe que o traço central é a Mediana. A distância dele até o menor valor (lado esquerdo)
é maior que a distância até o maior valor (lado direito) indicando assim a Assimetria Negativa.
A curtose, contudo, fica mais difícil de identificar graficamente, pois não há como elaborar
um histograma com estes dados.
Contudo, forçando um pouco o R, temos:

a) Usando dados com freqüência temos:
∑ (X − X) f
n
2
i
0,8272
µ2 = i =1
= = 0,0331
n 25
∑ (X − X) f
n
3
i
0,0376
µ3 = i =1
= = 0,0015
n 25
O Coeficiente de Assimetria fica:
µ3 0,0015
α3 = = = 0,1360
(µ) ( 2
3
0,0331 )3
Ou seja, temos uma Assimetria Positiva
E o de Curtose fica:
∑ (X − X) f
n
2
i
0,8272
µ2 = i =1
= = 0,0331
n 25
∑ (X −X) f
n
4
i
0,0582
µ4 = i =1
= = 0,0023
n 25
µ4
α4 = − 3 = 2,0993 − 3 = −0,9007 Ou seja, temos uma distribuição platicúrtica.
µ 22

Recuperando o histograma da pag 56, e sabendo que : Média = 21,54, Mediana = 21,52,
Moda = 21,49, temos:
Mo < Md < X
Ass. Positiva

14 Estatística Indutiva
14.1 Introdução
Estatística Indutiva (ou Estatística Inferencial ou Inferência Estatística, ou ainda Indução

Estatística), cuida da análise e interpretação dos dados experimentais.
Dois conceitos fundamentais devem ser apresentados:
1. população (ou universo): conjunto de elementos com pelo menos uma

característica comum;
2. amostra: subconjunto da população, necessariamente finito, pois todos seu
elementos serão examinados para efeito da realização do estudo estatístico
desejado.
O objetivo da Estatística Indutiva é o de tirar conclusões sobre as populações com base

nos resultados observados em amostras extraídas dessas populações.
Este termo “indutiva” decorre da existência de um processo de indução, isto é, um

processo de raciocínio em que, partindo-se do conhecimento de uma parte, procura-se
tirar conclusões sobre a realidade, no todo.
Este processo de indução não pode ser exato, pois ao induzir, estamos sempre sujeitos a
erro. A Estatística Indutiva irá nos dizer até que ponto poderemos estar errado em nossas
induções, e com que probabilidade.
População Amostra
Antes de iniciar qualquer análise dos dados através dos métodos da Estatística Indutiva, é
preciso organizar os dados da amostra, o que é feito com técnicas de Estatística
Descritiva.
Uma outra ferramenta utilizada em Estatística Indutiva, e que surge paralelamente, é a
amostragem, onde certos cuidados básicos devem ser tomados no processo de obtenção
das amostras.
Em resumo, um estudo estatístico completo que recorra às técnicas da Estatística

Indutiva irá envolver também, direta e indiretamente, tópicos de:
- Estatística Descritiva;
- Cálculo das Probabilidade;
- Amostragem.

Amostragem
Cálculo das
Estatística
Probabilidades
Descritiva
Estatística
Indutiva
14.2 Amostragem
É o processo pelo qual obtêm-se amostras, que contenham informações a respeito de

valores populacionais desconhecidos.
A amostra ou amostras selecionadas devem ser representativas da população. Isto

significa que, a menos de certas pequenas discrepâncias inerentes à aleatoriedade
sempre presente, em maior ou menor grau, no processo de amostragem, a amostra deve
possuir as mesmas características básicas da população, no que diz respeito à(s)
variável(is) que desejamos pesquisar.
14.2.1 Tipos de Amostragem
Existem dois tipos de amostragem: a probabilística e a não-probabilística.
Amostragem probabilística
Neste tipo, todos os elementos da população possuem probabilidade conhecida e não

nula de pertencer a amostra.
É a melhor recomendação que se deve fazer no sentido de se garantir a

representatividade da mostra, pois o acaso será o único responsável por eventuais
discrepâncias entre população e amostra, o que é levado em consideração pelos métodos
de análise Estatística Indutiva.
Os métodos de amostragem probabilísticas mais conhecidos são:
• Amostragem Aleatória Simples (AAS)

• Amostragem Sistemática
• Amostragem Aleatória Estratificada (AAE)
• Amostragem por Conglomerado (em um estágio ou em estágios múltiplos)
Amostragem não-probabilística
É um processo de amostragem subjetivo e seu rendimento depende do conhecimento que

possui o pesquisador a respeito da estrutura das populações e a mostra é uma parcela
proporcional desta estrutura.
Ela é empregada, muitas vezes, por simplicidade ou pela impossibilidade de se obter uma
amostragem probabilística.
Os métodos de amostragem não-probabilísticas são:
• Amostragem de Conveniência
• Amostragem por Julgamentos
• Amostragem por Cotas
• Bola de Neve
14.3 Distribuição amostral das Estatísticas
Seja uma população de tamanho N com média μ, variância σ² e proporção π. Ao

retirarmos várias amostras desta população, teremos:
Amostras
População
µˆ1
σˆ12
pˆ 1
μ
µˆ k
σ² σˆ k 2
π p̂k
µˆ 3
σˆ 3 2
µˆ 2
pˆ 3
σˆ 2 2
pˆ 2
14.3.1 Distribuição amostral da média
Seja uma população de tamanho N e X uma variável aleatória dessa população com E[X]
= μ e Var[X] = σ², logo X~N(μ,σ²).
Seja uma amostra aleatória (X1, X2,...,Xn) retirada desta população, onde se tem:
∑X i
X= i =1
n
Podemos calcular E [X ] e Var [X ] da seguinte forma:
 n 
 ∑ Xi 
E [X ] = E  i =1  = 1 E  X  = 1 E [ X ] = 1 nµ = µ
n n
 n  n ∑ i =1
i ∑ i n
 n i =1
 
 

 n

 ∑ Xi 
σ 2
Var [X ] = Var   = 1 Var 
n
 1 n
1
i =1
∑ Xi = 2 ∑ Var [ X i ] = 2 n σ 2
=
 n  n 2
 i =1  n i =1 n n
 
 
σ2
Então, E [X ] = µ e Var [X ] =
n
Com isto, podemos dizer que a média amostral é um estimador justo e consistente da
média populacional
14.3.2 Distribuição amostral da variância
= μ e Var[X] = σ², logo X~N(μ,σ²).
∑ (X − X)
n
2
i
S2 = i =1
n −1
[ ] [ ]
Podemos calcular E S 2 e Var S 2 , mas primeiro devemos saber que:
X −µ
a) Se X i ≈ N ( µ , σ 2 ) , então z = i tem distribuição Normal com N(0, 1), ou seja:
σ
 X − µ  E( X i ) − µ µ − µ
E ( z) = E i = = =0 e
 σ  σ σ
 X −µ 1
 = 2 [Var ( X i ) − Var ( µ )] = 2 [σ − 0] = 1 ;
1
Var ( z ) = Var  i 2
 σ  σ σ
b) A distribuição de Qui-quadrado, representada por χ 2 , tem E (χ n2 ) = n e Var (χ n2 ) = 2n ,
n
pois: χ n2 = ∑ z i2 . Aplicando o valor esperado temos:
i =1
 n  n n n
E ( χ n2 ) = E  ∑ z i2  = ∑ E ( z i2 ) = ∑ Var ( z i ) = ∑1 = n . Aqui, devemos recordar que:
 i =1  i =1 i =1 i =1
( )
Var ( X ) = E X − ( E ( X )) . Substituindo por z, temos:
2 2
Var ( z ) = E ( z 2 ) − ( E ( z )) 2 = E ( z 2 ) − 0 = E ( z 2 )
Aplicando a variância, temos:

 n  n
[ ]
n n n
Var ( χ n2 ) = Var  ∑ z i2  = ∑Var ( z i2 ) = ∑ E ( z i4 ) − ( E ( z i2 )) 2 = ∑ (3 − 1) = ∑ 2 = 2n . Aqui, se deve
 i =1  i =1 i =1 i =1 i =1
ao fato de que, para n ∈ ℵ , temos:

- E ( z 2 n +1 ) = 0
(2n)!
- E ( z 2n ) =
n!2 n

4! 4.3.2!
então para E ( z i4 ) = 2
= = 3 , visto que 2n = 4 →n = 2
2!2 2!4
2! 2 * 1
Para E ( z i2 ) = 1 = = 1 , visto que 2n = 2 → n = 1
1!2 2
n
Xi − µ
Então, vimos que χ n2 = ∑ z i2 . Mas Sabemos que z = , então:
i =1 σ
2
n n
 Xi − µ 
χ n2 = ∑ z i2 = ∑   . Incluindo neste último termo (− X + X ) , temos:
i =1 i =1  σ 
2 2
n
 Xi − X + X − µ 
n n
 (X i − X ) + (X − µ) 
χ = ∑ z = ∑
2

2

 = ∑   . Aplicando o quadrado, nos
σ σ
n i
i =1 i =1   i =1  
termos do somatório, temos:
2
 (X − X ) + (X − µ) 
n n
 ( X − X ) 2 + 2( X i − X )( X − µ ) + ( X − µ ) 2 
χ = ∑  i
2
 = ∑  i  . Aplicando o

σ σ2
n
i =1   i =1  
somatório, temos:
 n n n

 ∑ ( X i − X ) 2 + 2( X − µ ) ∑ ( X i − X ) + ∑ ( X − µ ) 2 
χ n2 =  i =1 i =1 i =1  . O termo do meio fica zerado pois
 σ 2 
 
 
n
∑(X
i =1
i − X ) = 0 , de acordo com as propriedades da média. Então:
 n n
  n n
  n 
∑ i ( X − X ) 2
+ ∑ (X − µ)2  ∑ i ( X − X ) 2
∑ ( X − µ)2   ∑ ( X i − X )2 2
n
X −µ 
χ n2 =  i =1 i =1  =  i =1 + i =1  =  i =1 + ∑  
 σ 2   σ 2
σ2   σ 2
i =1  σ  
     
     
Voltando a equação da variância amostral, podemos fazer o seguinte:
∑ (X − X)
2
(n − 1) S 2
=
i
σ2 σ2
2
 
2 2  
 X −µ
n
 X −µ  X −µ
Então, o termo ∑   = n  = = z 2 , de acordo com a distribuição
i =1  σ   σ   σ 
 
 n 
amostral da média, visto anteriormente.
Da distribuição de Qui-quadrado, temos que " o quadrado de uma variável aleatória

normal reduzida "Z" tem distribuição Qui-quadrado com 1 grau de liberdade", ou seja:
Z 2 ≈ χ 12

Então, temos:
 n 
 ∑ (X i − X )2 2
n
 X − µ    (n − 1) S 2 
χ n2 =  i =1 + ∑   =   + χ 12
 σ2 i =1  σ   σ 2
   
 
 (n − 1) S 2
Que resulta em:   = χ n2 − χ 12 = χ n2−1 , pois a soma de variáveis aleatórias Qui-
 σ 2

quadrado com 1, 2,...,n graus de liberdade é uma variável aleatória Qui-quadrado com a
soma dos graus de liberdade, ou seja:
sendo χ 12 , χ 22 ,..., χ n2 , todas Qui-quadrado, fazendo Y = χ12 + χ 22 + ... + χ n2 , então Y = χ 2n .
∑i
i =1
(n − 1) S 2
Ou seja,
σ 2
( ) (
≈ χ n2−1 , onde E χ n2−1 = n − 1 e Var χ n2−1 = 2(n − 1) , pois: )
( ) ( ) ( )
E χ n2−1 = E χ n2 − E χ12 = n − E ( Z 2 ) = n − Var ( Z 2 ) = n − 1
Var (χ ) = Var (χ ) − Var (χ ) = 2n − Var ( Z
2
n −1
2
n 1
2 2
[ (
) = 2n − E ( Z 4 ) − E ( Z 2 ) ] = 2n − [3 − 1] = 2n − 2 = 2(n − 1)
2
Então: σ2
S2 = χ n2−1
n −1
Logo:
 σ2 2  σ2 σ2
E ( S 2 ) = E  χ n−1  = E χ n2−1 = (
(n − 1) = σ 2 )
 n −1  n −1 n −1
 σ2 2  σ4 σ4 2σ 4
Var ( S 2 ) = Var  χ n −1  = Var ( χ 2
n −1 ) = [2 ( n − 1) ] =
 n −1  (n − 1) (n − 1) 2 n −1
2
2σ 4
Também podemos demonstrar que E ( S ) = σ 2 2
e Var ( S ) =
2
, da seguinte forma:
n −1
∑ (X − X)
n
2
i
σ2
Sabendo que S 2 = i =1
e que E ( X ) = µ e Var ( X ) = , e lembrando que
n −1 n
V ( X ) = E ( X ) − ( E ( X )) , temos que aplicando E em S2, temos:
2 2
 n 2  n 
(  n
)

E  ∑ (X i − X )  E  ∑ X i2 − 2 X i X − X 2  E  ∑ X i2 − 2 X ∑ X i + ∑ X 2 
n n
E ( S 2 ) =  i =1  =  i =1  =  i =1 i =1 i =1 
n −1 n −1 n −1

n
∑X i n
Só que X = i =1
n
, que resulta em ∑X
i =1
i = nX . Substituindo, temos:
 n n n
  n   n 
E  ∑ X i2 − 2 X ∑ X i + ∑ X 2  E  ∑ X i2 − 2 XnX + nX 2  E  ∑ X i2 − nX 2 
E ( S 2 ) =  i =1 i =1 i =1  =  i =1  =  i =1 =
n −1 n −1 n −1
n
∑ E( X i
2
) − nE ( X 2 )
= i =1
n −1
Lembrando V ( X ) = E ( X 2 ) − ( E ( X )) 2 , então, E ( X 2 ) = V ( X ) + ( E ( X )) 2 = σ 2 + µ 2 . Para X ,
σ2
temos: V ( X ) = E ( X 2 ) − ( E ( X )) 2 , logo: E ( X 2 ) = V ( X ) + ( E ( X )) 2 = + µ 2 . Substituindo,
n
temos:
n σ 2  n
∑ σ + µ
∑ E ( X i2 ) − nE ( X 2 )
( 2 2
) − n  + µ 
 = (nσ + nµ ) − (σ + nµ )
2 2 2 2
E ( S 2 ) = i =1 =
i =1  n
n −1 n −1 n −1
(nσ + nµ ) − (σ + nµ ) nσ + nµ − σ − nµ
2 2 2 2 2 2 2 2
nσ − σ
2 2
(n − 1)σ 2
E(S ) =
2
= = = =σ 2
n −1 n −1 n −1 n −1
Para a variância, vamos fazer antes o seguinte:
∑ (X − X) ∑ (X −µ +µ − X) ∑ (( X − µ ) − ( X − µ ))
n n n
2 2 2
i i i
S2 = i =1
= i =1
= i =1
=
n −1 n −1 n −1
∑ (( X ) ∑(X
n n n
i − µ ) 2 − 2( X i − µ )( X − µ ) + ( X − µ ) 2 i − µ ) 2 − 2( X − µ ) ∑ ( X i − µ ) + n ( X − µ ) 2
= i =1
= i =i i =1
=
n −1 n −1
n n n
 n n

∑ ( X i − µ ) 2 − 2( X − µ ) ∑ ( X i − µ ) + n ( X − µ ) 2 ∑ (X
i =i
i − µ ) 2 − 2( X − µ )  ∑ X i + ∑ µ  + n ( X − µ ) 2
 i =1 i =1 
= i =i i =1
= =
n −1 n −1
∑ ( X i − µ ) 2 −2( X − µ )(nX + nµ ) + n( X − µ ) 2
n n
∑(X i − µ ) 2 − 2n ( X − µ ) 2 + n( X − µ ) 2
= i =i
= i =i
n −1 n −1
n
∑(X i − µ ) 2 −n( X − µ ) 2
S2 = i =i
n −1
σ2
multiplicando por , temos:
σ2
n
∑(X i − µ ) 2 −n( X − µ ) 2
σ2 σ 2  n  Xi − µ   X − µ) 
2 2

S = 2 i =i
× 2 = ∑   − n  
n −1 σ n − 1  i =1  σ   σ  


Xi − µ  σ2  X −µ X −µ
Lembrando que Z = , e que X ≈ N  µ ,  , então Z = = n , elevando
σ  n  σ σ
n
2
X −µ  X −µ
isto ao quadrado, ou seja: Z = n → Z = n2
 , temos:
σ  σ 
σ2   σ2  n 2
2 2
X −µ
n
 X − µ)  
S =
2
∑  i  − n  =  ∑ Zi − Z 2 
n − 1  i =1  σ   σ   n − 1  i =1 

Agora, aplicando Var, temos:
σ2  n 2 2  σ4   n 2 2 
Var ( S 2 ) = Var 
n − 1 

∑ Z i − Z 

 =
( n − 1) 2 Var 

∑ Z i 

− Var ( Z )
 i =1   i = 1 
n
 i =1

 i =1
n n
i =1
[ 2
]
Var  ∑ Z i2  = ∑ Var ( Z i2 ) = ∑ E ( Z i4 ) − (E ( Z i2 ) = ∑ [3 − 1] =∑ 2 = 2n
 n
i =1
n
i =1
[ (
Var ( Z ) = E ( Z ) − E ( Z = 3 − 1 = 2
2 4 2
)]
Lembrando que, para n ∈ ℵ , temos:
- E ( z 2 n +1 ) = 0
(2n)!
- E ( z 2n ) =
n!2 n
4! 4.3.2!
então para E ( z i4 ) = 2
= = 3 , visto que 2n = 4 →n = 2
2!2 2!4
2! 2 * 1
Para E ( z i2 ) = 1 = = 1 , visto que 2n = 2 → n = 1
1!2 2
Então:
σ4   n 2 2  σ4 2σ 4 2σ 4
Var ( S 2 ) = Var  ∑ i
Z  − Var ( Z )  = [2 n − 2 ] = ( n − 1) =
(n − 1) 2   i =1  (n − 1)
2
(n − 1) 2 ( n − 1)
Com isto, podemos dizer que a variância amostral é um estimador justo e consistente da
variância populacional
14.3.3 Distribuição amostral da proporção
= π e Var[X] = π(1-π), logo X~Be(π, π(1-π),).
n
Y = ∑ X i e Y ≈ Bin(n, π ) , logo E (Y ) = nπ e V (Y ) = nπ (1 − π )
i =1
Então, Y conta o número de vezes que um certo evento de interesse A ocorre na amostra.
Assim:
Y
p=
n

Podemos calcular E [ p ] e Var [ p ] , da seguinte forma:
Y  1 1
E [ p ] = E   = E [Y ] = nπ = π
n n n
Y  1 1 π (1 − π )
Var [ p ] = Var   = 2 Var [Y ] = 2 n[π (1 − π )] =
n n n n
Com isto, podemos dizer que a proporção amostral é um estimador justo e consistente da
proporção populacional
Resumindo:
Estimador E(.) Var(.)
µ
n
∑X i
σ2
X= i =1
n
n
∑ (X −X)
n
2
i σ2 2σ 4
S2 = i =1
n −1
n −1
nS π π (1 − π )
p=
n n
14.3.4 Erro-padrão
O desvio-padrão da distribuição amostral das estatísticas é freqüentemente denominado

de erro-padrão da estatística.
Erro-padrão - EP
Estimador
n
∑X i σ
X= i =1
n
n
∑ (X −X)
n
2
i 2
S2 = i =1 σ2
n −1 n −1
p=
nS π (1 − π )
n n

A variância do estimador depende sempre dos parâmetros populacionais, que são, em
geral, desconhecidos. Neste caso, pode-se substituí-lo pelo erro-padrão estimado,
usando, neste caso, os valores obtidos pela amostra. Assim,
EP
Estimador Erro-padrão - EP
estimado
n
∑X i σ S
X= i =1
n n
n
∑ (X −X)
n
2
2 2
i
σ2 S2
S2 = i =1
n −1 n −1
n −1
p=
nS π (1 − π ) p(1 − p )
n n n
14.4 Definição de Estimador e Estimativa
a) Estimador ( θˆ)
Chamamos estimador à quantidade, calculada em função dos elementos da amostra, que será usada
no processo de estimação do parâmetro desejado. O estimador é, como vemos, uma estatística..
Será, portanto, uma variável aleatória caracterizada por uma distribuição de probabilidade e seus
respectivos parâmetros próprios.
b) Estimativa
Chamaremos estimativa a cada particular valor assumido por um estimador.
14.4.1 Propriedades dos Estimadores
a) Justeza ou não-tendenciosidade
Diremos que um estimador θˆ é justo (ou não-tendencioso, ou não-viciado, ou não-viesado), se sua

média (ou expectância) for o próprio parâmetro que se pretende estimar, isto é,
E (θˆ) = θ
Isso significa que os valores aleatórios de θˆ ocorrerão em torno do valor do parâmetro θ , o que é,
obviamente, desejável.
b) Consistência
Diremos que um estimador θˆ é consistente se
(
lim P θ − θˆ ≥ ε = 0
n →∞
)

para todo ε > 0. Isso significa, em termos práticos, que, sendo o estimador consistente, pode-se com
amostras suficientemente grandes tornar o erro de estimação tão pequeno quanto se queira. Por
outro lado, se o estimador for justo, a condição de consistência equivale a dizer que sua variância
tende a zero quando o tamanho da amostra tende a infinito, isto é,
lim Var (θˆ) = 0

n →∞
Vemos que, para estimadores justos e consistentes, podemos obter estimativas tão próximas quanto
desejamos do valor real do parâmetro, desde que aumentemos suficientemente o tamanho da
amostra. Nessas condições, supondo o caso-limite de uma amostra infinitamente grande, a
estimativa obtida iria coincidir exatamente com o parâmetro estimado.
c) Eficiência
Dados dois estimadores, θˆ1 e θˆ2 , a serem usados na estimação de um mesmo parâmetro θ ,
diremos que θˆ é mais eficiente que θˆ como estimador de θ se para o mesmo tamanho de amostra,
1 2

( 2
)
 
2
(
E  θˆ1 − θ  < E  θˆ2 − θ  .

)
Se θˆ1 e θˆ2 forem estimadores justos de θ , essa condição indicará que a variância de θˆ1 é menor que
a variância de θˆ . 2
Se θˆ1 é mais eficiente que θˆ2 como estimador do parâmetro θ , podemos definir a relação:
[
E (θ1 − θ )
2
] <1
E [(θ −θ ) ]
2
2
como sendo a eficiência de θˆ2 em relação a θˆ1 como estimador de θ . Se os estimadores θˆ1 e
θˆ forem ambos justos, a eficiência relativa se reduzirá ao quociente das respectivas variâncias.
2
Uma medida absoluta da eficiência pode ser conseguida por meio da comparação com o estimador
mais eficiente do parâmetro em questão. Logicamente, o estimador mais eficiente possível terá
eficiência absoluta igual a 1, ou 100 %. Tal estimador será dito simplesmente "eficiente".
d) Suficiência
Dizemos ser um θˆ um estimador suficiente do parâmetro θ se o conhecimento do valor que θˆ

assume para dada amostra fornecer toda a informação possível a respeito de θ , independente do
auxílio de qualquer outra estimativa.
Definição. Diremos que Θ̂ é a melhor estimativa não-tendenciosa linear de Θ se:
(a) E( Θ̂ ) = Θ .
n
ˆ = a X . Isto é, Θ̂ é uma função linear da amostra.
b) Θ ∑ i i
i =1
ˆ ) ≤ V (Θ ∗ ) , onde Θ * é qualquer outra estimativa de Θ que satisfaça a (a) e (b), acima.
(c) V (Θ

14.5 Métodos de Estimação
Um problema importante da inferência estatística é a estimação dos parâmetros

populacionais θ, ou, abreviadamente, parâmetros (tais como a média, a variância e a
proporção populacionais), deduzidos da estatística amostral correspondente θˆ , ou
abreviadamente, estatística (tais como a média, a variância e a proporção amostrais).
Os tipos de estimação são:
a) Estimação pontual
b) Estimação por intervalos
14.5.1 Estimação Pontual
É aquela realizada quando, a partir de uma amostra, procura-se tomar o valor do

parâmetro populacional desconhecido θ por um único número, geralmente
correspondente ao valor da estatística amostral θˆ , ou seja, de uma estimativa.
Ex: deseja-se tomar as percentagens de pessoas do sexo masculino em uma dada

universidade (π) pela porcentagem calculada em uma amostra convenientemente
selecionada (p).
14.5.2 Estimação por intervalos - Intervalo de confiança
Já foi visto que, na prática, usamos uma estatística ( θˆ ) para se estimar um parâmetro populacional
( θ ), que em geral é desconhecido. Ou seja, realizamos um processo de amostragem, que significa
retirar uma amostra da população de estudo. Ao fazer isto, estamos cometendo um erro, chamado de
erro amostral - ε.
O erro amostral (ε) é expresso na unidade da variável de estudo. Ele representa a máxima diferença
admitida entre o verdadeiro parâmetro populacional (θ) e o seu estimador ( θˆ ), conhecido como
estatística. Então:
θ − θˆ ≤ ε
Se θˆ é um estimador consistente, então:
(
lim P θ − θˆ ≥ ε = 0
n →∞
)
Digamos que esta probabilidade P seja igual a α, então, para uma determinada amostra
de tamanho n, então:
(
P θ − θˆ > ε = α )
O valor α será a probabilidade de erro de estimação, isto é, a probabilidade de errarmos
ao afirmar que a distância entre o valor do parâmetro populacional e o seu estimador, ou
seja o desvio, seja maior que ε, normalmente chamada de nível de significância.
Utilizando o complementar, temos:

( ) (
P θ − θˆ ≤ ε = 1 − P θ − θˆ > ε = 1 − α )
Desenvolvendo este intervalo, em função do módulo, temos:
( ) ( ) ( )
P θ − θˆ ≤ ε = 1 − α → P − ε ≤ θ − θˆ ≤ ε = 1 − α → P θˆ − ε ≤ θ ≤ θˆ + ε = 1 − α
Ou seja, este é o intervalo que, com probabilidade conhecida, deverá conter o valor real
do parâmetro populacional.

A probabilidade, que é obtida por 1 – α, é chamada de nível de confiança do respectivo
intervalo.
A estrutura de um intervalo de confiança é dada por:
P(θˆ − ε ≤ θ ≤ θˆ + ε ) = 1 − α
Onde: θˆ – é o estimador; θ é o parâmetro a ser estimado; 1 – α é a probabilidade de o

valor estar no intervalo; α é a probabilidade de erro; ε é o erro de estimação
14.5.2.1 Intervalos de Confiança para uma Amostra
14.5.2.1.1 Intervalo de confiança para média
Caso I – o desvio-padrão populacional é conhecido
 σ  X −µ
Sabendo que X ≈ N  µ ,  , então Z = . Aqui o estimador é X e o parâmetro
 n σ
n
verdadeiro é µ, logo ε = X − µ .
Disto, podemos reescrever Z da seguinte forma:
X −µ σ
Z= →ε = Z .
σ n
n
Substituindo em P(θˆ − ε ≤ θ ≤ θˆ + ε ) = 1 − α , temos:
 σ σ 
IC  X − Z ≤µ ≤ X +Z  = 1 − α
 n n
Aqui, Z é tabelado em função de α/2.
Caso II – o desvio-padrão populacional é desconhecido
σ2 Z
Inicialmente, devemos levar em consideração que S 2 = χ n2−1 e que t = tem
n −1 χ n2
n
distribuição t-student com n graus de liberdade.
X −µ
Mas, sabemos que Z = . Fazendo algumas operações, temos:
σ
n
X −µ X −µ X −µ Z X −µ X −µ S
Z= = = → = → t n −1 = → ε = t n −1
σ σ2 S 2 (n − 1) χ n2−1 S2 S n
n n nχ n2−1 n −1 n n

Substituindo em P(θˆ − ε ≤ θ ≤ θˆ + ε ) = 1 − α , temos:
 S S 
IC  X − t n −1 ≤ µ ≤ X + t n−1  = 1 − α
 n n
Aqui, tn-1 é tabelado em função de α/2 e de n – 1 (graus de liberdade).
Obs: caso a amostra seja superior a 30 ( n ≥ 30 ), podemos substituir t n −1 por Z na

expressão acima, logo:
 S S 
IC  X − Z ≤µ ≤ X +Z  = 1 − α
 n n
Com Z tabelado em função de α/2.
14.5.2.1.2 Intervalo de confiança para a variância
Neste caso, vamos trabalhar com a mesma relação:
σ2
S2 = χ n2−1
n −1
Fazendo uma pequena adaptação:
S 2 (n − 1)
= χ n2−1
σ2
O intervalo fica da seguinte forma:
( )
IC χ 12 ≤ χ 2 ≤ χ 22 = 1 − α
Com algumas adaptações:
 S 2 (n − 1) S 2 (n − 1) 
IC  ≤ σ 2
≤ = 1−α
 χ2 χ 2 
 Sup inf 
Onde: χ Inf
2
= χ (21−α ) e χ Sup
2
= χα2
2 2
Ambos com n – 1 graus de liberdade
Intervalo de confiança para o desvio-padrão
Com base no intervalo de confiança da variância, temos:

IC  S
(n − 1) ≤ σ ≤S
(n − 1)  = 1 − α
 χ Sup
2
χ Inf
2 
 
Onde: χ Inf
2
= χ (21−α ) e χ Sup
2
= χα2
2 2

Ambos com n – 1 graus de liberdade
14.5.2.1.3 Intervalo de confiança para a proporção
 p (1 − p ) 
Neste caso, sabendo que pˆ ≈ N  p,  , temos:

 n 
pˆ − p
Z=
p (1 − p )
n
Lembrando que ε = pˆ − p , então:

p(1 − p)
ε =Z
n
ˆ ˆ
Substituindo em P(θ − ε ≤ θ ≤ θ + ε ) = 1 − α , temos:
 p (1 − p ) p (1 − p ) 
IC  pˆ − Z ≤ p ≤ pˆ + Z  = 1−α
n n 
 
Aqui, Z é tabelado em função de α/2.
Obs: Quando o produto p(1-p) for menor ou igual a 1 , temos o intervalo de confiança
4
conservativo para p ao nível de 1 - α, dado por:
 1 1 
IC  pˆ − Z ≤ p ≤ pˆ + Z  = 1 − α
 2 n 2 n
Resumidamente, temos
Estimador Intervalo de Confiança

Caso I - Desvio padrão conhecido
 σ σ 
IC  X − Z ≤µ ≤ X +Z  = 1 − α
 n n
Caso II p Desvio padrão desconhecido
Média Amostral ( X )  S S 
IC  X − t n −1 ≤ µ ≤ X + t n−1  = 1 − α , p/ n < 30
 n n
 S S 
IC  X − Z ≤µ ≤ X +Z  = 1 − α , p/ n ≥ 30
 n n
 S 2 (n − 1) S 2 (n − 1) 
Variância amostral (S²) IC  ≤ σ 2
≤ = 1−α
 χ2 χ inf2 
 Sup
 p (1 − p ) p (1 − p ) 
IC  pˆ − Z ≤ p ≤ pˆ + Z  = 1−α
n n 
 
Proporção populacional ( p )  1 1 
IC  pˆ − Z ≤ p ≤ pˆ + Z  = 1 − α , quando
 2 n 2 n
1
p (1 − p ) ≤
4

14.5.2.2 Intervalos de Confiança para duas Amostras
Em algumas situações em uma pesquisa, deseja-se verificar se existem diferenças

entre as amostras que estão sendo estudas. Ou seja, deseja-se verificar se as amostras
são oriundas de populações diferentes, ou não.
Em tais comparações, podem se observadas diferenças significativas entre as
amostras, e que podem surgir por vários motivos.
Uma pergunta que aparece freqüentemente em Ciência é a seguinte: O método A é
melhor do que o método B? Em termos estatísticos, isto equivale a comparar dois
conjuntos de informações, resultantes das medidas obtidas da aplicação dos dois
métodos a dois conjuntos de objetos ou indivíduos.
Para a realização dos cálculos, temos que conhecer o seguinte:
Sejam duas populações representadas por X e Y e sejam X 1 , X 2 ,..., X n e Y1 , Y2 ,..., Yn
amostras aleatórias simples de tamanho n X e nY retiradas dessas populações.
Com isto, podemos ter:
a) Amostras independentes;
b) Amostras emparelhadas.
14.5.2.2.1 Amostras Independentes e Emparelhadas
Amostra independentes ocorrem quando o processo de seleção dos indivíduos ou

objetos da amostra X não têm qualquer efeito sobre, ou qualquer relação com, a seleção
de indivíduos ou objetos da amostra Y.
Amostras dependentes é o caso contrário das amostra independentes.
Amostras emparelhadas ocorrem quando cada indivíduo ou objeto da amostra X
está associado com um indivíduo ou objeto semelhante na amostra Y. Experimentos que
envolvem medidas tipo "antes e depois" de cada indivíduo ou objeto resultam em dados
emparelhados - cada observação antes é associada a, ou emparelhada com uma
observação depois.
Semelhante significa que os indivíduos ou objetos compartilham alguma
característica fundamental, comum, podendo, ou não, ser o mesmo indivíduo ou objeto.
Desta forma, temos:
Denominação Parâmetros Estatísticas

População X População Y Amostra X Amostra Y
Média µX µY X Y
Variância σX σY SX2
S Y2
Proporção πX πY PX PY
14.5.2.2.2 Intervalos de Confiança para duas Médias
1º Caso - Variâncias populacionais conhecidas
 σ   σ 
Seja X ≈ N ( µ X , σ X2 ) e Y ≈ N ( µY , σ Y2 ) . Desta forma, X ≈ N  µ X , X  e Y ≈ N  µ Y , Y .
 
nX   nY 
  
Fazendo a diferença X − Y e aplicando o valor esperado "E" e a variância "Var", temos:

 ∑ Xi
 − E ∑ i ∑ E ( X ) − ∑ E (Y ) = n
  Y  µX nY µY
E ( X − Y ) = E ( X ) − E (Y ) = E  = − = µ X − µY
i i X
  n 
 nX   Y  nX nY nX nY

 ∑ Xi
 + Var  ∑ i ∑Var ( X ) + ∑Var (Y ) = n
  Y  σ X2 nY σ Y2
Var ( X − Y ) = Var ( X ) + Var (Y ) = Var  = + =
i i X
 n   n  n X2 nY2 n X2 nY2
 X   Y 
σ X2 σ Y2
+
nX nY2
 σ2 σ2 
Então X − Y ≈ N  µ X − µY , X + Y2 
 n X nY 
( X − Y ) − ( µ X − µY )
Assim, Z α = ≈ N (0,1)
2 σ X2 σ Y2
+
n X nY2
O intervalos de confiança ficaria assim:
 
 
 ( X − Y ) − ( µ X − µY ) 
P − Z α ≤ ≤ Zα  = 1−α
 2 σ X2 σ Y2 2 
 + 2 
 n X nY 
Que nos dá:
 σ X2 σ Y2 σ X2 σ Y2 
P ( X − Y ) − Z α + 2 ≤ ( µ X − µY ) ≤ ( X − Y ) + Z α + 2 = 1−α
 n n n nY 
 2 X Y 2 X
Existe um caso em particular aqui, quando consideramos que σ X2 = σ Y2 = σ 2 . Neste caso,

temos:
σ2 σ2  1 1 
Var (X − Y ) = X + Y2 = σ 2  + 
nX nY  nX nY 
  1 1 
Assim: X − Y ≈ N  µ X − µ Y , σ 2  +  
 n n 
  X Y 
Então:
( X − Y ) − (µ X − µY ) ( X − Y ) − (µ X − µY )
Zα = = ≈ N (0,1)
2  1 1   1 1 
σ 2  + 2  σ  + 2 
 n X nY   n X nY 
Logo:
 1 1 1 1 
P ( X − Y ) − Z α σ + 2 ≤ ( µ X − µY ) ≤ ( X − Y ) + Z α σ + 2  = 1 − α
 2
n X nY 2
n X nY 
2º Caso - Variâncias populacionais desconhecidas, mas supostas iguais
 σ 
Seja agora X ≈ N (µ X ,σ 2 ) e Y ≈ N (µY ,σ 2 ) . Desta forma, X ≈ N µX , e
 n X 

 σ 
Y ≈ N  µY , . Fazendo a diferença X − Y e aplicando o valor esperado "E", temos:
 n 
 Y 
 ∑ Xi 
 − E ∑ i  = ∑
 Y  E ( X i ) ∑ E (Yi ) n X µ X nY µY
E ( X − Y ) = E ( X ) − E (Y ) = E    n  − = − = µ X − µY
 n X   Y  n X nY n X n Y
Com relação à variância, neste caso, temos as variâncias amostrais S X2 e S Y2 que são,
ambas, um estimador não enviesado para σ 2 .
Quando temos k grupos, temos S i2 , com i = 1 a k variâncias amostrais e ni observações,
podemos calcular uma variância chamada de "Variância pooled", com símbolo S p2 , por
meio da seguinte expressão:
k
∑ (n i − 1) S i2
S p2 = i =1
k
∑ (ni =1
i − 1)
Este termo "pooled" vem do inglês "pool" que pode ser traduzido como "quantidade" ou
"conjunto".
Pode se provar que S p2 é um estimador não tendencioso de σ 2 , pois:

 k  k
 ∑ (ni − 1) S i2  ∑ (n i − 1) E ( S i2 )
E ( S p2 ) = E  i =1k = i =1
  k
 ∑ (ni − 1)  ∑ (n i − 1)
 i =1  i =1
Como
 σ2 2  σ2 σ2
E(S ) = E
2
 χ n−1  =
 E χ n−1 =
2
( )
(n − 1) = σ 2 , então:
 n −1  n −1 n −1
 k  k k
 ∑ (ni − 1) S i2  ∑ (ni − 1) E ( S i2 ) ∑ (ni − 1)σ 2
E ( S p2 ) = E  i =1k  = i =1 = i =1 k =σ 2
  k
 ∑ (ni − 1)  ∑ (ni − 1) ∑ (ni − 1)

 i =1  i =1 i =1

 ∑ Xi 
 + Var  ∑ i  = ∑ 2 i + ∑ 2 i = n X σ2 X + nY σ2 Y =
 Y  Var ( X ) Var (Y ) 2 2
Var ( X − Y ) = Var ( X ) + Var (Y ) = Var 
 n   n  nX nY nX nY
 X   Y 
σ X2 σ Y2
+
nX nY2
E como σ X2 = σ Y2 = σ 2 , temos:
σ X2 σ Y2  1 1 
Var (X − Y ) = Var ( X ) + Var (Y ) = + 2  . Mas vimos que E ( S p ) = σ , então:
2 2
+ = σ 2 
2
nX n Y  n X nY 
 1 1   1 1  (n X − 1) S X2 + (nY − 1) S Y2
Var ( X − Y ) = σ 2  + 2  , onde S p =
2
+ 2  = S p2 
 n X nY   n X nY  n X + nY − 2
  1 1 
Assim: X − Y ≈ N  µ X − µ Y , S p2  + 2  
 
  n X nY  
Então:
( X − Y ) − (µ X − µY ) ( X − Y ) − ( µ X − µY )
tα = = ≈ t n X + nY − 2
2  1 1   1 1 
S p2  +  Sp  + 
 n X nY   n X nY 
Logo:
 1 1 1 1 
P ( X − Y ) − t α Sp + ≤ (µ X − µY ) ≤ ( X − Y ) + t α Sp +  = 1−α
n X + nU − 2 ; n n n X + nU − 2 ; n n
 2 X Y 2 X Y 
3º Caso - Variâncias populacionais desconhecidas e diferentes

 σ   σ 
Seja X ≈ N ( µ X , σ X2 ) e Y ≈ N ( µY , σ Y2 ) . Desta forma, X ≈ N  µ X , X  e Y ≈ N  µ Y , Y  .
 n X   nY 
 
Fazendo a diferença X − Y e aplicando o valor esperado "E" e a variância "Var", temos:
 ∑ Xi 
 − E ∑ i  = ∑
 Y  E ( X i ) ∑ E (Yi ) n X µ X nY µ Y
E (X − Y ) = E ( X ) − E (Y ) = E  − = − = µ X − µY
 n   n  nX nY nX nY
 X   Y 

 ∑ Xi
 + Var  ∑ i ∑Var ( X ) + ∑Var (Y ) = n
  Y  σ X2 nY σ Y2
Var ( X − Y ) = Var ( X ) + Var (Y ) = Var  = + =
i i X
 n   n  n X2 nY2 n X2 nY2
 X   Y 
σ X2 σ Y2
+
nX nY2
Mas como sabemos que E ( S X2 ) = σ X2 e E ( S Y2 ) = σ Y2 , temos que
σ X2 σ Y2 S X2 S Y2
Var (X − Y ) = Var ( X ) + Var (Y ) = + = +
nX nY2 nX nY2
 S2 S2 
Assim: X − Y ≈ N  µ X − µ Y , X + Y2 
 n X nY 
Então:
( X − Y ) − (µ X − µY ) ( w X + wY ) 2 S X2 S Y2
tα = ≈ t w , onde w = − 2 , sendo w = e w =
w X2 wY2
X Y
 S X2 S X2  nX nY
2
 + 2  +
n X − 1 nY − 1
 nX nY 
Logo:
 S X2 S Y2 S X2 S Y2 
P ( X − Y ) − t α + ≤ (µ X − µY ) ≤ ( X − Y ) + t α + = 1−α
 w; n X nY w; n X nY 
 2 2
4º Caso - Amostras emparelhadas
Amostras emparelhadas (ou pareadas) correspondem ao levantamento de dados da

mesma população, porém em duas situações nas quais se tenha interferido algum fator
cujo efeito se quer avaliar. As amostras emparelhadas de "n" observações, antes e depois
da intervenção de um fator, pode ser representada da seguinte forma:
Antes do Fator (A) Depois do Fator(D) Diferença entre as amostras(d)

X A1 X D1 d1 = X A1 − X D1
X A2 X D2 d 2 = X A2 − X D 2
X A3 X D3 d 3 = X A3 − X D 3
: : :
Total n
∑d
i =1
i
A estimativa da média das diferença entre as situações pode se avaliada por:

n
∑d i
Xd = i =1
n
Uma estimativa da variabilidade da diferença é dada por:
n n
∑ (d i − d ) 2 ∑d i
2
− nd 2
S d2 = i =1
= i =1
n −1 n −1
Se X A ~ N ( µ A , σ A2 ) e X D ~ N ( µ D , σ D2 ) , então:
 n  n n
 ∑ d i  ∑ E (d i ) ∑ E ( X A − X D ) nE ( X − X )
E[ X d ] = E  i =1  = i =1 = i =1 = A D
= E( X A − X D ) = E( X A ) − E( X D ) =
 n  n n n
 
E[ X d ] = E ( X A ) − E ( X D ) = µ A − µ D = µ d
 n  n n
∑ i  ∑
d Var ( d i ) ∑ Var ( X A − X D )
nVar ( X A − X D ) Var ( X A − X D )
i =1 i =1 i =1
Var[ X d ] = Var  = 2
= 2
= = =
 n  n n n2 n
 
 
Var ( X A ) Var ( X D ) σ A2 + σ D2 − 2Cov ( X A X D ) σ A2 + σ B2 − 2 ρσ Aσ D
Var[ X d ] = + = =
n n n n
σ + σ B − 2 ρσ Aσ D σ 2 + σ 2 − 2 ρσ 2 2σ 2 (1 − ρ )
2 2
Supondo σ A2 = σ D2 = σ 2 , temos: Var[ X d ] = A = = ,
n n n
onde ρ é o coeficiente de correlação linear. Desta forma ficaria um pouco complicado de
 σ2 
demonstrar. Então, assume-se que X d ~ N  µ d , d  , logo:
 n 
X − µd
Zα = d ~ N (0,1)
2
σd
n
Desta forma, para n ≥ 30, temos:
 σ σ 
P X d − Z α d ≤ µ d ≤ X d + Z α d  = 1 − α
 2 n 2 n
Contudo, normalmente, não conhecemos σ d2 . Um estimador muito utilizado para aquele
parâmetro populacional é a variância amostral, dada por:
n n
∑ (d i − d )2 ∑d i
2
− kd 2
S d2 = i =1
= i =1
n −1 n −1
 S 2

Com isto, temos: X d ~ N  µ d , d
 , então:
 n 
X d − µd
tα = ~ t n −1
2
Sd
n
Assim:
 S S 
P X d − t α d ≤ µ d ≤ X d − t α d  = 1 − α
 2 n 2 n
14.5.2.2.3 Intervalos de Confiança para duas Proporções
Considere que se queira estimar a diferença entre duas proporções p X e pY associadas

a duas populações independentes. Sabendo-se que:
 p (1 − p X )   p (1 − pY ) 
pˆ X ≈ N  p X , X  e pˆ Y ≈ N  pY , Y 
 n X   n Y 
X Y
onde pˆ X = e , pˆ Y = sendo X e Y a soma das características observadas na
nX nY
amostra.
Temos:
E ( pˆ X − pˆ Y ) = E ( pˆ X ) − E ( pˆ Y ) = p X − pY
p (1 − p X ) pY (1 − pY )
Var ( pˆ X − pˆ Y ) = Var ( pˆ X ) + Var ( pˆ Y ) = X +
nX nY
 p (1 − p X ) pY (1 − pY ) 
Logo: pˆ X − pˆ Y ≈ N  p X − pY , X + 
 nX nY 
( pˆ X − pˆ Y ) − ( p X − pY )
Assim: Z α = ≈ N (0,1)
p (1 − p ) p (1 − p )
2 X X
+ Y Y
nX nY
Então:
 p X (1 − p X ) pY (1 − pY )
P ( pˆ X − pˆ Y ) − Z α + ≤ ( p X − pY ) ≤
 nX nY
 2
p X (1 − p X ) pY (1 − pY ) 
( pˆ X − pˆ Y ) + Z α +  = 1−α
nX nY 
2 
Caso as amostras n1 e n2 sejam grandes, devemos então fazer:
X Y
p= +
n X nY
Então:
  1 1   1 1  
P ( pˆ X − pˆ Y ) − Z α p (1 − p ) +  ≤ ( p X − pY ) ≤ ( pˆ X − pˆ Y ) + Z α p (1 − p ) +  = 1 − α
  n X nY   n X nY  
 2 2
14.5.2.2.4 Intervalos de Confiança para duas Variâncias
Neste caso, não faremos a diferença entre duas variâncias e sim a razão entre elas.
Seja uma amostra aleatória x1 , x 2 ,..., x n de uma população X, com distribuição N ( µ X , σ X2 )
e uma amostra aleatória y1 , y 2 ,..., y n de uma população Y, com distribuição N ( µ Y , σ Y2 ) .
Sabe-se que:
(n − 1) S 2 (n − 1) S 2
Q X = x 2 X ≈ χ n2X −1 e QY = Y 2 Y ≈ χ n2Y −1
σX σY
Ou seja Qx e Qy têm distribuição Qui-quadrado com nx - 1 e ny - 1 graus de liberdade,

respectivamente.
Fazendo o quociente entre Qy e Qx, cada uma dividida pelos seus graus de liberdade,
teremos uma distribuição F-Snedecor com nx - 1 e ny - 1 graus de liberdade, ou seja:
QX S X2
n X − 1 σ X2 S X2 σ Y2 σ Y2 S X2
= 2 = 2 × 2 = 2 × 2 ≈ F(n X −1nY −1)
QY SY σ X SY σ X SY
nY − 1 σ Y 2
Fazendo o seguinte intervalo:

 
P F α ≤ F ≤ Fα  = 1−α

 1− 2 2 
Uma vez que:
1−α
F α Fα
1−
2 2
Temos:
 σ 2 S2  S2
P F α ≤ Y2 × X2 ≤ Fα  = 1 − α . Passando X2 para o termo da esquerda e da direita, e

 1− 2 σ X S Y 2  SY
dividindo, temos:
 
 
 1 σY2
1   S2 σ 2 S2 
P F α 2 ≤ 2 ≤ Fα 2  = 1 − α ⇒ P F α Y2 ≤ Y2 ≤ Fα Y2  = 1 − α
1− S σX SX  1− 2 S X σ X SX 
 2 X2 2  2
 SY 2 
SY 

Contudo, a distribuição F-Snedecor, tem a seguinte propriedade:
"Se X ~ F (n1 ; n2 ) , então X −1 ~ F (n 2 ; n1 ) ". Então, invertendo tudo temos:
 
   
 1 1 1 1 1   1 S X2 σ X2 1 S X2 
P 2
≥ 2 ≥
σY Fα S Y2  = 1 − α ⇒ P F 2
≥ 2 ≥  = 1−α .
σ Y Fα S Y2 
F S
 1−α Y2   α SY
 2 S σ X2 2
S X2   1− 2 2 
 X 
 
 1 S X2 σ X2 1 S X2 
Colocando em ordem: P ≤ 2 ≤  = 1−α
2
 Fα S Y σ Y F α S Y2 
1−
 2 2 
1 1
Pelo gráfico acima: F α < Fα , e lembrando que: F α = e Fα =
1− 1− Fα F α
2 2 2 2
1−
2 2
 2
S σ 2
S 2

P F α X
≤ X
≤ Fα X  = 1−α
2
σ 2 2 
 1− 2 S
Y Y 2
S Y 
1 1
Na prática, em termos de tabela, temos que F α = e Fα =
1− Fα Fα
2 2
; n X −1; nY −1 ; nY −1; n X −1
2 2
Resumo:
Operação Intervalo de Confiança

entre
Estimadores
Caso I - Variâncias populacionais conhecidas
 σ X2 σ Y2 σ X2 σ Y2 
P ( X − Y ) − Z α + ≤ ( µ X − µY ) ≤ ( X − Y ) + Z α + = 1−α
 n n n n 
 2 X Y 2 X Y 
Caso particular: Variâncias populacionais conhecidas e iguais
 1 1 1 1 
P ( X − Y ) − Z α σ + ≤ (µ X − µY ) ≤ ( X − Y ) + Z α σ + = 1−α
 2
n X nY 2
n X nY 
Caso II - Variâncias populacionais desconhecidas
 1 1 1 1 
P ( X − Y ) − t α Sp + ≤ (µ X − µY ) ≤ ( X − Y ) + t α Sp +  = 1−α ,
n X + nU − 2 ; n n n X + nU − 2 ; n n
 2 X Y 2 X Y 
Diferença (n − 1) S X + (nY − 1) S Y
2 2
entre Onde: S p2 = X
Médias n X + nY − 2
Amostrais Caso III - Variâncias populacionais desconhecidas e diferentes
 S X2 S Y2 S X2 S Y2 
P ( X − Y ) − t α + ≤ (µ X − µY ) ≤ ( X − Y ) + t α + = 1−α
 w; n X nY w; n X nY2 
 2 2
Caso IV - Amostras Emparelhadas

 S S 
P X d − t α d ≤ µ d ≤ X d − t α d  = 1 − α , para n < 30
 2 n 2 n
 S S 
P X d − Z α d ≤ µ d ≤ X d + Z α d  = 1 − α , para n ≥ 30.
 2 n 2 n
 S2 σ 2 S2 
P F α X2 ≤ X2 ≤ Fα X2  = 1 − α ,
Razão de  1− 2 S Y σ Y 2
SY 
Variâncias 1
amostrais onde F α = , ou seja, basta apenas encontrar Fα
1− Fα
2 2
2
 p X (1 − p X ) pY (1 − pY )
P ( pˆ X − pˆ Y ) − Z α + ≤ ( p X − pY ) ≤
 nX nY
 2
para nX e nY < 30
Diferença p X (1 − p X ) pY (1 − pY ) 
entre ( pˆ X − pˆ Y ) + Z α +  = 1−α
nX nY 
Proporções 2 
Amostrais   1 1   1 1  
P ( pˆ X − pˆ Y ) − Z α p (1 − p ) +  ≤ ( p X − pY ) ≤ ( pˆ X − pˆ Y ) + Z α p (1 − p ) +  = 1 − α ,
  n X nY  n
 X nY 

 2 2 
X Y
para nX e nY ≥ 30, onde p = +
n X nY
15. Testes de Hipótese
Seja H0 a hipótese existente a ser testada e H1 a hipótese alternativa.

O teste irá levar a rejeição ou a não rejeição da hipótese H0, o que corresponde,
respectivamente, à negação ou afirmação de H1.
Em um teste de hipótese, podem ocorrer dois tipos de erros:
Erro tipo I: rejeitar H0, sendo H0 verdadeira.
Erro tipo II: aceitar H0, sendo H0 falsa.
As probabilidades destes dois tipos de erros serão designadas, respectivamente, por α e
β.
A probabilidade α do erro tipo I é denominada nível de significância do teste.
Deve-se notar que as probabilidades α e β são probabilidades condicionadas à realidade.
As faixas de valores da variável de teste que leva à rejeição de H0 é denominada região

crítica (RC). A faixa restante constitui a região de aceitação (RA), ou não rejeição.
Um resultado experimental obtido pode ser ou não significante, dependendo do α fixado.
Um resultado significativo a um determinado nível α nos levará à rejeição da hipótese H0,
pois admitiremos que, a menos de um risco pré-fixado α, ele seja incompatível com a
hipótese H0.
Por outro lado, se o valor experimental da variável de teste cair na região de aceitação,
não terá havido, no nível α considerado, evidência significativa suficiente para a rejeição
da hipótese H0, a qual deverá ser aceita. Note-se que neste caso, estaríamos sujeitos a
cometer o erro tipo II, cuja a probabilidade é β.
Se providências não tiverem sido tomadas no sentido de controlar a probabilidade β do

erro tipo II, então a aceitação da hipótese H0 será acompanhada de uma avaliação
probabilística da possibilidade do erro, conforme sempre ocorre no caso de chegar-se à
rejeição de H0 (pois o nível de significância α será sempre pré-fixado). A aceitação de H0
corresponde à insuficiência da evidência experimental, no nível de significância desejado,
para chegar à sua rejeição. Essa aceitação, como o próprio termo sugere, não deve ser
entendida como uma afirmação de H0.
15.1 Poder do teste
É a capacidade do teste em rejeitar H0, sendo H0 falsa, logo o valor de p será dado por 1
-β.
Os estatísticos aplicados dão cada vez mais preferência ao poder do teste p, em lugar
aos testes clássicos, porque um teste clássico envolve a fixação arbitrária de α
(usualmente em 5%). Ao invés de introduzir tal elemento arbitrário, muitas vezes é
preferível indicar o poder do teste p, deixando-se a tarefa de formular o julgamento sobre
H0. (Formalmente, determinado o nível de α que se julgue adequado aos seus propósitos,
pode-se chegar a uma decisão individual).
O poder está relacionado com a natureza do teste escolhido e , de modo geral, o poder
aumenta com o tamanho n da amostra.
15.2 Procedimentos
Basicamente, os procedimentos para o teste de hipótese são os seguintes:
1. Enunciar as hipóteses, sendo:
H0: θ = θ0
H1: θ < θ0 ou θ ≠ θ0 ou θ > θ0
2. Estabelecer o nível de significância α;
3. Calcular a variável de teste, de acordo com a distribuição amostral da estatística do
teste;
4. Decidir sobre a rejeição ou não de H0, comparando o valor da variável de teste com o
valor tabelado da distribuição teórica correspondente.
Teste de Hipótese Bilateral
1- α
H1: θ ≠ θ0
α/2 α/2
-V crítico V crítico
Rejeitar H0 Não rejeitar H0 Rejeitar H0
Testes de Hipótese Unilateral à direita

1- α
H1: θ > θ0
V crítico
Não rejeitar H0 Rejeitar H0
Testes de Hipótese Unilateral à esquerda
H1: θ < θ0 1- α
-V crítico
Rejeitar H0 Não rejeitar H0
15.3 Testes de hipóteses para uma amostra
15.3.1 Teste de uma média populacional
1. σ² conhecida
A) Estabelecer as hipóteses C) calcular a variável de teste, dada por
H o : µ = µ0 x − µ0  σ 
z= , pois x ≈ N  µ ; 
σ  n
 µ < µ0
H1 :  µ ≠ µ0
n
 µ > µ 0
B) estabelecer o nível de significância α; D) Rejeita-se H0 se

 z < − zα , p/ µ < µ 0
 z < − z ou z > z , p/ µ ≠ µ
α α
 0
2 2

 z > zα , p/ µ > µ 0
2. σ² desconhecida

H o : µ = µ0 x − µ0  s 
t= , pois x ≈ t  µ ; 
s  n
 µ < µ0
H1 :  µ ≠ µ0
n
 µ > µ 0

t < −t n −1;α tab , p/ µ < µ 0
t < −t ; ou t > t
 n −1 α α , p/ µ ≠ µ 0
n −1;
 2 2
t > t n −1;α , p/ µ > µ 0
15.3.2 Teste de uma variância populacional

H 0 :σ 2 = σ 20 χ2 =
(n − 1)s 2 , que tem distribuição χ 2
n −1
2
σ0
σ 2 < σ 2 o

H1 : σ 2 ≠ σ 2 o
σ 2 > σ 2 o

 2
 χ < χ n −1;(1−α ) , p/ σ < σ o
2 2 2
 2
 χ < χ n −1;(1−α 2 ) ou χ > χ n −1;α , p/σ ≠ σ o
2 2 2 2 2
 2
 χ > χ n−1;α , p/σ > σ o

2 2 2 2

15.3.3 Teste de uma proporção populacional

p − P0  P (1 − P ) 
H 0 : P = P0 z= , pois p ≈ N  P, 
P0 (1 − P0 )  n 
 P < P0 n
H1 :  P ≠ P0
 P > P0

 z < − zα , p/ P < P0
 z < − z ou z > z , p/ P ≠ P
α α
 0
2 2

 z > zα , p/ P > P0
15.4 Testes de hipóteses para duas amostras
15.4.1 Testes de hipóteses para duas médias
Caso I: variâncias populacionais conhecidas

H o : µ1 − µ 2 = 0 ⇒ µ1 = µ 2 (X − Y )
Z= ≈ N (0,1)
 µ 1 − µ 2 < 0 ⇒ µ1 < µ 2 σ X2 σ Y2
+
H 1 :  µ1 − µ 2 ≠ 0 ⇒ µ1 ≠ µ 2 nX nY2
 µ1 − µ 2 > 0 ⇒ µ1 > µ 2

 z < − zα , p/ µ1 − µ 2 < 0
 z < − z ou z > z , p/ µ − µ ≠ 0
α α
 1 2
2 2

 z > zα , p/ µ1 − µ 2 > 0
Caso II: variâncias populacionais desconhecidas, mas supostas iguais

H o : µ1 − µ 2 = 0 (X − Y )
t= ≈ t n X + nY − 2
µ 1 − µ 2 < 0 ⇒ µ 1 < µ 2 2 1 1 
S p  + 
H 1 :  µ 1 − µ 2 ≠ 0 ⇒ µ 1 ≠ µ 2  n X nY 
 µ 1 − µ 2 > 0 ⇒ µ 1 > µ 2 (n X − 1) S X2 + (nY − 1) S Y2
onde S p2 =
n X + nY − 2

t < −tα , p/ µ1 − µ 2 < 0
t < −t ou t > t , p/ µ − µ ≠ 0
α α
 1 2
2 2

t > tα , p/ µ1 − µ 2 > 0
Caso III: variâncias populacionais desconhecidas e diferentes:

H o : µ1 − µ 2 = 0 ( X − Y ) − (µ X − µY )
t= ≈ tw , onde
µ 1 − µ 2 < 0 ⇒ µ 1 < µ 2  S X2 S X2 
 + 2 
H 1 :  µ 1 − µ 2 ≠ 0 ⇒ µ 1 ≠ µ 2 n
 X nY 
 µ 1 − µ 2 > 0 ⇒ µ 1 > µ 2 ( w X + wY ) 2
w= −2,
w X2 wY2
+
n X − 1 nY − 1
S X2 S2
sendo w X = e wY = Y
nX nY


t < −tα , p/ µ1 − µ 2 < 0
t < −t ou t > t , p/ µ − µ ≠ 0
α α
 1 2
2 2

t > tα , p/ µ1 − µ 2 > 0
Caso IV: Amostras emparelhadas

Ho : µ A − µD = 0 ⇒ µA = µD X − µd
t= d ~ t n −1
Sd
µ A − µ D < 0 ⇒ µ A < µ D
H 1 :  µ A − µ D ≠ 0 ⇒ µ A ≠ µ D n
 µ A − µ D > 0 ⇒ µ A > µ D

t < −tα , p/ µ1 − µ 2 < 0
t < −t ou t > t , p/ µ − µ ≠ 0
α α
 1 2
2 2

t > tα , p/ µ1 − µ 2 > 0
15.4.2 Testes de hipóteses para duas proporções

( pˆ X − pˆ Y ) − ( p X − pY )
H 0 : P1 − P2 = 0 Z= ≈ N (0,1)
p X (1 − p X ) pY (1 − pY )
+
 P1 − P2 < 0 nX nY
H 1 :  P1 − P2 ≠ 0
 P1 − P2 > 0

 z < − zα , p/ P1 − P2 < 0
 z < − z ou z > z , p/P − P ≠ 0
α α
 1 2
2 2

 z > zα , p/ P1 − P2 > 0
15.4.3 Testes de hipóteses para duas variâncias

S2
F = 12 ≈ F( n1 −1;n2 − 2)
σ 12 S2
H 0 : 2 = 1 ⇒ σ1 = σ 2
2 2
σ2
 σ 12
 2 < 1 ⇒ σ1 < σ 2
2 2
σ 2
 2
σ
H1 :  1 2 ≠ 1 ⇒ σ 1 ≠ σ 2
2 2
σ 2
 2
σ1
σ 2 > 1 ⇒ σ 1 > σ 2
2 2
 2

 1
 F < Fn −1;(1−α ) = F , p/ σ 12 < σ 22
n −1;α

F < F ou F > F α , p/σ 12 ≠ σ 22
 α
 n −1; 1−
 2
 n −1;
2

 F > Fn−1;α , p/σ 1 > σ 2
2 2
16. Análise da Variância: ANOVA
Segundo Martins, trata-se de um método estatístico, desenvolvido por Fisher, que, por
meio de teste de igualdade de médias, verifica se fatores (variáveis independentes)
produzem mudanças sistemáticas em alguma variável de interesse (variável dependente).
Os fatores propostos podem ser variáveis quantitativas ou qualitativas, enquanto a
variável dependente deve ser quantitativa e observada dentro das classes dos fatores -
também chamados de tratamentos.
Por exemplo, podemos estar interessado em descobrir variáveis que causam um aumento
no consumo de combustível dos automóveis. Podemos supor que a marca do veículo,
idade etc. são potenciais fatores. Por meio da análise da variância, é possível verificar se
marca, idade - ou uma combinação destes fatores - produzem efeitos apreciáveis sobre o
consumo, ou concluir que tais fatores não têm influência sobre o consumo.
16.1 Modelo de classificação única ou Experimento com um fator ou One-Way

ANOVA
O modelo de Modelo de classificação única também é conhecido como modelo

completamente aleatório.
Vamos considerar que temos k amostras de tamanho n, retiradas de k populações cujas
as médias µ i , i = 1, 2, ..., k, queremos comparar. Vamos testar a hipótese:
H 0 : µ1 = µ 2 = ... = µ k ,
contra a alternativa:
H1: pelo menos uma das médias populacionais seja diferente.
Caso o teste estatístico indique a rejeição de H0, podemos concluir, com probabilidade α,
de que o fator considerado tem influência sobre a variável de estudo.
O nível de significância α deve ser estabelecido, ele servirá para definir o valor do Fcrítico =
Fα ;k −1;n − k , que é tabelado.
S e2 SQE
A estatística de teste é dada por F = 2 , onde S e2 = é a variância entre os
Sr k −1
SQR
tratamentos, e S r2 = é a variância residual. Nestas expressões temos
n−k
  ni  
2
 ∑ X ij 
 
k
  j =1  
SQE = ∑    − C , que é a Soma dos Quadrados entre os tratamentos, e SQR,

i =1  ni 
 
 
que corresponde à Soma dos Quadrados dos Resíduos, que é obtida por
k ni
SQR = SQT − SQE , onde SQT = ∑∑ xij2 − C é a Soma dos Quadrados Totais. Temos
i =1 j =1
ainda, k - 1 que corresponde aos graus de liberdade referentes aos tratamentos e n - k
que corresponde aos graus de liberdade referente aos resíduos. E por fim o termo
2
 k ni 
 ∑∑ xij 
 
C=  , que é a média dos valores ao quadrado, sendo n = n
k
i =1 j =1
n
∑
i =1
i
Estas expressões são resultante do desenvolvimento da Soma dos Quadrados Total,

dada por:
k ni
SQT = ∑∑ ( xij − x ) 2
i =1 j =1
Com i variando de 1 a k e j variando de 1 a ni.
Somando e subtraindo xi , que corresponde a média de cada tratamento, temos:

k ni k ni
SQT = ∑∑ ( xij − xi + xi − x ) = ∑∑ ([ xij − xi ] + [ xi − x ]) 2
2
i =1 j =1 i =1 j =1
Aplicando o quadrado, temos:

k ni k ni
SQT = ∑∑ ([ xij − xi ] + [ xi − x ]) 2 = ∑∑ ([ xij − xi ]2 + 2[ xij − xi ][ xi − x ] +[ xi − x ] 2 )
i =1 j =1 i =1 j =1
Aplicando o somatório:
k ni k ni k ni
SQT = ∑ ∑ [ xij − xi ] 2 + 2∑∑ [ xij − xi ][ xi − x ] + ∑∑ [ xi − x ] 2
i =1 j =1 i =1 j =1 i =1 j =1
O termo do meio fica igual a zero, pois:

k ni k  ni  k  ni 
2∑∑ [ xij − xi ][ xi − x ] = 2∑ [ xi − x ] ∑ [ xij − xi ]  = 2∑ [ xi − x ] ∑ xij − ni xi  =
i =1 j =1 i =1  j =1  i =1  j =1 
 ni

k


n i ∑ x ij


k  ni ni

= 2∑ [ xi − x ] ∑ xij − ni i =1
= 2 ∑ [ x − x ]
 ∑ x − ∑ x  =0

ni 
i ij ij
i =1

j =1

i =1  j =1 i =1 
 
Então:
k ni k ni
SQT = ∑ ∑ [ xij − xi ] 2 + ∑∑ [ xi − x ] 2 = SQR + SQE , onde:
i =1 j =1 i =1 j =1
k ni k ni k ni k ni
SQT = ∑∑ ( xij − x ) 2 = ∑∑ ( xij2 − 2 xij x + x ) 2 = ∑∑ xij2 − 2 x ∑∑ xij + nx =
i =1 j =1 i =1 j =1 i =1 j =1 i =1 j =1
k
Lembrando que n = ∑ ni
i =1
2
 k ni
  k ni 
 ∑∑ xij   ∑∑ xij 
k ni
 i =1 j =1 k i  i =1 j =1 
n
= ∑∑ xij2 − 2 ∑∑ xij + n  =
i =1 j =1 n n
  i =1 j =1  
   
   
2 2 2
 k ni   k ni   k ni 
 ∑∑ xij   ∑∑ xij   ∑∑ xij 
k n     k n   k ni
i
= ∑∑ xij − 22  i =1 j =1  +  i =1 j =1  = ∑∑ xij −
i
2  i =1 j =1  = ∑∑ xij2 − C ,
i =1 j =1 n n i =1 j =1 n i =1 j =1
2
 k ni 
 ∑∑ xij 
 
onde C =  
i =1 j =1
k ni k ni k  ni ni ni

SQR = ∑∑ [ xij − xi ] 2 = ∑∑ [ xij2 − 2 xij xi + xi ]2 = ∑ ∑ xij2 − 2 xi ∑ xij + ∑ xi  =
i =1 j =1 i =1 j =1 i =1  j =1 j =1 j =1 
  ni   ni  
2   ni 
2
 ni  
2
∑ ij n ∑ ij  ∑ ij   ∑ ij  
  x   x     x   x  
 i 2  j =1  i  j =1   k  i 2
k n n
 j =1   j =1  =
∑ ∑ xij − 2 n ∑ xij + ni  n   = ∑ ∑ xij − 2
i =1  j =1 ni
+
ni

i =1
 j =1
 i
 j =1
 i
  
      
      
  ni  
2
  ni  
2
  ∑ xij     ∑ xij 
k
 ni 2  j =1   k ni 2 k   j =1  
∑ ∑ xij −
i =1  j =1 ni
 = ∑ ∑ xij −∑ 
 n


 i = 1 j =1 i = i i
  
 
   
k ni k ni k  ni ni ni

SQE = ∑∑ [ xi − x ]2 = ∑ ∑ [ xi2 − 2 xi x + x 2 ] =∑ ∑ xi2 − 2 x ∑ xi + ∑ x 2  =
i =1 j =1 i =1 j =1 i =1  j =1 j =1 j =1 
  ni 
2
 ni     ni 
2

  ∑ xij   ∑ xij   k  ∑ ij 
  x  
k
  j =i   j =i    
 − 2x  x  + n x 2  =
ni

+ ni x 2  = ∑  
=
= ∑  ni   ∑ ij  i 
j i
 − 2 x ni  
n n ni  j =i 
i =1
  i   i   i =1  
       
     
  ni    k ni
2
  k ni 
2   ni  
2
 k ni 
2
 k ni 
2
  ∑ xij    ∑∑ xij   ∑∑ xij    ∑ xij    ∑∑ xij   ∑∑ xij 

k
  j =i    i =1 j =i  k i
n
  i =1 j =i  k
  j =i      
= ∑    +  i =1 j =i  =
= =
 ∑∑ xij  + n ∑
i 1 j i
 − 2  =   − 2
ni n n ni n n
i =1     i =1 j =i    i =1  
   




  
   
  ni    k ni
2

2
  ni  
2
 k ni 
2
  ∑ xij    ∑∑ xij    ∑ xij    ∑∑ xij 

k
  j =i    i =1 j =i  k
  j =i    
= ∑ = ∑  i =1 j =1 
−  − C , onde C =
i =1  ni  n i =1  ni  n
   
   
Logo, temos que:
  ni 2
   ni  
2
  x  
k ni k 
∑ ij 
 k  ∑
  xij  
  k ni
SQR + SQE = ∑ ∑ xij −∑   j =1   + ∑ 
j =i  −C =
2
i =i  ni  i =1  ni
 ∑∑ xij2 − C = SQT
i =1 j =1  i =1 j =1
   
   
Para realizar os cálculos, vamos utilizar a seguinte tabela:
Tratamentos
Observações
T1 T2 ... Tk
1
2
3
:
n
Total ΣT
ni Σ ni
Total 2 Total 2
ni
∑ n
i
Tratamentos ao
Observações Quadrado
T12 T22 ... T K2
1
2
3
:
n
Total ΣQ
2
 k ni 
 ∑ ∑ xij 
 i = 1 j =1 
  (∑ T ) 2
C= =
n ∑n i
k ni
SQT = ∑∑ xij2 − C = ∑ Q − C
i =1 j =1
  ni  
2
  ∑ X ij  
k
  j =1   2
SQE = ∑    − C = Total − C
 ∑ n
i =1  ni  i
 
 
SQR = SQT - SQE
Exemplo:
O resultado das vendas efetuadas por três vendedores de uma indústria durante certo
período é dado a seguir. Deseja-se saber, ao nível de significância de 5%, se há diferença
de eficiência entre os vendedores:
Tratamentos
Observações
A B C
1 29 27 30
2 27 27 30
3 31 30 31
4 29 28 27
5 32 29
6 30
Usando a tabela, temos:
Tratamentos
Observações
A B C
1 29 27 30
2 27 27 30
3 31 30 31
4 29 28 27
5 32 29
6 30
Total 178 112 147 ΣT 437
ni 6 4 5 Σ ni 15
Total 2 Total 2
ni
5280,67 3136,00 4321,80 ∑ n 12738,47
i
Calculando o quadrado dos valores:
Tratamentos
Observações
A B C
1 841 729 900
2 729 729 900
3 961 900 961
4 841 784 729
5 1024 841
6 900
Total 5296 3142 4331 ΣQ 12769
Assim, temos:
2
 k ni 
 ∑∑ xij 

 i =1 j =1

 = (∑ T ) 2
437 2
C= = = 12731,27
n ∑n i 15
k ni
SQT = ∑∑ xij2 − C = ∑ Q − C = 12769 − 12731,27 = 37,73
i =1 j =1
  ni  2 
  ∑ xij  
k
  j =1   Total 2
SQE = ∑   − C = ∑ n − C = 12738,47 − 13731,27 = 7,20
ni
i =1
  i
 
 
SQR = SQT - SQE = 37,73 - 7,20 = 30,53
Uma vez calculado os valores de SQT, SQE e SQR, eles devem ser dispostos numa
tabela, conhecida como Quadro da Análise de Variância - QAV, da seguinte forma:
Quadro de Análise de Variância - QAV

Fonte de variação Soma dos Quadrados gl Quadrados médios F
SQE S e2
Entre SQE k-1 S e2 = F=
k −1 S r2
SQR
Residual SQR n-k S r2 =
n−k
Total SQT n-1
No caso do exemplo dado, temos:

Fonte de variação Soma dos Quadrados gl Quadrados médios F
Entre 7,20 2 3,60 1,41
Residual 30,53 12 2,54
Total 37,73 14
O valor de F5%; 2;12 = 3,89, tirado da tabela F-Snedecor de 5%. Então, como F < F5%; 2;12 não
se rejeita a H0, concluindo-se com nível de significância de 5% que não há diferenças na
eficiência dos vendedores.
16.2 Modelo de classificação dupla ou Experimento com dois fatores ou Two-way

ANOVA
Este modelo é conhecido também como modelo em Blocos Aleatório.

Vamos imaginar que os elementos observados tenham sido classificados segundo dois
critérios, no caso, dois fatores. O primeiro critério possui n níveis e o segundo k níveis.
Então, temos um total de nk observações. Desta forma, podemos dispor os valores
observados na seguinte tabela:
Segundo Fator - B
X11 X12 X13 .... X1k
Primeiro X21
Fator - A X31
:
Xn1
A análise da variância permitirá testar simultânea e independentemente as seguintes
hipóteses:
H 0 A : µ1. = µ 2. = ... = µ n.
H 0 B : µ.1 = µ.2 = ... = µ.k
A não rejeição de H0A significa a não-comprovação de diferenças significativas entre as
médias devida à classificação segundo o critério das linhas (Fator A), e a não rejeição de
H0B significa a não-comprovação de diferenças significativas entre as médias devida à
classificação segundo o critério das colunas (Fator B).
O nível de significância α deve ser estabelecido, ele servirá para definir os valores críticos
de F, dados por:
Fcrítico L = Fα ;k −1;( k −1)( n −1) ,
Fcrítico C = Fα ;n−1;( k −1)( n −1) ,
Sendo ambos tabelados.

S L2 SQL
A primeira estatística de teste é dada por FL = , onde S L2 = é a variância entre as
Sr 2
ni − 1
SQR
linhas (Fator A), e S r2 = é a variância residual. A segunda estatística de teste
(k − 1)(ni − 1)
S C2 SQC
é dada por FC = 2 , onde SC2 = é a variância entre as colunas (Fator B), e
Sr k −1
SQR
S r2 = é a variância residual.
(k − 1)(ni − 1)
Nestas expressões temos:

 k  
2
n i   ∑ ij  
k ni
x
SQL = ∑∑ ( x j − x ) = ∑
2   i =1   −C
i =1 j =1 j =1
 k 
 
 
  ni  2 
  ∑ xij  
k ni k
  j =1  
SQC = ∑∑ ( xi − x ) 2 = ∑    −C
ni
i =1 j =1 i =1
 
 
 
SQR = SQT − SQC − SQL , onde:
2
 k ni 
 ∑∑ xij 
k n  
i
SQT = ∑∑ xij − C é a Soma dos Quadrados totais. E C =

2  i =1 j =1  , a média dos
i =1 j =1 n
k
valores ao quadrado, sendo n = ∑ ni
i =1
k ni
A decomposição da Variação Total é dada por: SQT = ∑∑ ( xij − x ) 2
i =1 j =1
Com i variando de 1 a k e j variando de 1 a ni.
O desenvolvimento da Soma dos Quadrados Total é feito somando e subtraindo xi , x j e x
então, temos:
k ni k ni
SQT = ∑∑ ( xij − xi + xi − x j + x j − x + x − x ) 2 = ∑∑ ([ xi − x ] + [ x j − x ] + [ xij − xi − x j + x ])2
i =1 j =1 i =1 j =1
Fazendo a = [ xi − x ] , b = [ x j − x ] e c = [ xij − xi − x j + x ] e aplicando o quadrado, temos:

(a + b + c )2 = [(a + b ) + c]2 = [(a + b)2 + 2(a + b)c + c 2 ] = [(a 2 + 2ab + b 2 ) + 2ac + 2bc + c 2 ] =
= a 2 + b 2 + c 2 + 2ab + 2ac + 2bc .
Considerando que os termos cruzados sejam iguais a zero, então:
k ni k ni k ni
SQT = ∑ ∑ [ xi − x ]2 + ∑∑ [ x j − x ]2 + ∑∑ [ xij − xi − x j + x ]2
i =1 j =1 i =1 j =1 i =1 j =1
Onde:
 k  
2
n i   ∑ ij  
k ni
x
SQL = ∑∑ ( x j − x ) = ∑
2   i =1   −C
i =1 j =1 j =1
 k 
 
 
  ni  2 
  ∑ xij  
k ni k
  j =1  
SQC = ∑∑ ( xi − x ) 2 = ∑    −C
ni
i =1 j =1 i =1
 
 
 
k ni
SQR = ∑∑ [ xij − xi − x j + x ]2
i =1 j =1
Para realizar os cálculos, vamos utilizar a seguinte tabela:
Tratamentos Total 2
Blocos T1 T2 ... Tk Total ki
ki
1 Σ B1 k1 (∑ B ) 1
2
k1
2 Σ B2 k2 (∑ B ) 2
2
k2
3 Σ B3 k3 (∑ B ) 3
2
k3
: : : :
n Σ Bn kn (∑ B ) n
2
kn
Total ΣT1 ΣT2 ... ΣTk ΣT=ΣB Σ ki TotalL2
∑ k
i
ni n1 n2 ... nk Σ ni
TotalC2 (∑ T ) 1
2
(∑ T ) 2
2 ... (∑ T ) k
2
TotalC2
∑ n
ni n1 n2 nk i
Valores ao Quadrado
Tratamentos
Blocos Total
T1 T2 ... TK
1 2
x11 2
x12 ... x12k B1
2 2
x21 B2
3 2
x31 B3
: : :
n xn21 Bn
n n ... n
ΣQ
Total ∑ x 2j1
j =1
∑ x 2j 2
j =1
∑x
j =1
2
jk
2
 k ni 
 ∑ ∑ xij 
 i = 1 j =1 
  (∑ T ) 2
C= =
n ∑n i
k ni
SQT = ∑∑ xij2 − C = ∑ Q − C
i =1 j =1
 k  
2
n i   ∑ ij  
x 2
SQL = ∑     − C = Total L − C
j =1

i =1
k  ∑ k
 
 
  ni  2 
  ∑ xij  
k
  j =1   TotalC2
SQC = ∑    − C = ∑ n −C
ni
i =1
  i
 
 
SQR = SQT - SQL - SQC
Exemplo:
Os dados da tabela seguinte referem-se à pureza de um determinado produto por um
dado método. O fator A corresponde ao tio de solvente que foi aplicado ao produto, e o
Fator B corresponde ao tempo de ebulição aplicado para cada solvente. Ao nível de
significância de 1% pede-se:
a) a pureza é afetada pelo tipo de solvente?
b) e sobre o tempo de ebulição, o que pode ser dito?
Solventes Tempo de Ebulição

1 2 3 4
1 3,1 2,7 3,3 3,0
2 4,7 3,5 3,9 3,6
Utilizando a tabela-modelo para os cálculos temos:
Tempo de Ebulição TotalL2
Solventes 1 2 3 4 TotalL ki
k
1 3,1 2,7 3,3 3,0 12,1 4 36,603
2 4,7 3,5 3,9 3,6 15,7 4 61,622
Totalc 7,8 6,2 7,2 6,6 27,8 8 98,225
ni 2 2 2 2 8
TotalC2 30,42 19,22 25,92 21,78 97,34
ni
Valores ao Quadrado
Tempo de Ebulição
Solventes
1 2 3 4
1 9,61 7,29 10,89 9,00
2 22,09 12,25 15,21 12,96
Total 31,70 19,54 26,10 21,96 99,30
2
 k ni 
 ∑∑ xij 
C=

 i =1 j =1(∑ T ) = 27,8 = 96,605

 =
2 2
n ∑n 8 i
k ni
SQT = ∑∑ x − C = ∑ Q − C = 99,30 − 96,605 = 2,695
2
ij
i =1 j =1
 k  
2
n i   ∑ ij  
x 2
SQL = ∑     − C = Total L − C = 98,225 − 96,605 = 1,62
j =1

i =1
k  ∑ k
 
 
  ni  2 
  ∑ xij  
k
  j =1   TotalC2
SQC = ∑   − C = ∑ − C = 97,34 − 96,605 = 0,735
ni ni
i =1
 
 
 
SQR = SQT - SQL - SQC = 2,695 - 1,62 - 0,735 = 0,34
Uma vez calculado os valores de SQT, SQL, SQC e SQR, eles devem ser dispostos
numa tabela, conhecida como Quadro da Análise de Variância - QAV, da seguinte forma:

Fonte de variação Soma dos Quadrados Gl Quadrados médios F
SQL S L2
Entre linhas SQL ni -1 S L2 = FL =
ni − 1 S r2
SQC SC2
Entre colunas SQC k-1 SC2 = FC =
k −1 S r2
SQR
Residual SQR (ni − 1)(k − 1) S R2 =
(ni − 1)(k − 1)
Total SQT n-1
No caso do exemplo dado, temos:
Fonte de Soma dos Quadrados
variação Quadrados Gl médios F
1,62 1,62
Entre linhas 1,62 2 -1=1 S L2 = = 1,62 FL = = 14,34
1 0,113
0,735 0,245
Entre colunas 0,735 4 - 1=3 SC2 = = 0,245 FC = = 2,17
3 0,113
0,34
Residual 0,34 (ni − 1)(k − 1) =3 S R2 = = 0,113
3
Total 2,695 8 - 1=7
O primeiro valor crítico de F é F1%;1;3 = 34,12, tirado da tabela F-Snedecor de 1%. Então,
como F < F1%;1;3 não se rejeita a H0, concluindo-se com nível de significância de 1% que
não há evidências de que a pureza seja afetada pelo tipo de solvente.
Para o segundo valor crítico de F, temos F1%;3;3 = 29,46, também tirado da tabela F-
Snedecor de 1%. Então, como F < F1%;3;3 não se rejeita a H0, concluindo-se com nível de
significância de 1% que, também, não há evidências de que a pureza seja afetada pelo
tempo de ebulição.
16.3 Pressupostos da ANOVA
A análise da variância de um conjunto de dados exige que sejam verificados alguns

pressupostos importantes sobre os erros, sem os quais os resultados da análise não são
válidos. Os pressupostos são:
a) ausência de dados discrepantes (resíduos discrepantes);

b) os erros são independentes (não correlacionados);
c) a variância é constante (homocedasticidade); e
d) a distribuição dos erros é Normal, ou seja ε ij ≈ N (0,σ 2 )
Isto porque para cada tipo de ANOVA: one-way ou two-way, temos os seguintes modelos
matemáticos:
- One-way Anova: xîj = µ + α i + ε ij , onde:
x̂ij - é o valor estimado pelo modelo;
µ - é o efeito médio;
α i - é o efeito específico do tratamento;
ε ij - é o efeito aleatório, ou erro residual.
- Two-way Anova: xîj = µ + α i + β i + ε ij , onde:
x̂ij - é o valor estimado pelo modelo;
µ - é o efeito médio;
α i - é o efeito específico devido à linha (Blocos);
βi - é o efeito específico devido à coluna (Tratamentos);
ε ij - é o efeito aleatório, ou erro residual.
O erro residual pode ser obtido pela diferença entre xij e x̂ij , ou seja ε ij = xij − xîj
17. Análise de dados categorizados
Segundo Barbetta, grande parte das variáveis estudadas nas Ciências não são
mensuradas numericamente, mas indicam certas qualidades, ou atributos, de tal forma
que podemos alocar cada elemento numa categoria preestabelecida, resultando em
dados categorizados. Por exemplo, ao observar a variável "sexo" em cada indivíduo
pesquisado, deve-se alocar ou categoria "masculino" ou na categoria "feminino". È
importante ser lembrado que as variáveis devem estar bem definidas, tal que cada
elementos pesquisado se encaixe em uma e apenas uma categoria.
17.1 Teste de qui-quadrado
É um dos testes estatísticos mais utilizado. Ele pode ser empregado nas seguintes situações:
a) Como teste de aderência, para verificar o grau de correspondência entre o número de observações
e uma determinada resposta ou objeto e número esperado destas respostas ou objetos em cada
categoria que se está pesquisando;
b) Como teste de independência entre 2 ou mais amostras, principalmente quando os dados
consistem de freqüências de categorias discretas.
17.1.1 Teste de Aderência ou bondade do ajustamento
Este é o caso quando está se trabalhando apenas com uma amostra, mas que apresenta k categorias.
O pesquisador observa as Oi freqüências em cada categoria. contudo, dependendo do valor das n
observações, pode calcular as Ei freqüências esperadas, também em cada categoria. Utilizando a
estatística:
k
(Oi − Ei )2
χ =∑
2
i =1 Ei
Pode-se testar a hipótese nula H0: não há diferença significante entre as k categorias contra a
hipótese alternativa H1: há pelo menos uma diferença significativa entre as k categorias.
O valor das freqüências esperadas pode ser obtido por:
n
Ei =
k
Onde n é o numero total de elementos da amostra e k o número de categorias existentes nesta
amostra. A estatística χ 2 ≈ χ α2 ;k −1 , ou seja, ele tem distribuição Qui-quadrado com k - 1 graus de
liberdade, e o teste é realizado segundo o nível de significância α .
Exemplo: fãs de corrida de cavalo frequentemente sustentam que uma corrida em torno de um pista
circular proporciona significante vantagem inicial para os cavalos colocados em certas posições no
local de largada. Cada posição do cavalo corresponde ao posto atribuído no começo do
alinhamento. Em uma corrida de 8 cavalos, a posição 1 é a mais próxima da raia no lado interno da
pista; a posição 8 está no lado externo, mais distante da raia. Pode-se testar o efeito da posição no
local de largada analisando os seguintes dados:
Posições do local de largada
Total
1 2 3 4 5 6 7 8
Número de vitórias 29 19 18 25 17 10 15 11 144
a) Hipóteses: H0: não há diferença no número de vitórias em cada uma das posições do local de
largada.
H1: há pelo menos uma diferença significativa entre número de vitórias em cada uma
das posições do local de largada.
b) Nível de significância: α = 5%
c) Estatística de Teste:
k
(Oi − Ei )2 n 144
χ =∑
2
, onde Ei = , logo Ei = = 18 . Devemos calcular as diferenças entre Oi e
i =1 Ei k 8
Ei , então:
Posições dos postos

1 2 3 4 5 6 7 8
Freqüências
29 19 18 25 17 10 15 11 Soma
observadas Oi
Freqüências
18 18 18 18 18 18 18 18
esperadas Ei
(Oi − Ei )2
6,7222 0,0556 0 2,7222 0,0556 3,5556 0,5000 2,7222 16,3334
Ei
k
(Oi − Ei )2
Ou seja, χ 2 = ∑ = 16,3334 . Agora, vamos procurar na tabela da distribuição de Qui-
i =1 Ei
quadrado o valor correspondente para χ α2 ;k −1 = χ 02, 05;8−1 = χ 02, 05;7 , já que o nível de significância é de
5% e o grau de liberdade gl = k - 1 = 8 - 1 = 7. Então χ 02,05;7 = 14,07 .
d) Decisão: como o valor de χ 2 = 16,3334 > χ 02, 05;7 = 14,07 , então rejeita-se H0.
Observações:
a) Se tivermos apenas 2 categorias na amostra, ou seja k = 2 (gl = 1), cada freqüência esperada Ei
deve ser pelo menos 5;
b) Se tivermos k > 2 categorias (gl > 1), o teste não deve ser usado se mais de 20% das freqüências
esperadas Ei forem menores que 5 ou se qualquer freqüência esperada é menor do que 1.
c) Poderíamos ter visto o resultado acima em função do p-valor para χ 2 = 16,3334 . Observando na
tabela de Qui-quadrado, este valor 16,3334 na linha onde gl = 7, está entre 16,01 (p = 0,025) e
18,48 (p = 0,01), ou seja, o p-valor dele está 0,025 < p < 0,01 que corresponde a um valor menor do
que 0,05, que foi o nível de significância adotado. Observe abaixo:
p de 16,01 p de 18,48
gl = 7
Podemos, também, realizar uma interpolação linear para descobrir qual o p-valor referente a
χ 2 = 16,3334 , da seguinte maneira:
Valor de χ 2 p-valor
16,01 0,025
16,3334 X
18,48 0,010
Então, temos:
16,3334 − 16,01 x − 0,025 0,3234 x − 0,025
= ⇒ = ⇒ −0,0049 = 2,47( x − 0,025) ⇒
18,48 − 16,01 0,010 − 0,025 2,4700 − 0,0150
⇒ −0,0049 = 2,47 x − 0,0618 ⇒ 2,47 x = 0,0569 ⇒ x = 0,0230
Ou seja, o p-valor de χ 2 = 16,3334 é igual a 0,0230, valor este menor do que 0,05 (nível de
significância), logo rejeita-se H0.
17.1.2 Teste de Independência entre 2 ou mais amostras
Quando os dados experimentais consistem de freqüências em categorias discretas (variáveis

qualitativas - nominais ou ordinais), o teste de qui-quadrado pode ser usado para se chegar à
significância de diferenças entre k grupos ou amostras independentes.
Neste caso, o pesquisador está interessado em saber se 2 ou mais grupos ou amostras são
independentes.
Para aplicar o teste de qui-quadrado, é necessário organizar as freqüências observadas O ij nas
amostras em uma tabela de dupla entrada, conforme a dada a seguir:
Variável 1 Variável 2(Colunas)

(Linhas) C1 C2 ... Ck Total
L1 O11 O12 O1k ΣL1
L2 ΣL2
... ... ... ... ...
Lr Or1 Or2 Ork ΣLr
Total ΣC1 ΣC2 ΣCk N
A hipótese nula é H0: as amostras são independentes e a hipótese alternativa é H1: as amostras não
são independentes. A estatística de teste é dada por:
r k (O − E )2
χ = ∑∑
2 ij ij
i =1 j =1 Eij
Onde, as freqüências esperadas Eij são calculadas por:
Eij =
∑ L ∑C i j
N
A estatística χ tem distribuição Qui-quadrado com (r - 1)(k - 1) graus de liberdade. Ou seja:
2
χ 2 ≈ χ α2 ;( r −1)( k −1)
Exemplo: Uma empresa tem que escolher um entre três planos de saúde. A gerência deseja saber se
a preferência por um dos planos é independente da classe dos empregados a um nível de 5% de
significância. As opiniões dos empregados foram coletadas em uma amostra de 500 pessoas com os
seguintes resultados:
Classe dos Planos de Saúde
Total
empregados 1 2 3
Trabalhador
160 140 40 340
assalariado
Trabalhador
40 60 60 160
horista
Total 200 200 100 500
a) Hipóteses: H0: a escolha do plano de saúde é independente da classe do empregado

H1: a escolha do plano de saúde não é independente da classe do empregado
b) Nível de significância: α = 5%
r k (O − E )2
c) Estatística de teste: χ = ∑∑
2 ij ij
i =1 j =1 Eij
Devemos então calcular os Eij utilizando Eij =

∑ L ∑Ci j
. então temos:
N
Classe dos Planos de Saúde
Total
empregados 1 2 3
Trabalhador 200 * 340 200 * 340 100 * 340
assalariado = 136 = 136 = 68 340
500 500 500
Trabalhador 200 * 160 200 * 160 100 * 160
horista = 64 = 64 = 32 160
500 500 500
Total 200 200 100 500
Aplicando a fórmula, temos:
Oij Eij Oij - Eij (O ij − Eij )

2
Eij
160 136 24 4,2353
140 136 4 0,1176
40 68 -28 11,5294
40 64 -24 9
60 64 -4 0,2500
60 32 28 24,5000
500 500 - 49,6353
r k (O − Eij )
2
Então, χ = ∑∑
2
= 49,6353 . Agora, vamos procurar na tabela da distribuição de Qui-
ij
i =1 j =1 Eij
quadrado o valor correspondente para χ α2;( r −1)( k −1) = χ 02,05;( 2−1)( 3−1) = χ 02, 05; 2 , já que o nível de
significância é de 5% e o grau de liberdade gl =(r - 1)(k - 1) = (2-1)(3-1) = 2. Então χ 02,05; 2 = 5,99 .
d) Decisão: como o valor de χ 2 = 49,6353 > χ 02, 05; 2 = 5,99 , então rejeita-se H0.
Observações:
a) Se tivermos r ou k > 2 categorias (gl > 1), o teste não deve ser usado se mais de 20% das
freqüências esperadas Ei forem menores que 5 ou se qualquer freqüência esperada é menor do que
1. Neste caso, o pesquisador deve combinar as categorias para aumentar os Eij nas diversas células.
b) Poderíamos ter visto o resultado acima em função do p-valor para χ 2 realizando a interpolação
linear. Contudo deve ser observado o limite dos p-valores em cada linha correspondente aos graus
de liberdade dado por gl = =(r - 1)(k - 1). O menor p-valor tabelado é 0,005. Caso o valor calculado
da estatística χ 2 seja superior aos valores tabelados na coluna 0,005 da tabela de Qui-quadrado
então deve-se utilizar a função DIST.QUI(x, gl) do Excel ou do Calc, onde x é o valor calculado, no
caso 49,6353, e gl é o grau de liberdade, no caso gl =(r - 1)(k - 1) = (2-1)(3-1) = 2. Então,
DIST.QUI(49,6353, 2) = 1,6666 E -11, quase zero. No R, deve-se usar o comando pchisq(q, df,
lower.tail = FALSE), onde q é o valor calculado, no caso 49,6353, e df é o valor de gl dado por gl
=(r - 1)(k - 1), que no caso é gl = 2. Então pchisq(49,6353, 2, lower.tail = FALSE) = 1,666601e-11.
17.2 Associação entre Variáveis Categóricas
Quando estamos estudando a relação entre duas variáveis categóricas, não usamos o termo
"correlação". Neste caso, fala-se em “medida de associação”. Usa-se, então, o Coeficiente de
Contigência C, dado por:
χ2
C=
χ2 + n
r k (O − Eij )
2
Onde: χ = ∑∑ 2 ij
é o valor de Qui-quadrado, calculado a partir de uma tabela de
i =1 j =1 Eij
dupla entrada.
r k
∑ Li ∑ C j
i =1 j =1
é a freqüência esperada da linha i da coluna j
Eij =
N
Oij é a freqüência observada na linha i da coluna j
Estes cálculos são feitos a partir de uma tabela de dupla entrada abaixo:
Variável 1 Variável 2(Colunas)

(Linhas) C1 C2 ... Ck Total
L1 O11 O12 O1k ΣL1
L2 ΣL2
... ... ... ... ...
Lr Or1 Or2 Ork ΣLr
Total ΣC1 ΣC2 ΣCk N
Observações:
• para o caso 2x2 (gl=1), quando N > 40, utilizar no cálculo de χ2 a correção de continuidade,
2
ou seja:  N
N  AD − BC − 
 2
χ =
2
( A + B )(C + D )( A + C )( B + D )
• quando 20≤N≤40, a prova de χ2 , pode ser empregada com a correção de continuidade, desde
que nenhuma freqüência esperada seja inferior a 5
• se a menor freqüência esperada for inferior a 5, utilizar a prova de Fisher
• quando N<20, utilizar a prova de Fisher em qualquer caso.
Para gl>1 (c>2 e r >2), a prova pode ser aplicada somente se o número de células com
freqüência esperada inferior a 5 é inferior a 20% do total de células e se nenhuma célula tem
freqüência esperada inferior a 1. As freqüências esperadas podem ser aumentadas
combinando-se as categorias adjacentes.
Porém, o coeficiente descrito acima não varia entre 0 e 1. O valor máximo de C depende do número
de linhas e colunas da tabela de dupla entrada. Para evitar este inconveniente, costuma-se empregar
o Coeficiente de Contingência Modificado, dado por:
Onde j = min(r, c), sendo "r" o número de linhas e "c" o número de

( jχ 2 ) colunas da tabela
C′ =
[
( j − 1)( χ 2 + n) ]
O Coeficiente de Contingência Modificado satisfaz 0 ≤ C ′ ≤ 1 .
18. Correlação
Interpretação:
Graficamente:
Para o cálculo do coeficiente de correlação, usamos a seguinte expressão:
n ∑ XY − (∑ X )(∑ Y )
r=
[n∑ X 2
− (∑ X ) 2 ] [n∑ Y 2
− (∑ Y ) 2 ]
Onde n é o número de pares de dados amostrais.
Os cálculos ficam facilitados com o auxílio da tabela abaixo:
X Y XY X2 Y2
... ... ... ... ...
... ... ... ... ...
... ... ... ... ...
ΣX ΣY ΣXY ΣX2 ΣY2
Exemplo:
Considerando os dados abaixo, verifique se há uma relação linear entre as variáveis X =

despesas com propaganda e Y = vendas de certo produto.
X (milhões de reais) Y (milhares de unidades)

1,5 120
5,5 190
10,0 240
3,0 140
7,5 180
5,0 150
13,0 280
4,0 110
9,0 210
12,5 220
15,0 310
Primeiramente, devemos fazer o seguinte:
X (milhões de reais) Y (milhares de unidades) XY X² Y²

1,5 120 180 2,25 14400
5,5 190 1045 30,25 36100
10,0 240 2400 100 57600
3,0 140 420 9 19600
7,5 180 1350 56,25 32400
5,0 150 750 25 22500
13,0 280 3640 169 78400
4,0 110 440 16 12100
9,0 210 1890 81 44100
12,5 220 2750 156,25 48400
15,0 310 4650 225 96100
Total 86 2150 19515 870 461700
Usando a fórmulas dada, temos:
n ∑ XY − (∑ X )(∑ Y ) 11(19515) − (86)(2150)

r= = =
[n∑ X 2
− (∑ X ) 2 ] [n∑ Y 2
− (∑ Y ) 2 ] (11)(870) − (86 2 ) (11)(461700) − (2150 2 )
29765 29765
= = = 0,945
2174 456200 46,626 × 675,426
19 Método dos Mínimos Quadrados - MMQ
O Método dos Mínimos Quadrados (MMQ), ou Mínimos Quadrados Ordinários (MQO) ou OLS
(do inglês Ordinary Least Squares) é uma técnica de otimização matemática que procura encontrar
o melhor ajuste para um conjunto de dados tentando minimizar a soma dos quadrados das
diferenças entre o valor estimado Yî e os dados observados Y Yi (tais diferenças são chamadas
resíduos - ε ).
Graficamente, temos, para o caso de uma reta:
19.1 Ajuste a uma reta
Imaginem um seqüência de pontos ( xi , y i ) da seguinte forma:
O objetivo de ajuste é encontrar uma reta Yˆ = a + bX , estimada a partir dos dados, que minimiza o
parâmetro ε, de Y = α + βX + ε , conhecido como erro aleatório ou ruído branco. O que se deseja
é:
∑ ε 2 = ∑ (Y − Yˆ ) 2 = mínimo
Fazendo:
E derivando parcialmente e igualando a zero, temos:
O termo -2 vai sumir, porque passaremos dividindo o zero, logo teremos
Desenvolvendo o somatório, temos:
Obtemos assim, um sistema de equações, cujas as incógnitas são a e b da equação Yˆ = a + bX , da

seguinte forma:
19.2 Ajuste a um polinômio
Dado por:
Substituindo os valores da ultima linha no sistema de equações acima, temos:
 40 = 5a0 + 15a1 + 55a 2


 165 = 15a0 + 55a1 + 225a 2
724 = 55a + 225a + 979a
 0 1 2
Cuja a solução é a 0 = 1,5 , a1 = −1,5 e a 2 = 1

Logo,
A estimativa para x = 6 é:
E para x = 7:
19.3 Ajuste de funções linearizáveis
Existem funções que são não-lineares. Estas funções podem ser linearizadas por transformação. São
elas:
20. Análise de Regressão
Conjunto de métodos e técnicas para o estabelecimento de fórmulas empíricas que interpretem a

relação funcional entre variáveis com boa aproximação.
Deseja-se encontrar alguma forma de medir a relação entre as variáveis de cada conjunto, de tal
modo que essa medida pudesse mostrar:
a) se há relação entre as variáveis e, caso afirmativo, se é fraca ou forte;
b) que, se essa relação existir, estabeleceremos um modelo que interprete a relação funcional
existente entre as variáveis;
c) que construindo o modelo, usá-lo-emos para fins de predição.
Suponhamos que Y seja uma variável que nos interessa estudar e prever o seu comportamento. É de
se esperar que os valores da variável Y (dependente) sofram influências dos valores de um número
infinito de variáveis X1, X2, ..., XN (independentes) e que exista uma função g que expresse tal
dependência, ou seja
Y = g ( X 1 , X 2 ,..., X N )
É impraticável a utilização das N variáveis ou por desconhecimento dos valores de algumas ou pela
dificuldade de mensuração e tratamento de outras, logo se usa um número menor de variáveis (k) e
o modelo fica
Y = f ( X 1 , X 2 ,..., X k ) + h( X k +1 , X k + 2 ,..., X N )
Todas as influências das variáveis Xk+1, Xk+2, ..., XN , sobre as quais não exercemos controle, serão
consideradas como casuais, e associaremos uma variável aleatória U, obtendo o seguinte modelo:
Y = f ( X 1 , X 2 ,..., X k ) + U
onde f ( X 1 , X 2 ,..., X k ) é a componente funcional do modelo e U a parte aleatória.
Problemas na análise de regressão:
a) o problema da especificação do modelo

Consiste em determinar qual o tipo de função f que melhor explique a relação entre Y e X1, X2,
..., Xk
b) o problema da estimação dos parâmetros
Consiste em estimar o valor dos diversos parâmetros que aparecem na especificação adotada.
c) o problema da adaptação e significância do modelo adotado
Consiste em verificar se a especificação adotada na primeira etapa se adapta a
convenientemente aos dados observados.
20.1 Modelo de regressão linear simples
Quando a função f que relaciona X e Y é da seguinte forma:

Yi = α + βX i + U i
onde: - α + βX i é a componente funcional, que representa a influência da variável independente X
sobre o valor de Y e define o eixo da nuvem de pontos, que nesse caso será uma reta;
- U i é a componente aleatória, que representa a influência de outros fatores.
Sobre U i temos:
a) tem distribuição Normal;
b) é uma variável aleatória com média igual a 0 e variância igual a σ2, ou seja
E (U i ) = 0 e Var (U i ) = σ 2 , logo U i ≈ N (0; σ 2 )
c) a Cov(U i ;U j ) = σ 2 para i = j e Cov(U i ;U j ) = 0 para i ≠ j
20.1.1 O modelo matemático
Quando desejamos fazer inferências sobre a população da qual foi extraída uma amostra, devemos
considerar o modelo matemático que vai nos permitir construir intervalos de confiança e testar
hipóteses.
- Hipóteses simplificadoras
São as hipóteses básicas sobre a regularidade da população:
1ª as distribuições de probabilidade P(Yi | X i ) possuem a mesma variância σ2 para todo Xi;
2ª as médias E (Yi ) = µ i = α + βX i se dispõem sobre uma linha reta, conhecida como a verdadeira
reta de regressão (da população); os parâmetros α e β que especificam esta reta devem ser
estimados a partir da informação da amostra;
3ª as variáveis aleatórias Yi são estatisticamente independentes, com E (Yi ) = µ i = α + βX i e
Var (Yi ) = σ 2
20.1.2 Estimação de parâmetros
Seja Yî = a + bX i uma estimativa de Yi = α + βX i + U i , onde a e b são os estimadores de α e β e

( )
seja ei = Yi − Yî o erro de estimação ou desvio.
Deseja-se minimizar a soma dos desvios ao quadrado, ou seja minimizar ∑e i
2
(
= ∑ Yi − Yî )
2
.
Usando o Método dos Mínimos ao Quadrado, encontramos
∑ X ∑ Y e S = X 2 − (∑ X )
2
S
b = XY , onde S XY = ∑ XY − XX ∑
S XX n n
a = Y − bX , onde X =
∑X eY =
∑Y
n n
20.1.3 Teorema de Gauss-Markov
A justificativa principal para utilizarmos o Método dos Mínimos Quadrados para estimar os
parâmetros de Yi = α + βX i + U i é a seguinte:
“Na classe dos estimadores lineares não-tendenciosos, o estimador b de mínimos quadrados tem
variância mínima (é o mais eficiente). Analogamente, o estimador a também tem variância
mínima”.
Aplica-se somente a estimadores simultaneamente lineares e não-tendenciosos.
20.1.4 Significância das estimativas
Prova-se que:
 α + β X ; σˆ 2  1 + ( X − X )  
 1 X 2   σˆ 2  ˆ   2

a ≈ N  α ; σˆ 2  +  , b ≈ N  β ;
 S   e Y ≈ N
  n S XX    XX 
  n S XX  

onde σˆ 2 é a variância homoscedástica e desconhecida
S YY − b 2 S XX S YY − bS XY
Um estimador não-viesado de σ2 é σˆ 2 = S 2 = ou σˆ 2 = S 2 = , onde
n−2 n−2
∑ X ∑Y , S (∑ X )2
(∑ Y ) 2
S XY = ∑ XY − XX =∑X 2
− e S YY = ∑Y − 2
n n n
20.1.5 Teste de hipóteses
I) Para os coeficientes:
a) Hipóteses são H0 : para α̂ → αˆ = 0 e H1: αˆ > 0 ou αˆ < 0 ou αˆ ≠ 0

para β̂ → βˆ = 0 e H1: βˆ > 0 ou βˆ < 0 ou βˆ ≠ 0
b) Nível de significância: α
c) Variável de teste:
αˆ
Para α̂ , t =
1 X2
σˆ +
n S XX
b
Para β̂ , t =
σˆ
S XX
Em ambos os casos, t tem distribuição t-Student com n - 2 graus de liberdade.
d) Decisão: rejeita-se H0 se t > t a;n − 2
II) Para a regressão:
a) Hipóteses: H0: não existe regressão entre os dados observados

H1: existe a regressão
b) Nível de significância: α
c) Variável de teste:
SQM E
Para o modelo como um todo, se usa a variável de teste F = , que tem distribuição F de
SQM R
Snedecor com α fixado e 1 grau de liberdade no numerador e n-2 graus de liberdade no
denominador.
d) Decisão: Caso F > Ftabelado rejeita-se H0
Quadro de Análise de variância
Fonte de Soma dos Graus de Quadrados F

variação quadrados liberdade médios
Explicada VE = b S XX
2 1 VE SQM E
(devido a Ou VE = bS SQM E = F=
1 SQM R
regressão) XY
Residual VR = VT − VE n–2 VR
SQM R =
n−2
Total VT = S YY n-1
Uma vez que

∑ (Y i (
− Y ) = ∑ Yi − Yˆ + ∑ Yˆ − Y
2 2
) ( ) 2
- VT = VR + VE
2
VT = ∑ (Yi − Y ) = ∑ Yi − 2Yi Y + Y ( ) = ∑Y − 2Y ∑ Yi + ∑ Y =∑ Yi
∑Y  ∑ Yi 
∑
2 2 2 2 2 2
−2 Yi + n  =
i
i
n  n 
 
(∑ Y ) (∑ Y ) 2 2
(∑ Y ) 2
∑Y 2
−2 + = ∑ Yi 2
− = S YY
i i i
i
n n n
VR = ∑ (
Yi − Yˆ ) = ∑ (Y − [a + bX ]) =∑ (Y − [(Y − bX ) + bX ]) =∑ (Y − [Y − bX + bX ])
2
i i
2
i i
2
i i
2
=
∑ (Y − [Y + b(X − X )]) =∑ (Y − Y − b(X − X )) =∑ ((Y − Y ) − b(X − X )) =

2 2 2
i i i i i i
∑ ((Y − Y ) − 2b(X − X )(Y − Y ) + b (X − X ) ) =∑ (Y − Y ) − 2b∑ (X − X )(Y − Y ) + b 2 (X i − X ) =

2 2 2 2 2
i i i i i i i
S YY − 2bS XY + b 2 S XX = S YY − 2b(bS XX ) + b 2 S XX = S YY − b 2 S XX = S YY − bS XY
VE = ∑ Yî − Y ( ) = ∑ ([a + bX ] − [a + bX ]) =∑ (b(X

2
i
2
i − X )) =b 2 ∑ ( X i − X ) = b 2 S XX = bS XY
2 2
20.1.6 Coeficiente de Explicação ou determinação
Explica a relação entre a variação explicada VE e a variação total VT e é dado por

VE b 2 S XX
R2 = = , onde 0 ≤ R 2 ≤ 1 e se R 2 = 0 o modelo adotado não explica nada da realidade
VT S YY
S
e se R 2 = 1 o modelo adotado explica a realidade com perfeição. Sendo b = XY , temos:
S XX
(S )2
2
b 2 S XX  S XY  S XX
R = =   = XY 2
S YY  S XX  S YY S XX S YY
O R² indica quantos por cento a variação explicada pela regressão representa da variação total do
modelo.
O valor da raiz quadrada de R 2 representa o coeficiente de correlação linear
O R 2 ajustado é dado por
n −1 
2
Rajustado

= 1−  1− R2 (
n − k − 1 
)
, onde k é número de variáveis independentes

20.1.7 Previsão
Uma vez encontrado os valores de a e b podemos fazer a previsão usando Yˆ = a + bX , e prova-se

que
1) a previsão média tem distribuição

( )
E Yî | X = α + βX
( )
Var Yî | X = Var (a + bX ) = Var (Y − bX + bX ) = Var (Y + b[X − X ]) = Var (Y ) + ( X − X ) Var (b) =
2
σ2 2 σ
2
(
2 1 )
X −X2 
∑Var (Y ) + (X − X ) ( )
1 2 1
= = n σ 2
+ X − X = σ  + 
n2 S XX n2 S XX n S XX 

  1 ( X − X )2  
2 1 ( X − X) 
2 
P Yî − t α σˆ 2  +  ≤ Yi ≤ Yˆ
i + t α σˆ  +   = 1−α
 
 n S 
 
 n S  
 2 XX 2 XX
2) a previsão individual tem distribuição

( )
E Yˆ0 | X = α + βX
 1 ( X − X )2 
ˆ ( )
Var Y0 | X = σ 1 + +
2

 n S XX 

  1 ( X − X )2   1 (X − X )2  
P Yî − t α σˆ 2 1 + +  ≤ Yi ≤ Yˆ
i + t α σˆ 2
1 + +   = 1−α
 
 n S 
 
 n S  
 2 XX 2 XX
Exemplo:
Suponha que exista uma relação linear entre as variáveis X = despesas com propaganda
e Y = vendas de certo produto. Considerando os dados abaixo, determine a reta de
mínimos quadrados, os testes e o coeficiente de explicação:
X (milhões de reais) Y (milhares de unidades)

1,5 120
5,5 190
10,0 240
3,0 140
7,5 180
5,0 150
13,0 280
4,0 110
9,0 210
12,5 220
15,0 310
Primeiramente, devemos fazer o seguinte:
X (milhões de reais) Y (milhares de unidades) XY X² Y²

1,5 120 180 2,25 14400
5,5 190 1045 30,25 36100
10,0 240 2400 100 57600
3,0 140 420 9 19600
7,5 180 1350 56,25 32400
5,0 150 750 25 22500
13,0 280 3640 169 78400
4,0 110 440 16 12100
9,0 210 1890 81 44100
12,5 220 2750 156,25 48400
15,0 310 4650 225 96100
Total 86 2150 19515 870 461700
Usando as fórmulas dadas, temos:
Y =
∑Y =
2150
= 195,45 X =
∑X =
86
= 7,82
n 11 n 11
S XY = ∑ XY −
∑ X ∑Y = 19515 −
86(2150)
= 2705,91
n 11
(∑ X ) 2
(86)2
S XX = ∑ X 2
− = 870 − = 197,64
n 11
(∑ Y ) 2
(2150 )
2
S YY = ∑Y − 2
= 461700 − = 41472,73
n 11
S XY 2705,91
b= = = 13,69
S XX 197,64
a = Y − bX = 195,45 − 13,69(7,82) = 88,39
Então, o modelo Yˆ = a + bX , fica Yˆ = 88,39 + 13,69 X
i i i i
Teste dos coeficientes do modelo
i) hipótese
H0: α e β = 0
H1 α e β ≠ 0
ii) para α = 5%, temos t, com n – 2 g. l. igual a 2,2622
iii) cálculo da variável de teste

b−β 13,69
t= = = 8,71
S 22,18
S 197,64
XX
S YY − b 2 S XX S YY − bS XY 41472,73 − 13,69(2705,91)
Onde: S 2 = = → S2 = = 492,06
n−2 n−2 9
S = S 2 = 492,06 = 22,18
Como o valor da variável de teste é maior que valor de t tabulado, rejeitamos H0.
Teste F para a regressão
i) hipótese
H0: não existe regressão
H1 : existe regressão
ii) para α = 5%, temos F, com 1 e n – 2 g. l. igual a 5,12.
iii) cálculo da variável de teste

SQM E VE bS XY 13,69(2705,91)
F= = = 2 = = 75,28
SQM R S 2 S 492,06
Como o valor da variável de teste é maior que valor de F tabulado, rejeitamos H0.
VE bS XY (13,69)(2705,91)
O Coeficiente de explicação é dado por: R 2 = = = = 0,89 ou 89%.
VT S YY 41472,73
Este resultado indica que o modelo explica 89% da variação total de Y
Saída de um Pacote Estatístico - R
Call:
lm(formula = dados$Y ~ dados$X)
Residuals:
Min 1Q Median 3Q Max
-39.555 -8.984 10.513 14.136 26.284
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 88.413 14.027 6.303 0.00014 ***
dados$X 13.691 1.577 8.680 1.15e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 22.17 on 9 degrees of freedom

Multiple R-squared: 0.8933, Adjusted R-squared: 0.8814
F-statistic: 75.35 on 1 and 9 DF, p-value: 1.147e-05
21. Determinação do Tamanho da Amostra
Para determinar o tamanho da amostra, devemos saber qual é a dimensão da população que servirá
de base para o estudo, ou seja, o valor de N.
Uma população é dita finita quando se consegue enumerar todos os elementos que a formam.
Refere-se a um universo limitado em uma dada unidade de tempo. Exemplificando pode-se dizer
que a quantidade de automóveis produzidos por uma fábrica em um mês, a população de uma
cidade e o número de alunos de uma sala de aula são exemplos de uma população finita.
Uma população é dita infinita quando os elementos não podem ser contados. Refere-se a um
universo não delimitado. Os resultados (cara ou coroa) obtidos em sucessivos lances de uma moeda,
o conjunto dos números inteiros, reais ou naturais são exemplos de populações infinitas.
Então, temos o seguinte:
Para média:
População Finita População Infinita
Z 2 .σ 2 . N  Z .σ 
2
n= n= 
ε 2 ( N − 1) + Z 2σ 2  ε 
Para a proporção:
População Finita População Infinita

Z 2 . P.Q. N
n= Z 2 .P.Q
ε 2 ( N − 1) + Z 2 .P.Q n=
ε2
Onde:
Z = abscissa da distribuição normal padrão, fixado um nível de (1 – α)% de confiança para a
construção de um intervalo de confiança; Z pode assumir os seguintes valores:
Se o nível for de 95,5%, Z = 2
Se o nível for de 95%, Z = 1,96
Se o nível for de 99%, Z = 2,57
σ = desvio padrão da população; quando não sabemos este valor, substituímos por s, ou seja, o
desvio padrão amostral
ε = é o erro amostral admitido
N = tamanho da população
P = proporção populacional; quando não sabemos este valor, substituímos por p, ou seja, o valor da
proporção amostral
Q = 1 – P; quando não temos este valor, substituímos por q =1 – p
Quando não se conhecem os valores populacionais σ2, P e Q, utilizam-se os valores amostrais s2, p
e q, nas fórmulas acima.
Bibliografia:
Bussab, Wilton de O., Morettin, Pedro A. Estatística Básica. 8. Ed. São Paulo: Saraiva, 2013.
Morettin, Luiz Gonzaga. Estatística Básica: Probabilidade e Inferência. Volume único. São Paulo:
Ed. Pearson, 2011.
Belfiore, Patrícia, Estatística Aplicada a Administração, Contabilidade e Economia com Excel e

SPSS. 1. Ed. Rio de Janeiro: Elsevier, 2015.
Pinheiro, João Ismael D. et al. Estatística Básica: a arte de trabalhar com dados. 2. Ed. Rio de
Janeiro: Elsevier, 2015
Martins, Gilberto de Andrade. Estatística Geral e Aplicada. 3. Ed. São Paulo: Atlas, 2008.
Costa Neto, Pedro Luis de Oliveira. Estatística. São Paulo: Edgard Blücher, 1977.
Lista completa: https://www.conre6.org.br/referencias-bibliograficas
Tabelas
I - Tabela Distribuição Normal
II - Tabela Distribuição Qui-quadrado
III - Tabela Distribuição t-Student
IV - Tabela Distribuição F-Snedecor
Dados

Estatística para Cursos de Nível Superior: Prof MSC Gilbert Queiroz Dos Santos

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estatística para Cursos de Nível Superior: Prof MSC Gilbert Queiroz Dos Santos

Enviado por

Direitos autorais:

Formatos disponíveis

ESTATÍSTICA PARA CURSOS

Prof Msc Gilbert Queiroz dos Santos

7. Níveis de mensuração dos dados 10

8. Obtenção dos dados 11

10. Apresentação Tabular 16

11. Séries estatísticas 18

12. Representação gráfica das séries estatísticas 33

13. Características numéricas de uma distribuição de freqüências 41

13.1.1 Medidas de Tendência Central 41

13.2 Medidas de Dispersão 66

13.3 Momentos de uma distribuição 73

13.4 Medidas de forma de uma distribuição 74

14. Estatística Indutiva 84

15. Testes de Hipótese 108

16. Análise da Variância: ANOVA 115

17. Análise de dados categorizados 126

18. Correlação 132

19. Método dos Mínimos Quadrados 136

20. Análise de Regressão 141

21. Determinação do Tamanho da Amostra 149

Tabelas (Dist. Normal, Qui-quadrado, t-Student e F-Snedecor) 151

Pode-se dizer que:

“Estatística é a ciência do aprendizado a partir dos dados.”

Mas o que são os dados???

Eles podem ser:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 4

Suas fases ou etapas principais são:

1º - DEFINIÇÃO DO PROBLEMA: Saber exatamente aquilo que se pretende pesquisar é

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 5

Que trata da medição da ocorrência de eventos sujeitos ao aspecto de aleatoriedade.

Ex: população de um país, população de um estado, população de município, população de um

b) Amostra- é um subconjunto de uma população, necessariamente finito, pois todos os seus

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 6

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 7

Critério de classificação Classes de variáveis

a) Dados Nominais ou categóricos: são aqueles que se referem ao agrupamento e classificação de

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 8

Nominal Ordinal Discreta Contínua

sexo, raça, Classe Número de Peso,

Quanto à organização, os dados podem ser classificados em:

b) Rol – é um arranjo de dados numéricos em ordem crescente ou decrescente de grandeza.

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 9

Na aplicação da Estatística a problemas reais, o nível de mensuração dos dados é um fator de

a) Nível Nominal de Mensuração

b) Nível Ordinal de Mensuração

c) Nível Intervalar de Mensuração

Temos o seguinte resumo para os níveis de mensuração:

Níveis Tipo de dados Operações

Ordinal Não numéricos Contagem, Proporção

Intervalar Numéricos Contagem, proporção, médias

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 10

Podemos obter os dados da seguinte forma:

1) Realizando um censo, ou seja, realizando a coleção de dados obtidos de todos os membros da

9.1 Métodos de Amostragem Probabilística

Os métodos de amostragem probabilísticas mais conhecidos são:

Os métodos de amostragem não-probabilísticas são:

9.2 Determinação Inicial do Tamanho da Amostra

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 11

Por exemplo: se ε = 0,05 e N = 200.000, temos:

Se aumentarmos o erro, por exemplo, para ε = 0,10, teremos:

É necessário considerar que amostra deve ser representativa da população, ou seja:

Apostila de Estatística - Prof. GILBERT QUEIROZ DOS SANTOS - DEMA/UFC - 2022 12

Ou seja, o que influência o tamanho da amostra é o tamanho da população em estudo e o erro